2ちゃんねるの過去ログが消滅の危機に瀕している。
■ 過去ログ全部あきらめます〜
http://qb3.2ch.net/test/read.cgi/operate/1085244404/l50
全部の過去ログが消えるわけではない。しかし、unix 板などの有用な情報があった pc3.2ch.net も含まれている。これはまずい。
http://qb3.2ch.net/test/read.cgi/operate/1085244404/8
まとめ wiki ■ 過去ログ全部あきらめます〜 - いきいき Wiki
http://info.2ch.net/wiki/pukiwiki.php?%A2%A3%A1%A1%B2%E1%B5% ...
過去ログは財産。その財産が消え去ろうとしている。こりゃ大変だ、あきらめきれーん、ということで私も参戦。板毎にダウンロードするのは面倒なのでサーバまるごとダウンロードすることにした。まずは pc3.2ch.net を、あとはディスクが許す限りやることにする。
しかし、wget はapche の mod_autoindex が生成した index.html まで取得してしまって非効率的。しかも、FancyIndexing のリンクである http://food3.2ch.net/_datArea/?M=A といったものまで取得してしまっている。-A オプションで dat と tar 以外を除外しているおかげで
wget はなんだか上記のように挙動不審なので lftp を使うことにした。lftp は余計な index.html を保存したりしないので楽だ。ただ、lftp はディレクトリ構造の再現がいまいち。ルートからではなく、ダウンロードを指定したディレクトリからしか再現してくれない。つまり、以下のようにいちいちサーバ毎にディレクトリを作らなければならない。まあ、ダウンロードしようと思ってるサーバは3つくらいなのでたいした手間じゃないんだけど。
wget、lftp ともにツールとしての性質が出ていて面白い。wget はウェブサイトをまるごとダウンするので、リンクは基本的にすべてたどる。複数のウェブサーバを一気に保存したりするので、サーバのルートディレクトリからのディレクトリ構造を再現して保存する。
lftp は ftp ツールなので、ディレクトリのインデックスはデフォルトで保存しない。また、ftp サーバは http サーバに比べて容量が大きく、一つのサーバで大量のファイルをサービスする傾向があるため、複数の ftp サーバを一気にミラーすることはあまりない。その結果、ディレクトリ構造の再現は最小限になる。
Unix でも Windows でも扱いやすく、高い圧縮率を得られる tar + bzip2 を使うことにした。
わざわざ tar の出力を標準出力にして bzip2 にパイプしているのは、tar の -j, --bzip2 オプションだと bzip2 圧縮率指定 が最高圧縮の -9 すなわち --best にならなかったから。今回は1バイトでも削っておきたいので、こういう指定となった。
みみずん氏のところで一括して引き受けるという話もあるが、彼は過去何度か RAID アレイを吹っ飛ばしているので、他にも保存しておきたいところ。winny とか BitTorrent などでも配布したいし、ホスティングしてくれるならそこに置いておきたい。
■ 過去ログ全部あきらめます〜
http://qb3.2ch.net/test/read.cgi/operate/1085244404/l50
1 :倉庫番 ★ :04/05/23 01:46 ID:???
移転竹縄ですが、
板の移転はなんとか間に合わせる予定ですが、
過去ログの移転はすっぱりとあきらめてください。
もし必要な人は勝手に落として持っていってください。
memories.2ch.net に入っていない過去ログは開放します。
要望して、誰かまとめてください。開放します、
全部の過去ログが消えるわけではない。しかし、unix 板などの有用な情報があった pc3.2ch.net も含まれている。これはまずい。
http://qb3.2ch.net/test/read.cgi/operate/1085244404/8
(略)
ということで消えるかもしれないのは
life2 salami money2 pc3 love2 tv2
school2 (food3) (society) (etc) (academy2)
life4 (bg3) (qb2) (qb4) (qb3) (science2)
music3
まとめ wiki ■ 過去ログ全部あきらめます〜 - いきいき Wiki
http://info.2ch.net/wiki/pukiwiki.php?%A2%A3%A1%A1%B2%E1%B5% ...
HEとの契約が5/29で切れるので、現在PIEへのお引っ越し作戦を展開しています。
しかし、時間的都合で過去ログを放棄せざるを得ない事態となりました。
みみずんさんでも保管すべく努力していますが、
200G近くの量で間に合うのか微妙な情勢です。
そこで過去ログ保管作戦を展開中です。
過去ログは財産。その財産が消え去ろうとしている。こりゃ大変だ、あきらめきれーん、ということで私も参戦。板毎にダウンロードするのは面倒なのでサーバまるごとダウンロードすることにした。まずは pc3.2ch.net を、あとはディスクが許す限りやることにする。
- ダウンロードには lftp を使用した
wiki では GetHTMLW を紹介しているが、コマンドラインからやりたいのでまず wget を使うことにした。丸ごと取得するときはよくお世話になってるし。$ wget -r -A .dat -np http://pc3.2ch.net/_datArea/
しかし、wget はapche の mod_autoindex が生成した index.html まで取得してしまって非効率的。しかも、FancyIndexing のリンクである http://food3.2ch.net/_datArea/?M=A といったものまで取得してしまっている。-A オプションで dat と tar 以外を除外しているおかげで
Removing food3.2ch.net/_datArea/?M=A index.html@N=D since it should be rejectedと表示されて保存はなされないようだが、そもそも html をパースする時点で除外して欲しいな。
wget はなんだか上記のように挙動不審なので lftp を使うことにした。lftp は余計な index.html を保存したりしないので楽だ。ただ、lftp はディレクトリ構造の再現がいまいち。ルートからではなく、ダウンロードを指定したディレクトリからしか再現してくれない。つまり、以下のようにいちいちサーバ毎にディレクトリを作らなければならない。まあ、ダウンロードしようと思ってるサーバは3つくらいなのでたいした手間じゃないんだけど。
$ mkdir food3.2ch.net
$ cd food3.2ch.net
$ lftp -c 'mirror --verbose=3 http://life3.2ch.net/_datArea/'
wget、lftp ともにツールとしての性質が出ていて面白い。wget はウェブサイトをまるごとダウンするので、リンクは基本的にすべてたどる。複数のウェブサーバを一気に保存したりするので、サーバのルートディレクトリからのディレクトリ構造を再現して保存する。
lftp は ftp ツールなので、ディレクトリのインデックスはデフォルトで保存しない。また、ftp サーバは http サーバに比べて容量が大きく、一つのサーバで大量のファイルをサービスする傾向があるため、複数の ftp サーバを一気にミラーすることはあまりない。その結果、ディレクトリ構造の再現は最小限になる。
- ダウンロード完了後の圧縮
どんな OS でどのように利用するかわからないので、できるだけ流通性の高い圧縮形式を使うべきだ。もちろん圧縮率が高い方が望ましいが、いきなり 7zip とか rar を使うのではなく、もっと一般的な形式を使うのが望ましい。Unix でも Windows でも扱いやすく、高い圧縮率を得られる tar + bzip2 を使うことにした。
$ tar -cf - _datArea/ |bzip2 -9 >pc3.2ch.net.tar.bz2
わざわざ tar の出力を標準出力にして bzip2 にパイプしているのは、tar の -j, --bzip2 オプションだと bzip2 圧縮率指定 が最高圧縮の -9 すなわち --best にならなかったから。今回は1バイトでも削っておきたいので、こういう指定となった。
- 念のため md5 ハッシュを取得
改竄や破損を検出するため、念のため md5 を取っておくことにした。$ cd food3.2ch.net
$ find . -type f |xargs md5sum >md5sum.txt
- 再配布
アーカイブは chemistry.homeunix.com にアップロードした。みみずん氏のところで一括して引き受けるという話もあるが、彼は過去何度か RAID アレイを吹っ飛ばしているので、他にも保存しておきたいところ。winny とか BitTorrent などでも配布したいし、ホスティングしてくれるならそこに置いておきたい。
720 :外野ァァン [sage] :04/05/23 13:39 ID:vFyxZD8a
みんながダウンロードした過去ログをまた2chに差し戻す可能性はないのかしらん>倉庫番 ★
726 :倉庫番 ★ :04/05/23 13:51 ID:???
>>720
ないですー
誰かがhtml化して恒久的に公開してくれるとか、
753 : [sage] :04/05/23 14:26 ID:HgiLqlPV
>>726
戻さないんですか、残念です。
どっか公開できるサーバを立てないとダメだな・・・。
- 今回使ったトリップ
◆rnmDirfV5E- すべての記事の見出し (全1029件)
- 全カテゴリの一覧と記事の数
- カテゴリごとに記事をまとめ読みできます。記事の表題だけを見たい場合は、すべての記事の見出し (カテゴリ別表示) へ。
- .net (57件)
- 2ch (19件)
- amazon (5件)
- Apache (22件)
- bash (13件)
- Bookmarklet (9件)
- C# (45件)
- chalow (18件)
- ChangeLog メモ (20件)
- coLinux (2件)
- CSS (5件)
- Delphi (5件)
- DVD (6件)
- Excel (1件)
- F-ZERO (4件)
- FF12 (31件)
- ftp (8件)
- Google (21件)
- gpg (7件)
- HTML (19件)
- http (19件)
- IE (10件)
- IIS (4件)
- iPod (2件)
- JavaScript (14件)
- Linux (63件)
- MCP (6件)
- Mozilla (14件)
- MS SQL Server (30件)
- MySQL (4件)
- Namazu (3件)
- PC (48件)
- Perl (58件)
- PHP (2件)
- Postgres (36件)
- proftpd (2件)
- qmail (1件)
- RFC (4件)
- RSS (33件)
- Ruby (15件)
- samba (3件)
- sonic64.com (6件)
- SQL (15件)
- Squid (3件)
- ssh (7件)
- Subversion (3件)
- unix (31件)
- VSS (2件)
- Windows (34件)
- winny (9件)
- XML (9件)
- xyzzy (17件)
- おいでよ どうぶつの森 (19件)
- お菓子 (5件)
- アスキーアート (13件)
- アニメ (9件)
- クレジットカード (2件)
- ゲーム (120件)
- シェルスクリプト (18件)
- シレン2 (8件)
- セキュリティ (9件)
- ソフトウェア (21件)
- デザインパターン (2件)
- ネットワーク (30件)
- バックアップ (17件)
- プログラミング (14件)
- マリオカートDS (3件)
- メール (26件)
- メモ (116件)
- ラーメン (11件)
- 音楽 (59件)
- 給油 (3件)
- 三国志大戦 (13件)
- 車 (7件)
- 書斎 (4件)
- 食 (30件)
- 買い物 (17件)
- 簿記 (8件)
- 本 (32件)
- 漫画 (9件)
- 2007-04-23 (Mon)
- 2007-03-07 (Wed)
- 2007-02-27 (Tue)
- 2007-01-17 (Wed)
- 2007-01-15 (Mon)
- 2007-01-14 (Sun)
- 2007-01-08 (Mon)
- 2006-12-01 (Fri)
- 2006-11-22 (Wed)
- 2006-11-20 (Mon)
- 2006-11-19 (Sun)
- 2006-09-30 (Sat)
- 2006-08-29 (Tue)
- 2006-08-04 (Fri)
- 2006-07-27 (Thu)
- 2006-07-23 (Sun)
- 2006-07-17 (Mon)
- 2006-07-10 (Mon)
- 2006-07-06 (Thu)
- 2006-07-03 (Mon)
- 2006-06-29 (Thu)
- 2006-06-28 (Wed)
- 2006-06-27 (Tue)
- 2006-06-25 (Sun)
- 2006-06-19 (Mon)
- 2006-06-18 (Sun)
- 2006-06-15 (Thu)
- 2006-06-11 (Sun)
- 2006-06-01 (Thu)
- 2006-05-30 (Tue)
- プロファイル
- 斎藤 宏明。エンジニアです。宇都宮市に住んでいます。
- リンク
- RSS
- スポンサードリンク
- Powered by
- ☆さくらインターネット☆