Landscape トップページ | < 前の日 2004-05-22 2004-05-23 次の日 2004-05-24 >

Landscape - エンジニアのメモ 2004-05-23

過去ログ全部あきらめます ←あきらめきれーん


* 過去ログ全部あきらめます ←あきらめきれーん

この記事の直リンクURL: Permlink | この記事が属するカテゴリ: [2ch]

2ちゃんねるの過去ログが消滅の危機に瀕している。

■ 過去ログ全部あきらめます〜
http://qb3.2ch.net/test/read.cgi/operate/1085244404/l50
1 :倉庫番 ★ :04/05/23 01:46 ID:???
移転竹縄ですが、
板の移転はなんとか間に合わせる予定ですが、
過去ログの移転はすっぱりとあきらめてください。

もし必要な人は勝手に落として持っていってください。
memories.2ch.net に入っていない過去ログは開放します。
要望して、誰かまとめてください。開放します、

全部の過去ログが消えるわけではない。しかし、unix 板などの有用な情報があった pc3.2ch.net も含まれている。これはまずい。

http://qb3.2ch.net/test/read.cgi/operate/1085244404/8
(略)

ということで消えるかもしれないのは
life2 salami money2 pc3 love2 tv2
school2 (food3) (society) (etc) (academy2)
life4 (bg3) (qb2) (qb4) (qb3) (science2)
music3

まとめ wiki ■ 過去ログ全部あきらめます〜 - いきいき Wiki
http://info.2ch.net/wiki/pukiwiki.php?%A2%A3%A1%A1%B2%E1%B5% ...
HEとの契約が5/29で切れるので、現在PIEへのお引っ越し作戦を展開しています。
しかし、時間的都合で過去ログを放棄せざるを得ない事態となりました。
みみずんさんでも保管すべく努力していますが、
200G近くの量で間に合うのか微妙な情勢です。
そこで過去ログ保管作戦を展開中です。

過去ログは財産。その財産が消え去ろうとしている。こりゃ大変だ、あきらめきれーん、ということで私も参戦。板毎にダウンロードするのは面倒なのでサーバまるごとダウンロードすることにした。まずは pc3.2ch.net を、あとはディスクが許す限りやることにする。

- ダウンロードには lftp を使用した

wiki では GetHTMLW を紹介しているが、コマンドラインからやりたいのでまず wget を使うことにした。丸ごと取得するときはよくお世話になってるし。

$ wget -r -A .dat -np http://pc3.2ch.net/_datArea/

しかし、wget はapche の mod_autoindex が生成した index.html まで取得してしまって非効率的。しかも、FancyIndexing のリンクである http://food3.2ch.net/_datArea/?M=A といったものまで取得してしまっている。-A オプションで dat と tar 以外を除外しているおかげで
Removing food3.2ch.net/_datArea/?M=A index.html@N=D since it should be rejected
と表示されて保存はなされないようだが、そもそも html をパースする時点で除外して欲しいな。

wget はなんだか上記のように挙動不審なので lftp を使うことにした。lftp は余計な index.html を保存したりしないので楽だ。ただ、lftp はディレクトリ構造の再現がいまいち。ルートからではなく、ダウンロードを指定したディレクトリからしか再現してくれない。つまり、以下のようにいちいちサーバ毎にディレクトリを作らなければならない。まあ、ダウンロードしようと思ってるサーバは3つくらいなのでたいした手間じゃないんだけど。
$ mkdir food3.2ch.net
$ cd food3.2ch.net
$ lftp -c 'mirror --verbose=3 http://life3.2ch.net/_datArea/'

wget、lftp ともにツールとしての性質が出ていて面白い。wget はウェブサイトをまるごとダウンするので、リンクは基本的にすべてたどる。複数のウェブサーバを一気に保存したりするので、サーバのルートディレクトリからのディレクトリ構造を再現して保存する。

lftp は ftp ツールなので、ディレクトリのインデックスはデフォルトで保存しない。また、ftp サーバは http サーバに比べて容量が大きく、一つのサーバで大量のファイルをサービスする傾向があるため、複数の ftp サーバを一気にミラーすることはあまりない。その結果、ディレクトリ構造の再現は最小限になる。

- ダウンロード完了後の圧縮

どんな OS でどのように利用するかわからないので、できるだけ流通性の高い圧縮形式を使うべきだ。もちろん圧縮率が高い方が望ましいが、いきなり 7zip とか rar を使うのではなく、もっと一般的な形式を使うのが望ましい。

Unix でも Windows でも扱いやすく、高い圧縮率を得られる tar + bzip2 を使うことにした。
$ tar -cf - _datArea/ |bzip2 -9 >pc3.2ch.net.tar.bz2

わざわざ tar の出力を標準出力にして bzip2 にパイプしているのは、tar の -j, --bzip2 オプションだと bzip2 圧縮率指定 が最高圧縮の -9 すなわち --best にならなかったから。今回は1バイトでも削っておきたいので、こういう指定となった。

- 念のため md5 ハッシュを取得

改竄や破損を検出するため、念のため md5 を取っておくことにした。
$ cd food3.2ch.net
$ find . -type f |xargs md5sum >md5sum.txt

- 再配布

アーカイブは chemistry.homeunix.com にアップロードした。

みみずん氏のところで一括して引き受けるという話もあるが、彼は過去何度か RAID アレイを吹っ飛ばしているので、他にも保存しておきたいところ。winny とか BitTorrent などでも配布したいし、ホスティングしてくれるならそこに置いておきたい。

720 :外野ァァン [sage] :04/05/23 13:39 ID:vFyxZD8a
みんながダウンロードした過去ログをまた2chに差し戻す可能性はないのかしらん>倉庫番 ★


726 :倉庫番 ★ :04/05/23 13:51 ID:???
>>720
ないですー

誰かがhtml化して恒久的に公開してくれるとか、


753 : [sage] :04/05/23 14:26 ID:HgiLqlPV
>>726
戻さないんですか、残念です。
どっか公開できるサーバを立てないとダメだな・・・。

- 今回使ったトリップ

◆rnmDirfV5E

すべての記事の見出し (全1029件)
全カテゴリの一覧と記事の数
カテゴリごとに記事をまとめ読みできます。記事の表題だけを見たい場合は、すべての記事の見出し (カテゴリ別表示) へ。

直近30日分の記事
2007-04-23 (Mon)
2007-03-07 (Wed)
2007-02-27 (Tue)
2007-01-17 (Wed)
2007-01-15 (Mon)
2007-01-14 (Sun)
2007-01-08 (Mon)
2006-12-01 (Fri)
2006-11-22 (Wed)
2006-11-20 (Mon)
2006-11-19 (Sun)
2006-09-30 (Sat)
2006-08-29 (Tue)
2006-08-04 (Fri)
2006-07-27 (Thu)
2006-07-23 (Sun)
2006-07-17 (Mon)
2006-07-10 (Mon)
2006-07-06 (Thu)
2006-07-03 (Mon)
2006-06-29 (Thu)
2006-06-28 (Wed)
2006-06-27 (Tue)
2006-06-25 (Sun)
2006-06-19 (Mon)
2006-06-18 (Sun)
2006-06-15 (Thu)
2006-06-11 (Sun)
2006-06-01 (Thu)
2006-05-30 (Tue)
プロファイル
斎藤 宏明。エンジニアです。宇都宮市に住んでいます。
リンク
RSS
スポンサードリンク
Powered by
さくらインターネット

© 斎藤 宏明 Saito Hiroaki Gmail Address
Landscape - エンジニアのメモ http://sonic64.com/
Landscape はランドスケープと読みます。
ひらがなだと らんどすけーぷ です。