Landscape トップページ | < 前の日 2005-03-22 2005-03-23 次の日 2005-03-25 >

Landscape - エンジニアのメモ 2005-03-23

巨大な RSS/RDF/Atom を求めて


* 巨大な RSS/RDF/Atom を求めて

この記事の直リンクURL: Permlink | この記事が属するカテゴリ: [RSS] [XML]

巨大な RSS は男のロマンだという話。

- 108 件のRSS

Dead bookmark - 徹人28号が行く++
http://kitsune.info/blog/?itemid=434
さて、この freshmeat の RSS フィードですが、数ヶ月前まではほんの数件(たしかひと桁だったと思う)しかフィードしてくれませんでした。オープンソースソフトウェアは世界中で日夜開発が続けられているので、これではあっという間にフィードの中身が入れ替わってしまいます。当然見落としがあるでしょうから、これは不便な話でした。

ところがある時から、freshmeat のフィード件数が増えたのです。それもふたつみっつ増えたなんてレベルじゃありません。クリックするとモニタの下限まで行ってまだ余るくらいの数です。今までにいろいろな RSS フィードを見てきましたが、こんなに件数が多いフィードは見たことがありません。freshmeat に登録されているプロジェクトは 3万6千件以上あるらしいので、それもまた当然といえば当然なのですが、それにしても多すぎます。

先ほどふと思い立って、いったい何件フィードされているのか調べてみることにしました。方法は簡単。全フィードを個別のタブで開けばよいのです。私の Firefox は多段タブにしてあるので、全部開けばかけ算でフィード件数がわかります。

……あれ、Firefox が入力を受け付けなくなってしまった。さすがにこんなに開いたらメモリの食い過ぎか?

待つこと 10分。ようやくコントロールを取り戻した Firefox のタブを数えてみました。その数なんと 108枚。まさか 3桁の大台に乗るとは。普通 RSS フィードつーたらあーた、多くても 30件くらいでしょうが。

ちょうど108件なんて、除夜の鐘みたいだ。煩悩が詰まった RSS か。読んでみたいな。

でも、108件のフィードなんて大したこと無いですよ。手前味噌ながら、当サイト Landscape の RSS http://sonic64.com/cl-full.xml にはこの記事を含めて677件のフィードが入ってますから。freashmeat の RSS の約7倍の件数だから、70分あれば Firefox でも開けます。たぶん。

少食な RSS リーダの方には http://sonic64.com/cl.xml がおすすめ。直近7日分の記事しか入れていないので、全記事を格納した RSS に比べてとてもコンパクトです。

- 膨大な情報が詰まったテキストファイルは男のロマン

108件しか入ってないとはいえ、大きな RSS フィードというだけで興味をそそられる。ファイルサイズも巨大だとなお良い。2004-02-17 の「攻殻機動隊 S.A.C. 第5話を見る」でも書いたけど、テキストファイルに膨大な情報が詰まっているっていうだけでワクワクする。男のロマンだ。蛇足だけど、2004-02-17 に書いた「とあるデータファイル」とは、前述の Landscape の 全記事を格納したRSSのこと。

よし、freashmeat の RSS を見に行ってみよう。「俺より強い奴に会いに行く」って感じかな。

- freashmeat の RSS

http://freshmeat.net/ にアクセスすると、右上に XML アイコンがある。これかな。

freashmeat XML アイコンのリンク先
http://download.freshmeat.net/backend/
Files

fm-projects-0.1.dtd Mon May 5 08:14:45 2003  7979 bytes
fm-projects-0.2.dtd Mon May 5 08:15:15 2003  8140 bytes
fm-projects-0.3.dtd Mon Nov 10 00:04:05 2003  9209 bytes
fm-projects-0.4.dtd Mon Jan 3 01:38:10 2005  9454 bytes
fm-projects.rdf.bz2 Wed Mar 23 04:01:38 2005  7172546 bytes
fm-releases-global.xml Wed Mar 23 08:55:14 2005  80365 bytes
fm-releases-handhelds.xml Wed Mar 23 08:55:15 2005  1570 bytes
fm-releases-osx.xml Wed Mar 23 08:55:16 2005  9021 bytes
fm-releases-themes.xml Wed Mar 23 08:55:16 2005  394 bytes
fm-releases-unix.xml Wed Mar 23 08:55:29 2005  79254 bytes
fm-search-0.1.dtd Sun May 5 11:05:31 2002  7774 bytes
fm-search-0.2.dtd Mon Jan 3 01:37:54 2005  9194 bytes
fm-trove-0.1.dtd Tue Nov 4 04:30:30 2003  7113 bytes
fm-trove.rdf Wed Mar 23 04:03:08 2005  10186180 bytes
recentnews.txt Wed Mar 23 08:50:04 2005  953 bytes
rss-0.91.dtd Sun Nov 28 05:07:41 2004  8361 bytes

こりゃすごい。fm-trove.rdf がとくに突き抜けてる。10186180 bytes だって。カンマを振らないと読みにくいな。10,186,180 だから・・・約10メガバイトか。すごいな。当サイトの RSS の約3倍強のサイズだ。これは中も見てみなきゃね。bloglines で読んでみるか。

・・・って、あれ? http://www.bloglines.com/sub/http://download.freshmeat.net/b ... から購読しようとしたけどエラーになっちゃうな。

No feeds were found. Please verify that the website publishes an RSS feed.
あれ? これって RSS じゃないの?

- fm-trove.rdf の中身テキストエディタで見てみる

bloglines で見られないので、ダウンロードしてテキストエディタで開いてみる。

fm-trove.rdf
http://download.freshmeat.net/backend/fm-trove.rdf
<?xml version="1.0" encoding="ISO-8859-1"?>
<!DOCTYPE trove-listing SYSTEM "http://freshmeat.net/backend/fm-trove-0.1.dtd">
<trove-listing>
  <descriminator>
    <id>6</id>
    <name>Development Status</name>
    <parent_id>0</parent_id>
    <root_id>0</root_id>
  </descriminator>
  <descriminator>
    <id>7</id>
    <name>Development Status :: 1 - Planning (disabled category)</name>
    <parent_id>6</parent_id>
    <root_id>6</root_id>
    <projects>
      <project_id>302</project_id>
      <project_id>4754</project_id>
      <project_id>7408</project_id>
      <project_id>8708</project_id>
      <project_id>8805</project_id>
      <project_id>10136</project_id>
      <project_id>12161</project_id>
      <project_id>12568</project_id>
      <project_id>12784</project_id>
      <project_id>12850</project_id>
      <project_id>13629</project_id>
      <project_id>13896</project_id>
      <project_id>13960</project_id>
      <project_id>14018</project_id>
      <project_id>14045</project_id>
      <project_id>14295</project_id>
      <project_id>14408</project_id>
      <project_id>15813</project_id>
      <project_id>15865</project_id>
      <project_id>15919</project_id>
      <project_id>16233</project_id>
      <project_id>16315</project_id>
      <project_id>16339</project_id>
      <project_id>16978</project_id>
      <project_id>16979</project_id>
      <project_id>17218</project_id>
      <project_id>17303</project_id>
      <project_id>17336</project_id>
      <project_id>17337</project_id>
      <project_id>17692</project_id>
      <project_id>17906</project_id>
      <project_id>17966</project_id>
      <project_id>18118</project_id>
      <project_id>18336</project_id>
      <project_id>18759</project_id>
      <project_id>19086</project_id>
      <project_id>19763</project_id>
      <project_id>19923</project_id>
      <project_id>20175</project_id>
      <project_id>20317</project_id>
      <project_id>20329</project_id>
      <project_id>20415</project_id>
      <project_id>21161</project_id>
      <project_id>28022</project_id>
      <project_id>30241</project_id>
      <project_id>30545</project_id>
      <project_id>33206</project_id>
      <project_id>34481</project_id>
      <project_id>34484</project_id>
      <project_id>34517</project_id>
      <project_id>34767</project_id>
      <project_id>36449</project_id>
      <project_id>37421</project_id>
      <project_id>37855</project_id>
      <project_id>38283</project_id>
      <project_id>38800</project_id>
      <project_id>41048</project_id>
      <project_id>44057</project_id>
      <project_id>45123</project_id>
      <project_id>45242</project_id>
      <project_id>45682</project_id>
      <project_id>45747</project_id>
      <project_id>45759</project_id>
      <project_id>46083</project_id>
      <project_id>47001</project_id>
      <project_id>47421</project_id>
      <project_id>48002</project_id>
      <project_id>48778</project_id>
      <project_id>49010</project_id>
      <project_id>49154</project_id>
      <project_id>49984</project_id>
      <project_id>50637</project_id>
      <project_id>50810</project_id>
      <project_id>52002</project_id>
      <project_id>52649</project_id>
      <project_id>52707</project_id>
      <project_id>52747</project_id>
      <project_id>53131</project_id>
      <project_id>53231</project_id>
    </projects>
  </descriminator>

(以下略)

RDF ではあるけど、RSS じゃあないのか。残念。せっかく巨大な RSS に巡り会えたと思ったのにね。

というか、
<!DOCTYPE trove-listing SYSTEM "http://freshmeat.net/backend/fm-trove-0.1.dtd">
ってちゃんと書いてある。同じディレクトリに fm-trove-0.1.dtd などのファイルが置いてある時点で気づくべきだったな。

RSS で最大サイズなのは fm-releases-global.xml かな。
http://download.freshmeat.net/backend/fm-releases-global.xml

サイズは 80365バイト。うーん、大したことないね。「もっと強い奴と戦いたい!」って感じ。

あー、どこかに巨大な RSS や Atom は無いかな。アルバム1枚分の mp3 を Base64 エンコードして RSS に入れて配信するとか・・・これは巨大ではあるけど品性に欠けるか。そうだなあ、Wikipedia の全データを RSS に叩き込むとか、青空文庫の全作品を RSS にして配布するとか、そういうクールでアグレッシブなことをどこかでやってないかなあ。

すべての記事の見出し (全1029件)
全カテゴリの一覧と記事の数
カテゴリごとに記事をまとめ読みできます。記事の表題だけを見たい場合は、すべての記事の見出し (カテゴリ別表示) へ。

直近30日分の記事
2007-04-23 (Mon)
2007-03-07 (Wed)
2007-02-27 (Tue)
2007-01-17 (Wed)
2007-01-15 (Mon)
2007-01-14 (Sun)
2007-01-08 (Mon)
2006-12-01 (Fri)
2006-11-22 (Wed)
2006-11-20 (Mon)
2006-11-19 (Sun)
2006-09-30 (Sat)
2006-08-29 (Tue)
2006-08-04 (Fri)
2006-07-27 (Thu)
2006-07-23 (Sun)
2006-07-17 (Mon)
2006-07-10 (Mon)
2006-07-06 (Thu)
2006-07-03 (Mon)
2006-06-29 (Thu)
2006-06-28 (Wed)
2006-06-27 (Tue)
2006-06-25 (Sun)
2006-06-19 (Mon)
2006-06-18 (Sun)
2006-06-15 (Thu)
2006-06-11 (Sun)
2006-06-01 (Thu)
2006-05-30 (Tue)
プロファイル
斎藤 宏明。エンジニアです。宇都宮市に住んでいます。
リンク
RSS
スポンサードリンク
Powered by
さくらインターネット

© 斎藤 宏明 Saito Hiroaki Gmail Address
Landscape - エンジニアのメモ http://sonic64.com/
Landscape はランドスケープと読みます。
ひらがなだと らんどすけーぷ です。