語尾変換プログラムで変換されたページが検索エンジンにインデックスされてしまい、それを見たオリジナルのサイトの作者が困っている。私は、語尾変換プロキシのサービス提供者はロボット避けを実装すべきだと考える。
によないざーが不評です
http://circle.cc.hokudai.ac.jp/cgi/ryu/tdiary/index.rb?date= ...
また、以下のようにページ自体の存在に困惑している人もいるようだ。
ツッコミ[6]
http://circle.cc.hokudai.ac.jp/cgi/ryu/tdiary/index.rb?date= ...
たとえば、「によないざー」という語尾変換プログラムを通すと、朝日新聞社の asahi.com も以下のように語尾に「にょ」が付く。
http://circle.cc.hokudai.ac.jp/cgi/ryu/rplace.rb?source=uri& ...
翻訳サイトなども同じような技術を使っている。以下は、Landscape を英語に翻訳したページ。こちらは当然ながら変換対象は語尾にとどまらない。
http://www.excite.co.jp/world/english/web/?wb_url=http%3A%2F ...
まず、変換結果ページが検索エンジンに載らないようにすることが効果的だろう。そうすれば人目に触れることが少なくなり、変換ページが内輪で完結する確率が高くなる。変換プログラム作成者側としても、オリジナルページの作成者から苦情があったときに「検索エンジンには載らないように対処してます」と言えるし。
meta タグによるロボット避けでもいいし、robots.txt によるロボット避けでもいい。
ちなみに前述のエキサイトの翻訳サービスでは robots.txt によるロボット避けを設定している。
http://www.excite.co.jp/robots.txt
次に、GET メソッドを使わずに、POST メソッドを使うこと。POST するには基本的にフォームを使う必要があるので、一般のユーザーには「変換アプリケーション」という特別なシステムである、という印象を与えることができる。特別なものなので、ただ、これだと問題があって、変換結果のページからリンクをたどったときは GET になってしまうので、JavaSctipt などで一工夫する必要がある。
あとは、エキサイトの翻訳サービスのように上部にフレームを設けたりするなどして、迷い込んできたユーザに情報を提示するなどしてもいい。
2004-02-07 の 「クマー アスキーアート化 Bookmarklet」も語尾変換プログラムと同じような技術だが、変換後のページの URL が存在しないという点が大きく異なる。何かのリソースに URL を与えると、そのリソースは「アクセスされたがっている」状態になる。その「アクセスされたがっている」リソースのせいで問題が起きるなら、それを解決する仕組みを考えなければならない。
時間がないので、今日はここまで。当記事にはあとで追記するかもしれない。
- 語尾変換プログラムの何が問題なのか
語尾変換プログラムを通した後の変換結果ページが Google などの検索エンジンにインデックスされ、多数の人の目に触れることが問題。によないざーが不評です
http://circle.cc.hokudai.ac.jp/cgi/ryu/tdiary/index.rb?date= ...
によないざーとは、昔作ったプログラムで、これを通すと語尾がにょ。になる似非変換プロキシーである。 はすみないざーなどにインスパイヤされて作成したものだ。
が、これによって変換された結果が、googleの検索結果に載るらしく、当該サイトの管理人さんから苦情のメールが来た。しかも僕個人宛ではなくサークルサーバー委員会あてである。
googleの検索結果にまで文句言われてもなあ。というのが正直なところなのだが。どういう対応が正解なのだろうか。
また、以下のようにページ自体の存在に困惑している人もいるようだ。
ツッコミ[6]
http://circle.cc.hokudai.ac.jp/cgi/ryu/tdiary/index.rb?date= ...
突然の書き込みお許し下さい。
先日、私のブログがそちらのプログラムで語尾を書き換えされたものがアップさせているのをみつけました。プログラムをみて誰かがやったものが残ってるのかと思いますが・・・どうやったら削除できますか。メールアドレスが公開されていなかったので・・・こちらで、すみません。
- 語尾変換プログラムとは
語尾変換プログラムは、文章の一部をを書き換える機能を持つ。たとえば、「によないざー」という語尾変換プログラムを通すと、朝日新聞社の asahi.com も以下のように語尾に「にょ」が付く。
http://circle.cc.hokudai.ac.jp/cgi/ryu/rplace.rb?source=uri& ...
翻訳サイトなども同じような技術を使っている。以下は、Landscape を英語に翻訳したページ。こちらは当然ながら変換対象は語尾にとどまらない。
http://www.excite.co.jp/world/english/web/?wb_url=http%3A%2F ...
- 語尾変換プログラム作成者は何をすればいいのか
変換結果を見たオリジナルページの作成者から問い合わせを受け、それに一つ一つ対処するというやり方では、双方の手間がかかりすぎる。また、そういった対処を煩わしく感じる語尾変換プログラム作成者がサービスをやめてしまうというのも寂しい。オリジナルページの作成者、語尾変換プログラム作成者、変換プログラム利用者それぞれにメリットがあるようするのが理想。まず、変換結果ページが検索エンジンに載らないようにすることが効果的だろう。そうすれば人目に触れることが少なくなり、変換ページが内輪で完結する確率が高くなる。変換プログラム作成者側としても、オリジナルページの作成者から苦情があったときに「検索エンジンには載らないように対処してます」と言えるし。
meta タグによるロボット避けでもいいし、robots.txt によるロボット避けでもいい。
ちなみに前述のエキサイトの翻訳サービスでは robots.txt によるロボット避けを設定している。
http://www.excite.co.jp/robots.txt
User-agent: *
Disallow: /relocate/
Disallow: /search.gw
Disallow: /world/english/web/body
Disallow: /world/chinese/web/body
Disallow: /world/korean/web/body
次に、GET メソッドを使わずに、POST メソッドを使うこと。POST するには基本的にフォームを使う必要があるので、一般のユーザーには「変換アプリケーション」という特別なシステムである、という印象を与えることができる。特別なものなので、ただ、これだと問題があって、変換結果のページからリンクをたどったときは GET になってしまうので、JavaSctipt などで一工夫する必要がある。
あとは、エキサイトの翻訳サービスのように上部にフレームを設けたりするなどして、迷い込んできたユーザに情報を提示するなどしてもいい。
- URL を与えるということ
個人的には、こういった変換プログラムは好きだ。「大阪弁変換プロキシ」とかで楽しんだ覚えがあるし。2004-02-07 の 「クマー アスキーアート化 Bookmarklet」も語尾変換プログラムと同じような技術だが、変換後のページの URL が存在しないという点が大きく異なる。何かのリソースに URL を与えると、そのリソースは「アクセスされたがっている」状態になる。その「アクセスされたがっている」リソースのせいで問題が起きるなら、それを解決する仕組みを考えなければならない。
時間がないので、今日はここまで。当記事にはあとで追記するかもしれない。
- すべての記事の見出し (全1029件)
- 全カテゴリの一覧と記事の数
- カテゴリごとに記事をまとめ読みできます。記事の表題だけを見たい場合は、すべての記事の見出し (カテゴリ別表示) へ。
- .net (57件)
- 2ch (19件)
- amazon (5件)
- Apache (22件)
- bash (13件)
- Bookmarklet (9件)
- C# (45件)
- chalow (18件)
- ChangeLog メモ (20件)
- coLinux (2件)
- CSS (5件)
- Delphi (5件)
- DVD (6件)
- Excel (1件)
- F-ZERO (4件)
- FF12 (31件)
- ftp (8件)
- Google (21件)
- gpg (7件)
- HTML (19件)
- http (19件)
- IE (10件)
- IIS (4件)
- iPod (2件)
- JavaScript (14件)
- Linux (63件)
- MCP (6件)
- Mozilla (14件)
- MS SQL Server (30件)
- MySQL (4件)
- Namazu (3件)
- PC (48件)
- Perl (58件)
- PHP (2件)
- Postgres (36件)
- proftpd (2件)
- qmail (1件)
- RFC (4件)
- RSS (33件)
- Ruby (15件)
- samba (3件)
- sonic64.com (6件)
- SQL (15件)
- Squid (3件)
- ssh (7件)
- Subversion (3件)
- unix (31件)
- VSS (2件)
- Windows (34件)
- winny (9件)
- XML (9件)
- xyzzy (17件)
- おいでよ どうぶつの森 (19件)
- お菓子 (5件)
- アスキーアート (13件)
- アニメ (9件)
- クレジットカード (2件)
- ゲーム (120件)
- シェルスクリプト (18件)
- シレン2 (8件)
- セキュリティ (9件)
- ソフトウェア (21件)
- デザインパターン (2件)
- ネットワーク (30件)
- バックアップ (17件)
- プログラミング (14件)
- マリオカートDS (3件)
- メール (26件)
- メモ (116件)
- ラーメン (11件)
- 音楽 (59件)
- 給油 (3件)
- 三国志大戦 (13件)
- 車 (7件)
- 書斎 (4件)
- 食 (30件)
- 買い物 (17件)
- 簿記 (8件)
- 本 (32件)
- 漫画 (9件)
- 2007-04-23 (Mon)
- 2007-03-07 (Wed)
- 2007-02-27 (Tue)
- 2007-01-17 (Wed)
- 2007-01-15 (Mon)
- 2007-01-14 (Sun)
- 2007-01-08 (Mon)
- 2006-12-01 (Fri)
- 2006-11-22 (Wed)
- 2006-11-20 (Mon)
- 2006-11-19 (Sun)
- 2006-09-30 (Sat)
- 2006-08-29 (Tue)
- 2006-08-04 (Fri)
- 2006-07-27 (Thu)
- 2006-07-23 (Sun)
- 2006-07-17 (Mon)
- 2006-07-10 (Mon)
- 2006-07-06 (Thu)
- 2006-07-03 (Mon)
- 2006-06-29 (Thu)
- 2006-06-28 (Wed)
- 2006-06-27 (Tue)
- 2006-06-25 (Sun)
- 2006-06-19 (Mon)
- 2006-06-18 (Sun)
- 2006-06-15 (Thu)
- 2006-06-11 (Sun)
- 2006-06-01 (Thu)
- 2006-05-30 (Tue)
- プロファイル
- 斎藤 宏明。エンジニアです。宇都宮市に住んでいます。
- リンク
- RSS
- スポンサードリンク
- Powered by
- ☆さくらインターネット☆