★阿修羅♪ > IT10 > 182.html ★阿修羅♪ |
Tweet |
IPAが採択した「グーグル八分発見システム」の深意【CNETJAPAN】
永井美智子(編集部) 2007/08/31 18:14
いまやインターネットの世界で、検索エンジンなしの生活は考えられない。私たちは気になった単語や知りたいキーワードを検索ボックスに打ち込み、あらゆることを調べる。テレビCMでは「続きはウェブで検索!」という言葉までが登場するようになった。分からないことがあったときに「グーグル先生に訊いてみよう」というのは、インターネット業界の合い言葉になっている。
そんな中で、もし自分の運営しているサイトがある日突然、検索結果に表示されなくなったらどうだろう。訪問者数はおそらく激減し、サイトの広告や物販の売上は大きく落ち込んでしまうだろう。
ある日突然、グーグルの検索結果から自分のサイトが表示されなくなること――これは「グーグル八分」と呼ばれている。かつて村の掟を破った者が葬式と火事以外の交流を断たれた「村八分」になぞらえたもので、グーグルのポリシーに違反したサイトがグーグルの検索インデックスから削除され、グーグルで検索してもそのサイトが表示されない状態を指す。
このグーグル八分が現状どの程度行われているのかを知るためのシステムを開発しようというプロジェクトが始まった。「グーグル八分発見システムの開発」と題されたこのプロジェクトは、独立行政法人情報処理推進機構(IPA)の未踏ソフトウェア創造事業として採択され、IPAから開発資金が提供される。このシステムを開発するのは、「悪徳商法?マニアックス」のサイト管理人で、実際にグーグル八分を受けたことのある「beyond」こと吉本敏洋氏だ。
グーグル八分発見システムとはどのようなものなのか、そしてIPAがこのプロジェクトを採択した狙いはどういった点にあるのだろうか。吉本氏と、IPAの未踏ソフトウェア創造事業でプロジェクトマネージャー(PM)を務める筑波大学大学院システム情報工学研究科科長の田中二郎氏に聞いた。
グーグル八分発見システムとは何?
吉本氏によると、グーグル八分発見システムとはグーグルとほかの検索エンジンの検索結果を比較して、グーグルの検索結果だけに登場しないサイトを割り出すシステムだという。具体的には各検索エンジンの検索結果を数値化して偏差値を算出し、異常値がないかを探し出す。異常な数値が出た場合、そこにはその検索結果にだけ何らかの人為的な操作が行われている可能性が高い、という発想だ。
検索エンジン同士を比べるだけでなく、時期による比較も試みる。たとえば2007年8月8日と2008年8月8日の結果を見たときに、偏差値が大きく異なっていれば、その間に何か人為的な操作が行われた可能性がある。
ただ、あらゆる検索結果を分析するには、膨大な計算処理が必要となる。そこで吉本氏はインターネットを利用した分散処理を思いつく。地球外の知的生命体を探し出す「SETI@home」と同じように、分析用のクライアントソフトを配布し、多くの人のパソコンの余っている処理能力を生かそうというものだ。
クライアントソフトはそのPCの検索結果を解析し、偏差値を算出する機能を持つ。検索結果をそのまま利用するとプライバシーの侵害になりかねないことから、偏差値のみを中央サーバに送信してデータ処理する、といったことを考えているようだ。
「実験的に300サンプルほど使って解析したところ、ある程度の傾向が見えた」といい、1万件のクライアントソフトを配布することを目標としている。
IPAが採択したわけ
実は、IPAが評価したのはこのシステムの構造だ。PMの田中氏は、「グーグル八分をされているサイトを見つけるというだけだったら採択しなかった」と話す。
「クライアントソフトを配り、多くのパソコンのリソースを使うというシステムの枠組みが面白いと思った」(田中氏)
また、グーグルがもはや一企業のサービスという規模を超え、社会的なインフラになりつつあることから、今回のプロジェクトが持つ社会的なインパクトを評価したとのことだ。
実は吉本氏は前期の未踏プロジェクトにも応募していた。一度は不採用となったが、そのときに指摘された点を改善して再度応募したところ、採択されたという。
「システムを考えたときに1人の力では無理だと感じ、資金が必要だと思った。たまたまIPAのサイトを見ていたら、田中PMの募集要項にWeb APIを使ったシステム、という記載があり、これならいけるかもと思った。前期で指摘された点をきちんと反映して再応募した点も評価されたようだ」(吉本氏)
グーグルに対する疑問
未踏ソフトウェア創造事業は、次世代のIT市場の創出に貢献するような技術、またはビジネスシーズの実現に向けたソフトウェアの開発を対象としている。筑波大学大学院システム情報工学研究科の学生で、ソフトイーサ代表取締役会長の登大遊氏が開発したVPNソフトウェア「PacketiX」のように、製品化された技術も多い。
ただし今回のシステムについて吉本氏は、「事業化は考えていない」という。それは、「儲からないから」。それでもグーグル八分にこだわるのは、グーグルに対して疑問を感じているためだ。
吉本氏は「グーグルのやり方は、収益化のためにとにかく規模を大きくしようというもの。そういった企業姿勢は社会から叩かれることで社会との折り合いをつけていくが、グーグルに関しては誰も叩かない」と説明した。
グーグルに批判が集まりにくい理由は何か。吉本氏は2つの理由を指摘する。1つは、グーグルに相乗りする形で利益を得ている人が多くいることだ。検索エンジン最適化(SEO)の提供事業者などがその一例だが、検索連動型広告を出稿している企業や、コンテンツ連動型広告を掲載しているサイトの運営者などもそれにあたるだろう。簡単に言えば、グーグルの恩恵をこうむる人がインターネット業界には数多くいるということだ。
そしてもう1つは、グーグルと同じような方法で成長を狙う人の存在だ。「コミュニティーの管理ポリシーを明示せず、とにかく拡大を狙うというところは多い。こういった人が、グーグルのやり方を叩けるわけがない」(吉本氏)
「グーグルが嫌いだから」ではない
ただ、吉本氏はグーグルを嫌いというわけではなく「正しい検索結果が欲しいだけだ」と言う。
グーグルに対して吉本氏が求めることは2つ。1つは、検索結果から特定のサイトを除外する場合の基準を明らかにすることだ。たしかにグーグルのサイトを見ても、どういった場合にグーグルが検索結果からサイトを除外するかについてのポリシーを見つけることは難しい。
これについてグーグルに聞くと、第三者からの求めがあり、法律に違反している場合に検索結果から外すことがあるという。ただし、「グーグルがサイト全体を検索結果から外すことはない。個別のページを外すのみ」ということだ。
グーグルの方針としてはまず、検索結果からの除外を求める人とそのサイトの管理者で話し合いをしてもらい、問題があるサイトを管理している人が当該コンテンツを削除するように求めているという。ただし、サイト管理者とコンタクトが取れないような場合は、どの法律に違反しているという理由を明記した上で、要望を書面でグーグルに送ってもらうようにしている。この書面を元に法律に違反しているかどうかを判断し、認められる場合には「グーグル宛に送られた法的要請に応じ、このページから1件の検索結果を除外しました」といった表記をした上で、検索結果に表示されないようにする。
「どのページを検索結果に表示しないかという判断基準は、グーグルではなく法にある」(グーグル広報)
吉本氏のもう1つの要望は、検索結果に問題のあるページを表示するかどうかは、ユーザーに選択をゆだねるべきというものだ。「フィルタがあるのはかまわないが、そのフィルタを解除できるオプションがあるべきだろう。実際、グーグルはアダルトコンテンツが表示されないようにしているが、それを回避するオプションはある。検索結果への表示、非表示を自由に選べるようにして欲しい」
これについてグーグルは、「これまであまりそういった要望を受けなかった」とした上で、「まだまだ議論が必要な部分であり、そういった意見をいただくと、当社としても議論できるのでありがたい」とした。
検索結果の精度を測る指標に
今回のシステムは「グーグル八分発見システム」という名称だが、吉本氏は検索結果の精度を測る指標づくりに役立つのではないかという期待も持っている。「今グーグルは使いやすい検索エンジンだといわれているが、本当にそうであるかを計ることはできていない。今回のシステムで指標化ができるかもしれない」
吉本氏は今回のプロジェクトに全力を注ぐため、仕事を休職する。IPAからは580万円の支援金が出るが、その先の資金は自分でまかなう必要がある。資金繰りのめどはたっていない。「自分のポケットマネーでやっていくことになると思います。でも、一生やりますよ」
http://japan.cnet.com/news/media/story/0,2000056023,20354894,00.htm
http://japan.cnet.com/news/media/story/0,2000056023,20354894-2,00.htm
http://japan.cnet.com/news/media/story/0,2000056023,20354894-3,00.htm