★阿修羅♪ > 雑談専用16 > 931.html ★阿修羅♪ |
Tweet |
(回答先: ライブドア事件で考えた事 投稿者 どん兵衛 日時 2006 年 2 月 05 日 23:00:36)
ホリエモンの特捜部捜査を動かした本当の理由
http://www.kishida.biz/column/2006/20060120.html
誰かは、闇か
http://www.kishida.biz/column/2006/20060123.html
ホリエモン逮捕は、やはり「反小泉の反撃」
http://www.kishida.biz/column/2006/20060125.html
911テロより影響は巨大になる?
ライブドア関連投稿一挙掲載。濃い話もあるぞ。
http://www.nikaidou.com/column04.html
<海外法人さんより>【1/25(水)9:00】
ライブドア騒動ですがH香港とS上海にあるB銀行とCキャピタルのスーパー危険な
マネーロンダリングを特捜が抑えたそうですが日本ではすでに報道されてるでしょうか。
あれは日本だけでなく東アジアからヨーロッパアメリカまで飛び火しますよ。
こっちではそればかりが話題です。911のテロより影響は巨大になると言っています。
nikaidou→ 何も報じられていません。逮捕もしたことだし、これから国税が出てきますね。
--------------
ザッと拾ってみました、googleとの対抗もあり向後に役立つかと附記します
最新の情報を知りたかったが、検索しても2004年以降の情報がほとんどなし。
トレンドを調べるウェブファウンテインのトレンドは?
はたして現在も取り組みは継続されてるのでしょうか?
日本でなぜアンチマネーロンダリング対策が難しいかというと
http://d.hatena.ne.jp/ryozo18/20051213/1134469674
非構造化テキストデータを収集、分析する「WebFountain」とは
検索 ↓
「WebFountain」
「WebFountain 現在」
「Semagixのマネーロンダリング ソフトCIRAS」
WebFountain
http://www.jiten.com/dicmi/docs/w/12548.htm
Web検索技術でマネーロンダリングに挑む - IBMのWebFountainが金融機関に
http://pcweb.mycom.co.jp/news/2004/02/05/008.html
WebFountainの話題性、Web検索技術でマネーロンダリングに挑む
http://www.randdmanagement.com/c_net/ne_112.htm
財宝は見つけることができるか? WebFountainの深淵を覗く
http://www.itmedia.co.jp/enterprise/articles/0407/23/news088.html
http://www.itmedia.co.jp/enterprise/articles/0407/23/news088.html?nc40
海外IT産業事情 ■WebFountainとは?
http://www.hitachi.co.jp/Prod/comp/OSD/pc/ha/news/2004/0726/072605.html
WebFountainで次世代の検索に挑むIBM
http://japan.cnet.com/special/story/0,2000050158,20064426-3,00.htm
「ウェブ検索エンジンと同様に、WebFountainは干し草の山から針1本を探しあてることができる。
ウェブ検索と違うのは、全体からトレンドを見つけ、「会社の評判」といった未知の問いにも答え
られるように設計されていることだ。」
「これに対して、WebFountainは大量のウェブデータから意味を見つけようとする。
その基盤となるのがテキストマイニングで、自然言語処理(NLP)」といわれるものだ。
WebFountainはサイトをインデックス化し、ページ内のすべての単語にタグを付け、単語固有の
構造を明らかにし、相互の関連性を分析する。規模は違うが、このプロセスは5年生の国語の時間
に習う文章構造の分析とよく似ている。
テキストマイニングはデータのかたまりを品詞ごとに展開し、相互の大まかな関連性を明らかにする。
September 16, 2005 今月号の情報処理学会誌によると
IBMのWebFountainプロジェクトでは、たった48台のXeonマシンでクローリングをしてるらしい
IBMアルマデン研究所が実施しているWebFountainプロジェクトでは、48台の2.4GHz Intel Xeon 2CPUサーバを
用いてWebページの収集(5000万ページ/日)を行っているとのこと。
ということは、48台で5000万ページ/日なんだから、約100万ページ/台日になって、さらに1日=86400秒なので、
約12ページ/台秒ということになるのか。
これは一見「Xeonを2つ積んだマシンを使って、1秒あたり12のHTMLをダウンロードするなんて、普通にプログラムを
書けば達成できる、なんでもない数字じゃないか」と思ってしまうけど、これだけの規模のクローラになると、効率的
にWebを巡回するための順序づけや、既に巡回済みのURLへの再巡回のスケジューリングなど、諸々の複雑な処理が入る
ため、この数字はかなり優秀だとおもう。何を使ってるんだろう。やはり1からフルスクラッチで書いてるのかな。
オープンソースなクローラだと、分散処理に対応したもの自体ほとんどないし。