911テロより影響は巨大になる？ kokopon

911テロより影響は巨大になる？
http://www.asyura2.com/0510/idletalk16/msg/931.html
投稿者 kokopon 日時 2006 年 2 月 06 日 13:52:39: uXlXC.2gGTbTg

(回答先: ライブドア事件で考えた事投稿者どん兵衛日時 2006 年 2 月 05 日 23:00:36)

ホリエモンの特捜部捜査を動かした本当の理由
http://www.kishida.biz/column/2006/20060120.html
誰かは、闇か
http://www.kishida.biz/column/2006/20060123.html
ホリエモン逮捕は、やはり「反小泉の反撃」
http://www.kishida.biz/column/2006/20060125.html

911テロより影響は巨大になる？
ライブドア関連投稿一挙掲載。濃い話もあるぞ。
http://www.nikaidou.com/column04.html
＜海外法人さんより＞【1/25（水)9:00】
ライブドア騒動ですがＨ香港とＳ上海にあるＢ銀行とＣキャピタルのスーパー危険な
マネーロンダリングを特捜が抑えたそうですが日本ではすでに報道されてるでしょうか。
あれは日本だけでなく東アジアからヨーロッパアメリカまで飛び火しますよ。
こっちではそればかりが話題です。９１１のテロより影響は巨大になると言っています。

nikaidou→ 何も報じられていません。逮捕もしたことだし、これから国税が出てきますね。

--------------
ザッと拾ってみました、googleとの対抗もあり向後に役立つかと附記します
最新の情報を知りたかったが、検索しても2004年以降の情報がほとんどなし。
トレンドを調べるウェブファウンテインのトレンドは？　
はたして現在も取り組みは継続されてるのでしょうか？

日本でなぜアンチマネーロンダリング対策が難しいかというと
http://d.hatena.ne.jp/ryozo18/20051213/1134469674

非構造化テキストデータを収集、分析する「WebFountain」とは

検索 ↓
「WebFountain」
「WebFountain　現在」
「SemagixのマネーロンダリングソフトCIRAS」

WebFountain
http://www.jiten.com/dicmi/docs/w/12548.htm
Web検索技術でマネーロンダリングに挑む - IBMのWebFountainが金融機関に
http://pcweb.mycom.co.jp/news/2004/02/05/008.html
WebFountainの話題性、Web検索技術でマネーロンダリングに挑む
http://www.randdmanagement.com/c_net/ne_112.htm
財宝は見つけることができるか？　WebFountainの深淵を覗く
http://www.itmedia.co.jp/enterprise/articles/0407/23/news088.html
http://www.itmedia.co.jp/enterprise/articles/0407/23/news088.html?nc40
海外IT産業事情　■WebFountainとは？
http://www.hitachi.co.jp/Prod/comp/OSD/pc/ha/news/2004/0726/072605.html
WebFountainで次世代の検索に挑むIBM
http://japan.cnet.com/special/story/0,2000050158,20064426-3,00.htm
「ウェブ検索エンジンと同様に、WebFountainは干し草の山から針1本を探しあてることができる。
ウェブ検索と違うのは、全体からトレンドを見つけ、「会社の評判」といった未知の問いにも答え
られるように設計されていることだ。」

「これに対して、WebFountainは大量のウェブデータから意味を見つけようとする。
その基盤となるのがテキストマイニングで、自然言語処理（NLP）」といわれるものだ。
WebFountainはサイトをインデックス化し、ページ内のすべての単語にタグを付け、単語固有の
構造を明らかにし、相互の関連性を分析する。規模は違うが、このプロセスは5年生の国語の時間
に習う文章構造の分析とよく似ている。
テキストマイニングはデータのかたまりを品詞ごとに展開し、相互の大まかな関連性を明らかにする。

September 16, 2005　今月号の情報処理学会誌によると
IBMのWebFountainプロジェクトでは、たった48台のXeonマシンでクローリングをしてるらしい
IBMアルマデン研究所が実施しているWebFountainプロジェクトでは、48台の2.4GHz Intel Xeon 2CPUサーバを
用いてWebページの収集(5000万ページ/日)を行っているとのこと。
ということは、48台で5000万ページ/日なんだから、約100万ページ/台日になって、さらに1日=86400秒なので、
約12ページ/台秒ということになるのか。

これは一見「Xeonを2つ積んだマシンを使って、1秒あたり12のHTMLをダウンロードするなんて、普通にプログラムを
書けば達成できる、なんでもない数字じゃないか」と思ってしまうけど、これだけの規模のクローラになると、効率的
にWebを巡回するための順序づけや、既に巡回済みのURLへの再巡回のスケジューリングなど、諸々の複雑な処理が入る
ため、この数字はかなり優秀だとおもう。何を使ってるんだろう。やはり1からフルスクラッチで書いてるのかな。
オープンソースなクローラだと、分散処理に対応したもの自体ほとんどないし。

　次へ　前へ

▲このページのＴＯＰへ　　　　　 HOME > 雑談専用16掲示板

　　拍手はせず、拍手一覧を見る

投稿コメント全ログ　コメント即時配信　スレ建て依頼　削除コメント確認方法

★阿修羅♪　http://www.asyura2.com/ 　since 1995

　題名には必ず「阿修羅さんへ」と記述してください。
掲示板,ＭＬを含むこのサイトすべての
一切の引用、転載、リンクを許可いたします。確認メールは不要です。
引用元リンクを表示してください。