★阿修羅♪ > テスト17 > 457.html ★阿修羅♪ |
|
Tweet |
選挙運動や官僚答弁にも関連する文書、「民主党英国政治実務調査団報告」をOCRテキスト貼付処理し阿修羅にアップしました。
http://soba.txt-nifty.com/zatudan/2009/10/post-9b45.html
阿修羅管理人、阿修羅空さんから大規模UP板のパスワード連絡があり、早速OCRテキスト貼付処理した「民主党英国政治実務調査団報告」(pdfファイル)をアップロードできました。(OCRテキスト処理は読み取り間違いが時々あります。コピペしておかしいところは元pdfファイルで確認してください。)
ダウンロード先URLは下記です。約5MBあります。
http://www.asyura2.com/bigdata/bigup1/source/198.pdf
※阿修羅さんの大規模UP板サーバーの回線が細いのかスピードが遅いです。もしご自分でAdobe Acrobat Proをお持ちであれば下記民主党HPからダウンロードしてご自分でOCR処理する事をお勧めします。pdfを開いたら、「文書メニュー→OCRテキスト認識→OCRを使用してテキストを認識」とし「すべての文書」となっているのを確認したらOKです。
なお、民主党HPで同じファイルを置いてあるURLは下記です。
2009/10/13
改めて国会法改正へ 政府参考人答弁禁止へ意欲 小沢幹事長が会見で
http://www.dpj.or.jp/news/?num=17094
↑上記ページの末尾に「ダウンロード、民主党英国政治実務調査団報告」として下記URLで紹介されています。
http://www.dpj.or.jp/news/files/eikoku0909.pdf
※上記、民主党HPにアップされているのは、OCRしておらずいわば画像です。OCRでテキスト処理すれば、例えば「インターネット」「個別訪問」とか検索して関連部分を拾って読んだり、繰り返し読んだりするのに便利です。「気になる部分、あるいはこれ良いカモね」と言う部分を範囲指定してコピーアンドペーストなどしたりもできます。
元々、民主党が最初からワードなどで作成し、それをpdfに変換していれば正確なテキストが張りつけられていて問題がなかった訳です。ワードなどからpdfであれば、最終的なファイルサイズはおおよそ500KBくらいのものだったはずです。民主党が、なぜ5MB、しかも使い辛い画像としてのpdfにしてしまったのか理解できません。
Twitterで民主党逢坂議員、藤末議員にも「呟き」ましたが、まだ返事はありません。
http://twitter.com/28SOBA/status/5009552394
http://twitter.com/28SOBA/status/5009714515
http://twitter.com/28SOBA/status/5009823453
http://twitter.com/28SOBA/status/5010098156
http://twitter.com/28SOBA/status/5013795249
関連
10月19日小沢幹事長記者会見ビデオと、OCRテキスト処理した『民主党英国政治実務調査団報告』をご紹介をしておきます。