★阿修羅♪ > テスト17 > 459.html ★阿修羅♪ |
|
Tweet |
(回答先: Re: テスト 投稿者 SOBA 日時 2009 年 10 月 25 日 18:30:52)
選挙運動や官僚答弁にも関連する文書、「民主党英国政治実務調査団報告」をOCRテキスト貼付処理し阿修羅にアップしました。
http://soba.txt-nifty.com/zatudan/2009/10/post-9b45.html
コピペしたりなどテキスト操作する必要がなければ、下記民主党HPで読むことをお勧めします。URLは下記です。
2009/10/13
改めて国会法改正へ 政府参考人答弁禁止へ意欲 小沢幹事長が会見で
http://www.dpj.or.jp/news/?num=17094
↑上記ページの末尾に「ダウンロード、民主党英国政治実務調査団報告」として下記URLで紹介されています。
http://www.dpj.or.jp/news/files/eikoku0909.pdf
表題の話題はここからです。
阿修羅さんの大規模UP板サーバーの回線が細いのかスピードが遅いです(約7KB/秒)。もしご自分でAdobe AcrobatProをお持ちであれば最初にご紹介した民主党HPからダウンロードしてご自分でOCR処理する事をお勧めします。pdfを開いたら、「文書メニュー→OCRテキスト認識→OCRを使用してテキストを認識」とし「すべての文書」となっているのを確認したらOKです。(OCRテキスト処理は読み取り間違いが時々あります。コピペしておかしいところは元pdfファイルで確認してください。)
※アップ直後自分でやった時には10分くらいでダウンロードできましたが。その後雑談日記でTBP(トラックバックピープル)経由紹介したら現在ではもっと遅く2時間半くらいのDL時間になってます。
ダウンロード先URLは下記です。約5MBあります。
http://www.asyura2.com/bigdata/bigup1/source/198.pdf※最初にご紹介した、民主党HPにアップされているのは、OCRしておらずいわば画像です。OCRでテキスト処理すると、例えば「インターネット」「個別訪問」とか検索して関連部分を拾って読んだり、繰り返し読んだりするのに便利です。「気になる部分、あるいはこれ良いカモね」と言う部分を範囲指定してコピーアンドペーストなどしたりもできます。
元々、民主党が最初からワードなどで作成し、それをpdfに変換していれば正確なテキストが張りつけられていて問題がなかった訳です。ワードなどからpdfであれば、最終的なファイルサイズも約500KBくらいのものだったはずです。民主党が、なぜ5MB、しかも使い辛い画像としてのpdfにしてしまったのか理解できません。
Twitterで民主党逢坂議員、藤末議員にも「呟き」ましたが、まだ返事はありません。
http://twitter.com/28SOBA/status/5009552394
http://twitter.com/28SOBA/status/5009714515
http://twitter.com/28SOBA/status/5009823453
http://twitter.com/28SOBA/status/5010098156
http://twitter.com/28SOBA/status/5013795249
関連
10月19日小沢幹事長記者会見ビデオと、OCRテキスト処理した『民主党英国政治実務調査団報告』をご紹介をしておきます。
※本日、阿修羅管理人、阿修羅空さんから大規模UP板のパスワード連絡があり、早速OCRテキスト貼付処理した「民主党英国政治実務調査団報告」(pdfファイル)をアップロードできました。阿修羅空さんには心から感謝します。
参考:僕の利用しているココログだと1MBまでしかアップできません。
ちなみにココログを始めたころは10MBまでアップできました。僕もよく利用していて、城山三郎さんが亡くなる約4ヶ月前に佐高信さんと日比谷公会堂講演会で対談していたのをアップしmp3インターネット放送したりした事もあります。すると程なくしてココログはアップできるファイルサイズを1MBに制限しました(苦笑)。この民主党のファイルも本当はココログにアップできれば良かったです。もっと早くダウンロードできたはずです。