http://www.asyura2.com/14/genpatu38/msg/661.html
Tweet |
「ストロンチウム」→「ス卜口ンチウム」は「OCRのミス」 原子力規制庁、サイトを修正
(ITmedia ニュース 2014/6/10)
http://www.itmedia.co.jp/news/articles/1406/10/news067.html
原子力規制委員会がWebサイトで公開している資料の中で、「ストロンチウム」の「ト」と「ロ」が漢字の「卜」(ぼく)と「口」(くち)になっていたと ネットユーザーに指摘され、サイトを公開している原子力規制庁が修正する騒ぎがあった。画像PDFをテキスト化する際、文字認識(OCR)ソフトが間違っ た文字を認識してしまったことが原因という。
誤字があったのは、今年1月に開かれた「第10回特定原子力施設監視・評価検討会汚染水対策検討ワーキンググループ」の会議資料一覧ページ。「福島第一原子力発電所におけるストロンチウム分析の状況について[東京電力]」という資料の「ト」と「ロ」がそれぞれ漢字になっており、「検索避けのためにあえて漢字にしたのでは」などと一部ネットユーザーの間で騒ぎになっていた。
同庁によると、Webサイトに掲載するテキストは通常、手打ちで確認しているが、この会議は資料が届いたタイミングがギリギリだったため、画像 PDFをスキャンし、OCRソフトにかけてテキスト化したものをそのまま貼り付けたという。掲載時に目視で確認したが、「ト」と「ロ」が違うことに気づかずにアップしてしまったという。
ネットユーザーからの指摘を受け、6月9日に文字を修正。あわせて、同庁サイトのHTMLにほかに同様な間違い(「キ」と「千」のミス、「力」 (ちから)と「カ」(カタカナのカ)のミスなど)がないかチェックしたところ、見つからなかったという。同庁の広報担当者は「こちらのミスで申し訳ない」 と話している。
このほか、「東京電力」や「原子力」の「力」をカタカナの「カ」に変えてGoogle検索すると、関連のPDF資料が出てくることも話題になった。これらも画像PDFをOCRソフトにかけた際の変換ミスが原因とみられる。
------(以下コメント)------
OCRは、スキャナで取り込んだ画像ファイルを文書ファイルに変換するときに使用します。
この東電のファイル内の「ストロンチウム」は正しくカタカナが使われています。
このファイルはPDFですから、OCR変換は不要で、マウスで題名をハイライトし、
コピー&ペーストするだけで済みます。
コピペで済むことは私も確認しました。3秒で済みます。
誤変換の可能性のあるOCRをわざわざ使う理由はありません。急いでいればなおさらです。
OCRを使ったとしても、まともなOCRソフトであれば、使用率の極めて低い「卜」(ぼく)という漢字が
選ばれることは有り得ず、間違いなくカタカナの「ト」に変換されるはずです。
また、この場合のように似た字が複数ある場合は、単語データベースを参照して、
意味の通るほうを採用するはずです。
いずれにせよ、苦しい言いわけですね。
検索を逃れるために故意にやったことは、ほぼ間違いありません。極めて悪質です。
さすが原子力"寄生"委員会です。
▲上へ ★阿修羅♪ > 原発・フッ素38掲示板 次へ 前へ
スパムメールの中から見つけ出すためにメールのタイトルには必ず「阿修羅さんへ」と記述してください。
すべてのページの引用、転載、リンクを許可します。確認メールは不要です。引用元リンクを表示してください。