ＩＰＡ（情報処理推進機構）と経産省、外字６万字のコード化を達成で漢字のコンピュータ処理や変換がスムーズに・・・怪傑

ＩＰＡ（情報処理推進機構）と経産省、外字６万字のコード化を達成で漢字のコンピュータ処理や変換がスムーズに・・・
http://www.asyura2.com/14/it12/msg/263.html
投稿者怪傑日時 2017 年 12 月 25 日 18:28:01: QV2XFHL13RGcs　ifaMhg

ＩＰＡ（情報処理推進機構）と経産省、外字６万字のコード化を達成で漢字のコンピュータ処理や変換がスムーズに・・・
http://gansokaiketu.sakura.ne.jp/newsindex5-3-naiyou-3.htm#2017-12-25-IPA%EF%BC%88%E6%83%85%E5%A0%B1%E5%87%A6%E7%90%86%E6%8E%A8%E9%80%B2%E6%A9%9F%E6%A7%8B%EF%BC%89%E3%81%A8%E7%B5%8C%E7%94%A3%E7%9C%81%E3%80%81%E5%A4%96%E5%AD%97%EF%BC%96%E4%B8%87%E5%AD%97%E3%81%AE%E3%82%B3%E3%83%BC%E3%83%89%E5%8C%96%E3%82%92%E9%81%94%E6%88%90%E3%81%A7%E6%BC%A2%E5%AD%97%E3%81%AE%E3%82%B3%E3%83%B3%E3%83%94%E3%83%A5%E3%83%BC%E3%82%BF%E3%83%BC%E5%87%A6%E7%90%86%E3%82%84%E5%A4%89%E6%8F%9B%E3%81%8C%E3%82%B9%E3%83%A0%E3%83%BC%E3%82%BA%E3%81%AB%E3%83%BB%E3%83%BB%E3%83%BB%E3%83%BB%E3%83%BB

コンピューターで全漢字使用可に６万字コード化
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html?utm_int=all_side_ranking-access_001

日本語の漢字は、戸籍などに使われているものも含めると６万字あるのに対し、コンピューターは、実は１万字しか扱うことができません。これに対し、このほど１５年越しの作業の末、６万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。

コンピューターで文字を扱うには、１つ１つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、コードが割りふられているのは１万字だけで、コードが無く、コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ５万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を充てたものと略字を充てたものの２つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。

このためＩＰＡ＝情報処理推進機構は平成１４年から、経済産業省とともに外字を含めたおよそ６万字の漢字１つ１つに、コードを割りつける作業を進めた結果、このほど１５年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の１つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。

ＩＰＡの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、戸籍では尊重されているがコンピューターが追いついていなかった。文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。

漢字とコンピューターのこれまで
戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」など１１種類、「斉藤」や「斎藤」の「サイ」は「斉」「斎」「齊」「齋」などおよそ６０種類ありますが、このうちコンピューターが扱えるのは「べ」は３文字、「サイ」は１５文字ほどです。

また「吉田」の「ヨシ」のつくりが「土」になっている漢字も外字です。日本で初めて漢字のコードが作られたのは昭和５３年のことで、当時はコンピューターの能力が低く大量のデータを扱えないことなどから登録された漢字は、およそ６０００字でした。

その後、昭和５４年に世界初の日本語ワープロが発売されるなど家庭や企業でパソコンが普及して、さまざまな漢字を扱う必要が出てきましたが、コードの整備は進まず、コードのない漢字は、それぞれのメーカーがばらばらに作っていました。

現在は、およそ１万字の漢字にコードが付いていますが、いまだに特定のソフトでなければ表示できない漢字もあり、対応が急がれていました。
企業や自治体も一苦労
外字の問題は、さまざまな企業だけでなく自治体の課題としても浮かび上がっています。

東京・表参道にある手紙用品店では、結婚式の招待状や席次表の印刷を手がけていて、名前に外字があった場合は、手書きで紙に書いてもらい、市販のソフトが対応しているかどうか調べています。

対応していない漢字は、作画ソフトを使って一画一画を手作業で書いていて、これまでにおよそ２４０字をこうした方法で対応したということです。

手紙用品店の吉澤まどかさんは「結婚式は、お祝い事なので、誤字脱字がないのはもちろんお名前の一画一画を大切にして間違いがないように心がけています」と話しています。

一方、福島県相馬市では、東日本大震災のあと、「り災証明書」の発行に必要な被災の状況を迅速に把握するため住民基本台帳にある名前や住所を電子地図に取り込もうとしました。

ところが、外字が含まれていたため、地図上で文字化けして黒い点になってしまい、手作業でのデータの修正を迫られたということです。
ＩＴ企業でも…
東京・新宿区にあるＩＴ企業は、厚生労働省が発表している全国８０万か所に上る医療機関や薬局、介護事業所の情報をデータベースにまとめ、製薬会社などに販売したり検索サービスを提供したりしています。

ところが、施設の名前や所在地に外字が含まれていると、うまく表示できないうえ、データベース上で別の施設として登録されてしまいます。

このため現在は、スタッフが１週間かけてすべての情報をチェックして手作業で修正していて、人件費だけでなく更新のスケジュールにも影響が出ているということです。

こうした修正作業は、欧米の企業ではほとんど必要なく、ビッグデータの解析や人工知能の開発などでも日本のハードルとなっています。

このＩＴ企業の高木祐介取締役は「データ分析では、１つでも情報が間違っていると全く役に立たず、データが整っていないことで日本の競争力の低下につながりかねない。今回のコード化によって、文字が整えられればより事業がしやすくなる」と話しています。