ついにコンピュータで日本語の漢字すべてを使用可能に 15年かけてコード化、国際規格に登録 | あまえび速報

ついにコンピュータで日本語の漢字すべてを使用可能に 15年かけてコード化、国際規格に登録

003 

ついにコンピュータで日本語の漢字すべてを使用可能に ( ´・ω・)y─┛~~~oΟ◯
 
1: 名無しさん@涙目です。(宮城県) [US] 2017/12/24(日) 19:32:30.13 ID:JAmCwJ/z0● BE:601381941-PLT(13121) ポイント特典
コンピューターで全漢字使用可に 6万字コード化

日本語の漢字は、戸籍などに使われているものも含めると
6万字あるのに対し、コンピューターは、実は1万字しか
扱うことができません。これに対し、このほど15年越しの作業の末、
6万字すべてが統一の規格にまとめられて、コンピューターがすべての
漢字を扱えるようになり、ビッグデータの活用をはじめ
さまざまな効果が期待されています。

コンピューターで文字を扱うには、1つ1つの文字に、「コード」と呼ばれる
世界共通の番号を割りふる必要がありますが、日本語の漢字で、
コードが割りふられているのは1万字だけで、コードが無く、
コンピューターが扱えない「外字」は、
戸籍で使われているものをはじめおよそ5万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、
メーカーごとの互換性が無く、データを受け渡してもコンピューターが
認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を充てたものと
略字を充てたものの2つのデータがあった場合コンピューター上では、
別の人と認識されてしまったりするなどの問題が起きていました。

このためIPA=情報処理推進機構は平成14年から、経済産業省とともに
外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進めた結果、
このほど15年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を
正確に表示できたり、地名を含むビッグデータを
正確に分析できたりするなどの効果が期待されています。

IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、
戸籍では尊重されているがコンピューターが追いついていなかった。
文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。

■漢字とコンピューターのこれまで

戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」
など11種類、「斉藤」や「斎藤」の「サイ」は「斉」「斎」「齊」「齋」など
およそ60種類ありますが、このうちコンピューターが扱えるのは
「べ」は3文字、「サイ」は15文字ほどです。

また「吉田」の「ヨシ」のつくりが「土」になっている漢字も外字です。
日本で初めて漢字のコードが作られたのは昭和53年のことで、
当時はコンピューターの能力が低く大量のデータを扱えないことなどから
登録された漢字は、およそ6000字でした。

その後、昭和54年に世界初の日本語ワープロが発売されるなど家庭や
企業でパソコンが普及して、さまざまな漢字を扱う必要が出てきましたが、
コードの整備は進まず、コードのない漢字は、それぞれのメーカーが
ばらばらに作っていました。

現在は、およそ1万字の漢字にコードが付いていますが、いまだに特定の
ソフトでなければ表示できない漢字もあり、対応が急がれていました。

■企業や自治体も一苦労

(略)

■IT企業でも…

(略)

https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html
92f56ea6


2: 名無しさん@涙目です。(チベット自治区) [ニダ] 2017/12/24(日) 19:33:10.63 ID:1B4bynNX0
さすがアップルやな、これからも一生アップル使うわ

3: 名無しさん@涙目です。(catv?) [US] 2017/12/24(日) 19:33:16.98 ID:+0iqOz260
吉野家はちゃんと書けるの?

4: 名無しさん@涙目です。(茸) [ニダ] 2017/12/24(日) 19:34:06.87 ID:ADdgEuTl0
その前にsjisとeucとutfを何とかして

5: 名無しさん@涙目です。(関東・甲信越) [US] 2017/12/24(日) 19:34:34.39 ID:dDxGM9hKO
さいとうさんとわたなべさんだけに朗報

335: 名無しさん@涙目です。(空) [ヌコ] 2017/12/26(火) 10:06:09.21 ID:47VsSgpA0
>>5
他人がこまるわ
漢字なければあるものでごまかせたが
有るなら確認が必要 うざいわー



7: 名無しさん@涙目です。(庭) [US] 2017/12/24(日) 19:35:11.20 ID:eG4oDqE90
フォントは誰が用意するんだ?

19: 名無しさん@涙目です。(catv?) [CN] 2017/12/24(日) 19:37:27.36 ID:yFdZ8/Xz0
>>7
なんか大変そうだよな



22: 名無しさん@涙目です。(埼玉県) [US] 2017/12/24(日) 19:38:16.42 ID:a7y1PqvO0
>>19
フォントはIPAフォントってのがすでに作成済みだったはず。

44: 名無しさん@涙目です。(チベット自治区) [US] 2017/12/24(日) 19:47:20.23 ID:KGHpsw+70
>>7
用意してるだろ。
じゃなきゃ、さすがにコード割り振りだけで6万語に15年もかからん。

8: 名無しさん@涙目です。(空) [GR] 2017/12/24(日) 19:35:17.23 ID:FMfFaCUQ0
もうUTF8だけで良くね?

208: 名無しさん@涙目です。(北海道) [US] 2017/12/24(日) 23:00:50.23 ID:53B2XxAY0
>>8
unicodeとutf-8みたいな文字コードは違います

こういうのはunicodeの異体字セレクタ使うんだけど、
エンコードはまた別の話で関係ない

233: 名無しさん@涙目です。(チベット自治区) [US] 2017/12/25(月) 00:53:10.94 ID:O7NNyeel0
>>208
ソースの記事読むとユニコードの事を言ってるね

にしてもIPAのフォント入れないと文字化けするだろうし、
フォント入れると殆ど使わない漢字の為に従来の6倍のメモリが必要になるし、
ニッチな需要のために15年もかけて税金投入してやる事かね

250: 名無しさん@涙目です。(庭) [CN] 2017/12/25(月) 03:02:41.25 ID:6ntf3IJ30
>>233
フォントは各ベンダーが切他社にり替えられない既得権みたいなもんだからね。
正直統一してくれた方が凄く助かる。
統一規格ならフォントの配信もしなくて助かる。
ただ、ホントに切り替えられるかは疑問あるけどね。

9: 名無しさん@涙目です。(埼玉県) [US] 2017/12/24(日) 19:35:26.21 ID:a7y1PqvO0
UTF-8じゃなくて独自キャラクタセット?

10: 名無しさん@涙目です。(大阪府) [BR] 2017/12/24(日) 19:35:33.26 ID:PKItkQ0h0
中国の漢字は何文字あるの?

98: 名無しさん@涙目です。(兵庫県) [US] 2017/12/24(日) 20:23:19.50 ID:ae9LcN+O0
>>10
86000字ほど

269: 名無しさん@涙目です。(新疆ウイグル自治区) [CN] 2017/12/25(月) 07:01:28.67 ID:FhqDxuqC0
>>98
意外と少ないな

17: 名無しさん@涙目です。(チベット自治区) [US] 2017/12/24(日) 19:37:12.49 ID:M5EhgwlT0
>>10
当然といえば当然だけど総数自体はたいして変わらん

11: 名無しさん@涙目です。(dion軍) [JP] 2017/12/24(日) 19:35:46.70 ID:iPWlb7CZ0
苗字旧字体だから助かるわ

14: 名無しさん@涙目です。(東日本) [CN] 2017/12/24(日) 19:36:08.47 ID:Rvu7LWqJ0
84画のこれもコード化したんか?
cc3ba7dc


24: 名無しさん@涙目です。(東京都) [CN] 2017/12/24(日) 19:39:38.03 ID:zI17Wdf70
>>14
シューティングのキャラでしょ
これが3つずつヒューって落ちて攻めてくるんだよね?

87: 名無しさん@涙目です。(チベット自治区) [BR] 2017/12/24(日) 20:14:07.91 ID:OUrTXgjD0
>>14
いつ使うんだよコレwww

16: 名無しさん@涙目です。(チベット自治区) [EU] 2017/12/24(日) 19:37:09.59 ID:AFeSba2S0
>渡辺」の「ベ」は「辺」「邊」「邉」など11種類、
「斉藤」や「斎藤」の「サイ」は
「斉」「斎」「齊」「齋」などおよそ60種類

これ漢字を簡単なやつに統一したらいいじゃん
無駄なことを
漢字も時代とともに変遷してきて多様性ができてしまったのに
そのうちの一つにこだわるようなクソみたいな
アイデンティティなんかステさせろ

23: 名無しさん@涙目です。(神奈川県) [KZ] 2017/12/24(日) 19:38:29.39 ID:LfXOtTaM0
どうせデータ連携で化けるんだから余計な事しなくても
なきゃないで終わりなのに

26: 名無しさん@涙目です。(四国地方) [US] 2017/12/24(日) 19:39:59.94 ID:RrvIlUnz0
しょうもない事に予算使うな

28: 名無しさん@涙目です。(やわらか銀行) [US] 2017/12/24(日) 19:40:21.49 ID:Jp6EfYB50
こんなバカげた文字に付き合わされる欧米人も大変だな

116: 名無しさん@涙目です。(茸) [CH] 2017/12/24(日) 20:44:09.90 ID:BhRI00q/0
虋饠戇齽钁㠨䤙鸚虌饡欞龞钂䭩鸛驨欟钄麢豔
驩㿜䖅爧䯬黸躨鱹䖆飌䶨䯀雧鼺

113: 名無しさん@涙目です。(四国地方) [DE] 2017/12/24(日) 20:39:40.93 ID:TmcKCGwb0
こんなあほな作業AIにやらせとけ



115: 名無しさん@涙目です。(新疆ウイグル自治区) [CN] 2017/12/24(日) 20:43:48.99 ID:6Ovy967r0
斉は種類多いなとは思ってたけど60種類もあるんかよ…



http://hayabusa3.2ch.sc/test/read.cgi/news/1514111550


1001: (´・ω・`) 名無しのえび速さん 2099/1/1(日) 13:57:17.37 ID:ebisoku
【画像】こんなエッチな身体の女子アナが地上波に出てていいのかよwwwwwwww
【必見】人気グラドルが露出エロ衣装を着た結果wwwwwwww
【エロ注意】ワイ、このエロ漫画がエッチすぎて抜くwwwwww
【ガン見】ロシアのJKエロ過ぎワロタwwwwwww
【エロ注意】水泳部女子のエッロいエッロいプリケツwwwwwwwwwwww
【朗報】小学生に巨乳化傾向・10歳からブラジャー当たり前wwwwwww



コメント

  1. 匿名

    こんなのこそAIにやらせればいいのに

  2. 匿名

    AIに入力させるための前段階だぞ、AIって言っとけばなんでもなると思うなよ無能

  3. 匿名

    パソコンで苗字が漢字で打てない俺に朗報

  4. 匿名

    これは環境依存文字にならんのか?

コメントを残す

メールアドレスが公開されることはありません。

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

post date*

アクセスランキング