東京電力の“検索隠し工作”問題 原因は画像PDFのテキスト化(OCR)誤認識でした 捏造論ェ・・・ | あまえび速報
6ca2a898    bdb683c1

東京電力の“検索隠し工作”問題 原因は画像PDFのテキスト化(OCR)誤認識でした 捏造論ェ・・・

P020988_s_s

東電の検索隠し工作問題、やはりOCRが原因でした。( ´・ω・)y─┛~~~oΟ◯


P020988_s

原子力規制委員会がWebサイトで公開している資料の中で、
「ストロンチウム」の「ト」と「ロ」が漢字の「卜」(ぼく)と「口」(くち)になっていたと
ネットユーザーに指摘され、サイトを公開している原子力規制庁が
修正する騒ぎがあった。画像PDFをテキスト化する際、
文字認識(OCR)ソフトが間違った文字を認識してしまったことが原因という。

誤字があったのは、今年1月に開かれた「第10回特定原子力施設
監視・評価検討会汚染水対策検討ワーキンググループ」の会議資料一覧ページ。
「福島第一原子力発電所におけるストロンチウム分析の状況について
[東京電力]」という資料の「ト」と「ロ」がそれぞれ漢字になっており、
「検索避けのためにあえて漢字にしたのでは」などと
一部ネットユーザーの間で騒ぎになっていた。

同庁によると、Webサイトに掲載するテキストは通常、手打ちで確認しているが、
この会議は資料が届いたタイミングがギリギリだったため、
画像PDFをスキャンし、OCRソフトにかけてテキスト化したものを
そのまま貼り付けたという。掲載時に目視で確認したが、
「ト」と「ロ」が違うことに気づかずにアップしてしまった
という。

ネットユーザーからの指摘を受け、6月9日に文字を修正。
あわせて、同庁サイトのHTMLにほかに同様な間違い
(「キ」と「千」のミス、「力」(ちから)と「カ」(カタカナのカ)のミスなど)がないか
チェックしたところ、見つからなかったという。同庁の広報担当者は
「こちらのミスで申し訳ない」と話している。

このほか、「東京電力」や「原子力」の「力」をカタカナの「カ」に変えて
Google検索すると、関連のPDF資料が出てくることも話題になった。
これらも画像PDFをOCRソフトにかけた際の変換ミスが原因とみられる。
http://headlines.yahoo.co.jp/hl?a=20140610-00000033-zdn_n-sci 

1
OCRで読み込んだテキストを直すのって結構大変なんだぞーw

なるほど、そういう言い訳が用意されてたとは。

まだ言い訳とか言ってるヤツもいるんだな 放射脳恐ろしや
何言っても通用しないとかもうね

仕事で使うとわかるが、PDFってのは相当クセモノだ
文字コピペすると荒ぶったり問題多い


そんな、掲示板などでの古典的なNGワード回避みたいなことをするものかと
少々疑問に思っていたら、やはりテキスト化の誤認識によるものだそう。 
それでもなお、東京電力のこれまでの流れを考えるとよからぬことを
想像してしまうところ。( ´・ω・)y─┛~~~oΟ◯



コメント

  1. 匿名

    知ってた。
    放射脳は現実を自分にとって都合のよくねじ曲げるからヤバイ。
    害悪だわ。

  2.  

    むかしタイトーのアーケード用ゲーム「カダッシュ亅の制作会議で、お偉いさんが「ちからだっしゅ」とずっと言っていたという話し思い出した。もろ西洋ファンタジーな世界観なのに。

  3. ※1
    ニートはだまっていろ

  4. 名無し

    何をするだァーッ

  5. 名無し

    で、修正はするのかね?

    検索よけにはなっちゃってるんだし

  6. 名無し

    膨大なページ数を1文字1文字チェックしなきゃならないんだよ。
    そのために天下り法人でも作りますか?

  7. 名無し

    結局はなんとなく騒ぎたい奴らが検索避けだの何だの騒いでるだけだったな

  8. 名無し

    OCRのあとに校正ソフトに投げれば結構修正されるんだけどな・・・。

  9. 名無し

    >>6
    OCRの後にテキストを手入力してOCR結果とソフトで比較させてから
    エラーが出てなければ校正担当の人がチェックする
    年賀状とかコンビニで頼んで文章書いてとかあるだろ?
    15年以上前からこれらの手順で作ってるよ

コメントを残す

メールアドレスが公開されることはありません。

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

post date*

アクセスランキング