画像化された文章もGoogleの検索対象となる一つのケース

Categories: ITtimes, ITなニュース, 使えるIT  2011/9/29 木曜日

先日、Googleウェブマスター向け公式ブログの新着記事を見ていたら、GoogleのPDFファイルの取り扱いについて興味深い情報がありました。

一般企業や官公庁においても社員や顧客との共有資料や書類をスキャンし、掲載することがあるかと思います。

同ブログ記事では主にウェブ上に公開しているPDFファイルは検索対象となる条件についてまとめたものですが、書類をスキャンし、画像化された文書内の文字も検索対象となることが載せられていました。

検索結果における PDF ファイルの取り扱いについてのヒント -Googleウェブマスター向け公式ブログ(2011年9月20日)

質問: Google では、どんな形式の PDF ファイルでもインデックス登録できるのですか?

答え:一般的に、各種文字コードを使用した PDF ファイルに含まれているテキスト コンテンツは、どのような言語で書かれていようと、そのファイルがパスワード保護または暗号化されている場合を除き、インデックスに登録できます。テキストが画像として埋め込まれている場合は、Google ではその画像を OCR (英語)アルゴリズムで処理し、テキストを抽出することができます。簡単に言うと、PDF 文書内のテキストをコピーして、標準的なテキスト文書にペーストできるのであれば、そのテキストはインデックス登録が可能です。

質問: PDF ファイル内の画像はどうなるのですか?
答え: 現時点では、PDF ファイル内の画像はインデックスには登録されません。画像をインデックス登録するには、その画像用の HTML ページを作成する必要があります。ご自分のサイトの画像が検索結果に含まれる可能性を高めたい場合は、ヘルプ センター に記述されているアドバイスを参考にしてください。

文字として検索されたくない場合、文章や文字を画像にしてしまい、そしてPDFファイルやHTMLページに挿入することがあります。しかしGoogleではそうした画像もOCRで処理し、テキストとして抽出し検索対象として扱うことができます。

実はこれは2008年から導入されている技術で、当時の同ブログ(英語版)にもアナウンスされていました。

A picture of a thousand words? -Official Google Blog(2008/10/30)

We are now able to perform OCR on any scanned documents that we find stored in Adobe’s PDF format. This Optical Character Recognition (OCR) technology lets us convert a picture (of a thousand words)?into?a thousand words — words that can be searched and indexed, so that these valuable documents are more easily found. This is a small but important step forward in our mission of making all the world’s information accessible and useful.

OCR(光学文字認識)を使ってスキャン画像からテキストデータを抽出してインデクシングすることで、スキャン画像のテキストを検索対象とすることに成功。これによって、テキストデータ化されていない貴重な文書を見つけることが容易になったとのこと。記事から分かる事は、PDF内のテキスト画像が対象となっているようです。ですから、現在ウェブ上の画像化されたテキストすべてがインデックスされるのではありません。

インデックスされたくないときは?

同ブログでは、検索対象としてインデックスされたくないときの方法も掲載されていました。その際、そのファイル用の HTTP ヘッダーに X-Robots-Tag: noindex を追加するという方法で対応できます。

既にインデックスに登録されている場合は、X-Robot-Tag で noindex を指定すれば、しばらく時間が経つとインデックスから除外されていきます。早急に削除したい場合は、Google ウェブマスター ツールのURL 削除ツールの使用が勧められています。

PDFファイルをウェブサイトに掲載する際、単にリンクを貼付けるだけではなく、そのPDFファイル用のページを仲介させ、そのページのヘッダーにnoindexを設定する方が良いでしょう。

Google Docsではスキャンができます

逆の応用パターンですが、Googleにスキャンした文章を送れば、編集可能なテキストに変換してくれるというOCRサービスがGoogle Docsにはあります。

日本語にも2011年の春から対応しており対応しているデータはJPEG、PNG、GIFおよびPDF。

OCRによるテキスト抽出の機能を利用するには、画像をアップロードする段階で「PDFや画像ファイルからテキストをGoogleドキュメントのドキュメントに変換する」にチェックを入れて、言語として「日本語」を選択するだけです。画像とともに抽出されたテキストも表示されるようになります。

少し前まではただ情報が公開されている、というだけでしたが、目の前のパソコンよりもネット上のソフトの方が高機能という時代になりました。そうした技術がのちのち、パソコンに反映されるようになる、というなんとも面白い世界です。

そのうち、MacやWindowsのOSも画像化されたテキストも簡単に検索できるようになるかもしれません。


Author: mirai
パソコン修理、保守担当。 技術を磨くため毎日修行中。 今までに対応したトラブルなどをサポートログに書いていきますので、ぜひご覧になってください。

コメントは受け付けていません。