OCRソフトと「電子書籍」



OCRソフトと「電子書籍」
OCRソフトは、PDFファイルやJPGファイルの画像情報から、テキストの文字コードを、取得します。
「電子書籍」は、書籍の各ページに対応するテキストコードを対象に、キーワード検索を行ないます。
「電子書籍の準備」は、OCRソフトの認識結果中のページ区切り情報から、各ページ毎のテキスト情報を作成します。
ページ区切り情報(ページセパレータ)が認識結果中にないと、利用者がページセパレータを入力することになります。
メディアドライブ社のOCRソフト「e.Typist NEO v.15.0」は、ページセパレータ ”End of Page”を含みます。
パナソニック ソリューションテクノロジー社の「読取革命Ver.15」は、ページセパレータが見当たりません。

辞書などは、1冊が2千ページを越える場合があり、それに対応できるOCRソフトが望まれます。
「e.Typist NEO v.15.0」は、一括処理の最大のページ数は、500頁です。
500頁を越える場合は、分割処理となり、電子書籍作成に、無駄な手間がかかります。
既存のOCRソフトは、「電子書籍」の作成に利用するうえで、改善の余地があります。

「電子書籍」化に必要なOCRソフトの機能を、検討します。
OCRソフトの機能は、書籍の全ページを対象とするか、個々のページを対象とするかで、異なります。

全ページが対象の場合、OCRソフトは、一度の処理で、全ページのテキストコードを取得できることが、必要です。
そのためには、一括処理の最大のページ数の制限を、無くすことが必要です。
これは、電子書籍フォルダー単位の処理とし、ファイルの処理毎に、テキストコードの出力を行うことで、可能です。
また、このことにより、OCRソフトが中断した場合、追加の処理が可能になります。

個々のページが対象の場合、一括処理では対処できなかった処理を、各ページ毎に行います。
以下の事例は、一括処理で不都合な場合です。
最初の事例は、黒い枠線で囲まれた場合、枠線の中が認識の範囲外になることがあります。
この様な場合は、認識領域の「範囲設定」を、黒い枠線の内部に設定することにより、認識が可能になります
一括処理の場合
認識結果は「,」
黒い枠線内に、認識領域の「範囲設定」
良好な認識

次は、縦書きの認識か、横書きの認識かの、事例です。
通常、OCRソフトは、縦書きか横書きかは、自動的に認識します。
次の例は、縦書きの文章です。

OCRソフトの認識結果は、最初は、「倉姉太神言深横須諌武多村川久白L鹿蓮小」と、 横書きの認識をしました。
「小城鍋島家(小城支藩)」や「白石鍋島家(親類)」は、縦書きの認識結果です。
しかし、”横岳鍋島家(家 老)”は、「横岳鍋島家(家」は縦書きに、「老」は「老老老老老老」と横書きの認識です。
これは、画像の部分毎に、縦書きか横書きかを、自動認識した結果だと思われます。
これを避けるためには、列単位や、行単位に、認識領域の「範囲設定」を行う機能が、必要です。