OCRソフトは、PDFファイルやJPGファイルの画像情報から、テキストの文字コードを、取得します。 「電子書籍」は、書籍の各ページに対応するテキストコードを対象に、キーワード検索を行ないます。 「電子書籍の準備」は、OCRソフトの認識結果中のページ区切り情報から、各ページ毎のテキスト情報を作成します。 ページ区切り情報(ページセパレータ)が認識結果中にないと、利用者がページセパレータを入力することになります。 メディアドライブ社のOCRソフト「e.Typist NEO v.15.0」は、ページセパレータ ”End of Page”を含みます。 パナソニック ソリューションテクノロジー社の「読取革命Ver.15」は、ページセパレータが見当たりません。 辞書などは、1冊が2千ページを越える場合があり、それに対応できるOCRソフトが望まれます。 「e.Typist NEO v.15.0」は、一括処理の最大のページ数は、500頁です。 500頁を越える場合は、分割処理となり、電子書籍作成に、無駄な手間がかかります。 既存のOCRソフトは、「電子書籍」の作成に利用するうえで、改善の余地があります。 「電子書籍」化に必要なOCRソフトの機能を、検討します。 OCRソフトの機能は、書籍の全ページを対象とするか、個々のページを対象とするかで、異なります。 全ページが対象の場合、OCRソフトは、一度の処理で、全ページのテキストコードを取得できることが、必要です。 そのためには、一括処理の最大のページ数の制限を、無くすことが必要です。 これは、電子書籍フォルダー単位の処理とし、ファイルの処理毎に、テキストコードの出力を行うことで、可能です。 また、このことにより、OCRソフトが中断した場合、追加の処理が可能になります。 個々のページが対象の場合、一括処理では対処できなかった処理を、各ページ毎に行います。 以下の事例は、一括処理で不都合な場合です。 最初の事例は、黒い枠線で囲まれた場合、枠線の中が認識の範囲外になることがあります。 この様な場合は、認識領域の「範囲設定」を、黒い枠線の内部に設定することにより、認識が可能になります |
一括処理の場合 認識結果は「,」 | 黒い枠線内に、認識領域の「範囲設定」 良好な認識 |
![]() |
![]() |
次は、縦書きの認識か、横書きの認識かの、事例です。 通常、OCRソフトは、縦書きか横書きかは、自動的に認識します。 次の例は、縦書きの文章です。 |
![]() |
OCRソフトの認識結果は、最初は、「倉姉太神言深横須諌武多村川久白L鹿蓮小」と、 横書きの認識をしました。 「小城鍋島家(小城支藩)」や「白石鍋島家(親類)」は、縦書きの認識結果です。 しかし、”横岳鍋島家(家 老)”は、「横岳鍋島家(家」は縦書きに、「老」は「老老老老老老」と横書きの認識です。 これは、画像の部分毎に、縦書きか横書きかを、自動認識した結果だと思われます。 これを避けるためには、列単位や、行単位に、認識領域の「範囲設定」を行う機能が、必要です。 |