ページセパレータ(ページ区切り情報)に関して
OCR情報は、1ページ毎に「日本国憲法_Text.txt」のファイルに取り込まれます。この処理に必要なページセパレータ(ページ区切り情報)が、OCRの処理で得られるテキストファイルに含まれていることが必要です。ここで用いたOCRソフトでは、ページの末端に”End of Page”の情報が共通して挿入されています。そこで、ページセパレータのデフォルト値として、”End of Page”を使用しています。共通のページセパレータが存在しないテキストファイルには、利用者が挿入することが必要となります。
例えば、1500ページの書籍の場合、以下のような手順で処理を行います。
@ この場合、二つの統合型PDFファイルができます。二つのフォルダーa,bを作成します。
A 「Acrobat Standard」などを利用して、最初にできた統合型PDFファイルを分割して、フォルダーaに格納します。
次にできた統合型PDFファイルを分割して、フォルダーbに格納します。
B を利用して、aのフォルダーでは書籍名を”a”,開始頁番号を"1000"とします。
bのフォルダーでは書籍名を”a”,開始頁番号を"2000"とします。
C 電子書籍用のフォルダーに、aとbのフォルダーに含まれるファイルをコピーします。
D 最後に、を用いて、電子書籍用のフォルダーを開き、処理をします。
複数の書籍を統合する。
百科事典や全書などは、大量の情報を取り扱っています。この場合、利用上の都合を考慮すると、数冊から数十冊に分冊されています。電子書籍を利用する場合は、分冊用のフォルダーを利用するよりは、一つのフォルダーを利用した方が便利です。このような場合、以下の処理を行います。
@ 1冊ずつ、電子書籍を作成します。
A 1冊ずつの電子書籍を残すことや誤処理を考慮して、新しいフォルダーを作成し、そこに全冊をコピーします。
B を利用します。書籍名は、総て共通にして、例えば ”a”とします。
開始頁番号は、順次に、"1000","2000","3000", ・・・などとします。
但し、1冊が1000ページを越える本がある場合には、"10000","20000","30000", ・・・などとします。
C 電子書籍名を付けた別のフォルダーに、総てのファイルをコピーします。
D 最後に、を用いて処理します。
飛び飛びの連番が含まれる場合も処理が可能です。最大のページ数は、2万ページに設定しています。
E OCR情報を順次結合したテキストファイルを作成し、を行ないます。
ページの削除を行なう
白紙のページなどを削除したい場合は、以下の手順をとります。
@ 削除したいページのファイルを、右クリックで「削除(D)」の機能を利用して、削除します。
A を用いて処理します。
B 削除した部分のOCR情報を、OCRのテキストファイルから削除し、を行ないます。
ページの挿入を行なう
スキャナーの誤動作などで、複数のページが欠落することがあります。
この場合、欠落したページを挿入することが必要です。
電子書籍を作成後に、欠落に気付いた場合は、以下の対処を行います。
@ 電子書籍用のフォルダーに対して、を利用して、連番ファイル名の変更を行います。
欠落ページの枚数を考慮して、「増分」値を決めます。
10ページ未満であれば、「増分」値を10とし、
10ページから100ページ未満であれば、「増分」値を100などを指定します。
A 挿入するファイルを収めた別のフォルダーに対して、を用います。
書籍名は、@の手順の書籍名とします。
開始頁番号は、挿入箇所の”連番+1”とします。
B 挿入するファイルを、電子書籍用のフォルダーにコピーします。
C 電子書籍用のファイルから、再度OCR情報を取得します。
D とを用いて、電子書籍を作成します。