テキスト情報を取得する


文字コードとは

パソコンのキーボードを用いて、文字を入力すると、ディスプレイ上に文字が表示されます。しかし、入力によってパソコンに記録されるのは、文字そのものの形ではなく、0と1の組み合わせで表現される文字コードです。
コンピュータで取り扱う情報の最小単位が、0か1かの値をもつビットです。1ビットは、2種類の情報しか取り扱えませんが、ビットの数が増えれば取り扱える情報の種類が増加します。例えば、2ビットでは2x2=4種類、8ビットで256種類になります。8ビットを単位とした1B(バイト)も、情報の単位として使用されています。
文字の形は、使用される言語ごとに異なります。従って、文字コードは、言語ごとに、一定の取り決めがなされています。
日本語で使用されるシフトJIS日本語文字コードは、2B(16ビット)を用いて、文字を16組の0と1の2進数で表現しています。例えば、「電」の文字2進数は、0110001010010011(16進表示で6493)で表現されます。日本語文字コードは、シフトJISコード以外のも、日本語EUCコードなどがあります。EUCコードでは「電」の文字は、1100010111000101(16進表示でc5c5)で表現されます。

テキスト情報・テキストファイルとは

このソフトの解説では、文字コードで記述される情報を、テキスト情報と呼ぶことにします。
テキスト情報で構成されているファイルは、テキストファイルと呼ばれ、テキストエディターで参照することができます。
テキストファイルの拡張子は、"txt" , "csv" , "html" などです。

文字フォントとは

2進数の文字コードで表現された文字は、ディスプレイ上では2進数ではなく、人間に認識可能な形「電」が表示されます。2進数の文字コードとそれに対応する文字の形との取り決めが、文字フォントです。文字フォントには、通常用いられる「MS 明朝」以外に,「DF特太ゴシック体」,「HG正楷書体-PRO」など、様々な種類があります。例えば「電」の文字は、各々「」,「」,「」で表示されます。
また、同じ「電」の文字でも、「」や「」のように、文字の大きさが異なることがあります。文字の大きさを与えるのが、文字サイズです。

半角文字と全角文字

コンピュータの発展の初期段階では、漢字の文字コードは用意されていません。戦後のコンピュータの発展を牽引したIBMは、英数字の文字コード「EBCDIC ( Extended Binary Coded Decimal Interchange Code)」を、1963年に定義しました。EBCDICは、1B(8ビット)を用いる文字コードであり、今日まで使用されている文字コードです。日本では、カタカナ文字を含む、8ビットの文字コードJIS X 0201が1969年に制定されています。
8ビットで表現できる文字の種類は、最大で256個です。6千を越える漢字を使用する日本語は、8ビットでは表現できず、16ビット(2B)を用いると表現が可能となります。2Bでは、最大で65536種類の文字が表現できます。
2BのシフトJIS日本語文字コードでは、8ビットで表現される文字コードが継承されています。この部分が、半角文字と呼ばれています。半角文字には、数値の「0〜9」,小文字の英字「a〜z」,大文字の英字「A〜Z」,カタカナの五十音文字「ア〜ン」,「(」や「)」などがあります。
これらの半角文字は、2Bを用いる全角文字としても定義されています。 全角文字では、数値の「0〜9」,小文字の英字「a〜z」,大文字の英字「A〜Z」,カタカナの五十音文字「ア〜ン」,「(」や「)」となります。

OCR(文字認識)ソフト

OCR(Optical Character Recognition 光学的文字認識)ソフトは、印刷物など表現された文字画像が、どの文字コードに対応するかを認識するソフトです。認識した結果は、2進数の文字コードではなく、文字フォントを用いて画像として 表示されます。
日本語のOCRソフトは、2000年前後から市販されています。2017年現在では、OCRソフトの認識率が99%になることもあります。
OCRソフトは、同一の文字でも文字フォントや文字サイズが異なりますが、同じ文字として認識します。また縦方向や横方向に表示された文字列にも、対応できます。
OCRソフトの利用にさいして、OCRソフトがどのような場合に不都合を起こすかを知っておくことが大切です。
@ 画像の解像度が低い場合。ただし高すぎると、処理時間が長くなる。
A 半角文字を含む場合。半角の文字か全角の文字かの判断。
B よく似た形の文字 数値の「1・T」と英字の「I・l」 数値の「0」と英字の「O」 カタカナの「ニ」と漢数値の「二」 「ー」と「−」
C 文字以外の画像 文字認識の結果が ”S』チゴじぶ匸]”や ”1111・●t.”など、意味が不明となる。



OCRソフトを利用する
 
OCRソフト利用の手順
@ 画像ファイルを開く
  「ファイル(F)」 ⇒ 「画像ファイルを開く(F)」 ⇒ 
  「ファイルの場所(I)」,「ファイル名(N)」,「ファイルの種類(T)」を選択して、「開く(O)」
A 認識
B OCR情報の保存
  認識結果をテキストデータとして保存する。
  「Typist NEO」 では 「保存」 ⇒ 「保存する場所(I)」,「ファイル名(N)」,「ファイルの種類(T)」を選択
                
ソフトの起動画像ファイルを開くファイル名の選択
画像リストの選択認識結果の保存
ファイル名の入力
 
B 結果の保存
 「読取革命」では 「テキスト」 ⇒ 結果が表示される ⇒ 「ファイル(F)」 ⇒ 「名前をつけて保存」 ⇒
 「保存する場所(I)」,「ファイル名(N)」,「ファイルの種類(T)」を選択

OCR情報の保存先きは、電子書籍用のフォルダーとします。
OCR情報は、で、電子ノート用のファイル“書籍名_Text.txt”に取り込みます。

       
ソフトの起動画像ファイルを開くファイルの選択
認識結果の参照と保存
 
「画像ファイルを開く(F)」ときの注意

(1) 10ページを越える画像ファイルを開く場合、ファイル名の連番情報には注意が必要です。
例えば、書籍名_1.jpg,書籍名_2.jpg,・・・,書籍名_9.jpg,書籍名_10.jpg,書籍名_11.jpg の場合、
認識の順序は、書籍名_1.jpg,書籍名_10.jpg,書籍名_11.jpg,書籍名_2.jpg,・・・,書籍名_9.jpgになります。
連番どおりの認識結果を得るためには、あらかじめ連番のファイル名を変更することは必要です。
例えば、連番の初期値として、1001を用い、ファイル名を書籍名_1001.jpg,書籍名_1002.jpg,・・・,書籍名_1009.jpg,書籍名_1010.jpg,書籍名_1011.jpg に変更します。この変更は、を利用します。

(2) 一度に処理可能な最大ページ数
OCRソフトによって、一度に処理できるページ数に制限がある場合があります。
一度に処理できるページ数が500とし、その場合の処理は、以下の手順を用います。
@ 画像ファイルが、統合型PDFファイルの場合は、分割型PDFファイルを作成します。
A を用い、画像ファイル名の変更をします。例えば、書籍名を "a"、開始頁番号を"1001" とします。
ファイル名は、a_1001.jpg,・・・,a_1500.jpg,a_1501.jpg,・・・,a_2000.jpg ,a_2500.jpg,a_2501.jpg,・・・になります。
B 画像ファイルが数千を超える場合は、処理上でのエラーを防ぐために、フォルダーを設け、500個ずつに分割し保存します。その場合、分割作業などでのエラーを防ぐために、フォルダー名を単純に、”1”,”2”,”3”,・・・とします。
C 各フォルダー毎に、OCRソフトで処理します。結果は、ファイル名を、"OCR1.txt","OCR2.txt","OCR3.txt",・・・として、電子書籍用のフォルダーに保存します。
D テキストエディターを用いて、"OCR1.txt","OCR2.txt","OCR3.txt",・・・を順次に開き、ひとつに結合し、"OCR.txt"として保存します。

OCRソフトの選択

OCRソフトの認字率は、必ずしも100%ではなく、ソフトの種類によって異なる場合があります。従って、認字率を高めるためには、複数のソフトを利用することが望まれます。
「電子書庫・書籍・ノート」では、書籍を複写してえられた画像に含まれる文字情報から文字コードを取得するために、OCRソフトを利用します。「電子書庫・書籍」では、得られた文字コードを対象に、キーワード検索をページ単位に行います。従って、OCRソフトの認識結果に、各ページを区別する情報・ページセパレータを含む必要があります。OCRソフトによっては、ページセパレータがないのがあります。その場合には、利用者がページセパレータの情報を付加することが必要になります。



 
          
カラーモード(1129KB)グレーモード(947KB)モノクロモード(782KB)
津野山神楽聯雛 梼原町の文化は「津野山文化」と呼ばれ、延o年(913)、京より津野経高(つの・ つねたか)が士佐梼原へ入国したことにより始まったとされています。その中でも代表的 な津野山神楽は一千百余年の歴史を感じさせる質素ながらも荘厳な舞で、代々の神官によ り舞い継がれ、梼原の生活にすっかり溶け込んだ神楽です。 舞は全部で18節よりなり、正式に舞い納めるには、約8時間を要します。それぞれ厳格 なきまりをもち、「進左退右」、「座左起右」というように、進む時、退く時、座る時、 立つ時それぞれの作法をもっています。原理原則をはずした動作では、神の心を慰めるこ とができないという舞の厳しい一面をかいま見せています。 本町はまた、全国神楽フェスティバル、四国神楽大会の舞台になるなど、神楽を現代に 受け継ぐ他地域との交流にも積極的に取り組んでいます。 津野山神楽は、土佐の神楽の一つとして、昭和55年(1980)国の重要無形民俗文化財 に指定されました。 踊 微 ジき 催 層 爵 まぶ 鍵≠ 論騨幽『 顕駕 瓢疑' 辱p\. 野 ・雛 .騨.「/馨霧≡憲 ♂.謹諺馨卜 ∵艦犠 ---------------------[End of Page 1]--------------------- 一千百余年罎懸舞絵溝蓬物 津野山神楽 梼原町の文化は「津野山文化」と呼ばれ、延喜13年(913)、京より津野経高(つの・ つねたか)が土佐梼原へ入国したことにより始まったとされています。その中でも代表的 な津野山神楽は一千百余年の歴史を感じさせる質素ながらも荘厳な舞で、代々の神官によ り舞い継がれ、梼原の生活にすっかり溶け込んだ神楽です。 舞は全部で18節よりなり、正式に舞い納めるには、約8時間を要します。それぞれ厳格 なきまりをもち、「進左退右」、「座左起右」というように、進む時、退く時、座る時、 立つ時それぞれの作法をもっています。原理原則をはずした動作では、神の心を慰めるこ とができないという舞の厳しい一面をかいま見せています。 本町はまた、全国神楽フェスティバル、四国神楽大会の舞台になるなど、神楽を現代に 受け継ぐ他地域との交流にも積極的に取り組んでいます。 津野山神楽は、土佐の神楽の一つとして、昭和55年(1980)国の重要無形民俗文化財 に指定されました。 ---------------------[End of Page 2]--------------------- 一千轡余年, 熱津野山 φ、 澱。 梼原町の文化は「津野山文化」と呼ばれ、延喜13年(913)、京より津野経高(つの・ つねたか)が土佐梼原へ入国したことにより始まったとされています。その中でも代表的 な津野山神楽は一千百余年の歴史を感じさせる質素ながらも荘厳な舞で、代々の神官によ り舞い継がれ、梼原の生活にすっかり溶け込んだ神楽です。 舞は全部で18節よりなり、正式に舞い納めるには、約8時間を要します。それぞれ.厳格 なきまりをもち、「進左退右」、「座左起右」というように、進む時、退く時、座る時、 立つ日寺それぞれの作法をもっています。原理原則をはずした動作では、神の心を慰めるこ とができないという舞の厳しい一面をかいま見せています。 本町はまた、全国神楽フェスティバル、四国神楽大会の舞台になるなど、神楽を現代に 受け継ぐ他地域との交流にも積極的に取り組んでいます。 津野山神楽は、土佐の神楽の一つとして、昭和55年(1980)国の重要無形民俗文化財 に指定されました。 階ぞ 繕瀞 / 声罎 〆 罐 藝薦 履〆7欝 胸長 亀 .蓮\冨 讐\ 1駈 ---------------------[End of Page 3]---------------------
一千百余年の歴史絵巻=をql           ・..?.;・;・で・..・‘・.゛1・・・¬・,・・・.・・l ,‘.                 i■■ 皿 \……漸山1申自  檮原町の文化は「濘野山文化」と呼ばれ、延喜13年(引3)、京より津野経高(つの・ つねたか)が土佐梼原へ入国したことにより始まったとされています。その中でも代表的 な津野山神楽は一千百余年の歴史を感じさせる質素ながらも荘厳な舞で、代々の神官によ 0舞い継がれ、梼原の生活にすっかり溶け込んだ神楽ですO  舞は全部で18節よりなり、正式に舞い納めるには、約8時間を要します。それぞれ厳格 なきま0をもち、[進左退右]、「座左起右」というように、進む時、退く時、座る時、 立つ貽それぞれの作法をもっています。原理原則をはずした動作では、神の心を慰めるこ とができないという舞の厳しい一面をかいま見せていますO  本町はまた、全国神楽フェスティバル、四国神楽大会の舞台になるなど、神楽を現代に 受け継ぐ他地域との交流にも積極的に取0組んでいます。  津野山神楽は、土佐の神楽の一つとして、昭和55年(1980)国の重要無形民俗文化財 に指定されましたO               ,¶1≒.......     , W 一千百余年の歴史絵巻スを物 ・=づこ……津野山神  檮原町の文化は「津野山文化」と呼ばれ、延喜13年(引3)、京より津野経高(つの・ つねたか)が土佐梼原へ入国したことにより始まったとされています。その中でも代表的 な津野山神楽はー千百余年の歴史を感じさせる質素なびらも荘厳な舞で、代々の神官によ り舞い継がれ、梼原の生活にすっかり溶け込んだ神楽です。  舞は全部でIB節よりなり、正式に舞い納めるには、約8時間を要します。それぞれ厳格 なきよ0をもち、[進左退右]、「座左起右」というように、進む時、退く時、座る時、 立つ時それぞれの作法をもっています。原理原則をはずした動作では、神の心を慰めるこ とができないという舞の厳しい一面をかいま見世ています。  本町はまた、全国神楽フェスティバル、四国神楽大会の舞台になるなど、神楽を現代に 受け継ぐ他地域との交流にも積極的口取0組んでいますO  津野山神楽は、土佐の神楽の一つとして、昭和55年0 980)国の重要無形民俗文化財 に指定されましたO  梼原町の文化は「津野山文化」と呼ばれ、延喜13年(913)、京より津野経高(つの・ つねたか)が土佐梼原へ入国したことにより始まったとされています。その中でも代表的 な津野山神楽はー千百余年の歴史を感じさせる質素な脱らも荘厳な舞で、代々の神官によ り舞い継がれ、梼原の生活にすっかり溶け込んだ神楽です。  舞は全部で18節よりなり、正式に舞い納めるには、約8時間を要します。それぞれ厳格 なきまりをもち、「進左退右」、「座左起右」というように、進む時、退く時、座る時、 立つ畤それぞれの作法をもっています。原理原則をはずした動作では、神の心を慰めるこ とができないという舞の厳しい一面をかいま見せています。  本町はまた、全国神楽フェスティバル、四国神楽大会の舞台になるなど、神楽を現代に 受け継ぐ他地域との交流にも積極的に取り組んでいます。  津野山神楽は、土佐の神楽の一つとして、昭和55年(1980)国の重要無形民俗文化財 に指定されました。