「広辞苑」

「広辞苑」
岩波書店は、新村出編による「広辞苑」を、昭和三十年(一九五五年)に、第一版第一刷を、発行しています。
「広辞苑」は、A5サイズ(148×210)の用紙に印刷され、2371頁から構成されています。
「広辞苑」の編集は、昭和二十三年よりが始まり、昭和二十八年に終わっています。
「広辞苑」は、「国語辞典にして、また各種専門辞典百科辞典の効用を兼ねしめる意図の下に編修した中辞典」です。
「広辞苑」の収載範囲は、人文科学・自然科学・文化・芸術などの、67分野です。
「広辞苑」は、「当代一流の学者、新進の学人に執筆・修訂」により、「収載語彙は二十万を超え」ています。

「広辞苑」の「電子書籍」化
「広辞苑」の「電子書籍」化を、昭和三十四年発行の第一版第七刷を用いて、行いました。
画像のデジタル化は、スキャナーとして「EPSON DS-70000」を用い、400DPIの解像度・白黒モードで、行いました。
得られたPDFファイルは、1頁の容量が7KB〜189KB、総容量が357MB、平均は150KBです。
デジタル画像からのテキスト情報の取得は、メディアドライブ社の「e.Typist NEO v.15.0」を、用いました。
OCRソフトに関して、2371頁中313頁が、読取りに不都合が生じ、「lll」と解読されます。

この不都合は、黒い枠線の処理に起因するものと想定され、適切な認識領域の「範囲設定」によって解消できます。
OCRソフトを利用して得られたテキスト情報は、15.8MBの容量です。


キーワード検索では、得られたテキストデータをそのまま利用したのでは、不都合を生じる場合があります。
「広辞苑」は、「用言の語幹と活用語尾との間は中黒(・)で区切っ」ています。例えば、「はね・あが・る(跳上る)」
このような場合、「はねあがる」のキーワードでは、見出し語として検索されません。
この不都合は、テキストデータから「・」を消去することにより、解消します。

「広辞苑」などの国語辞典では、五十音順に見出しが作成され、見出し語を利用して、情報の検索が行われます。
さらに、用語の解説に用いられている単語を手がかりに、さらに情報の取得を行います。
「電子書籍」を利用したキーワード検索は、見出し語だけでなく、全ページの解説文が、検索の対象になります。
「電子書籍」の検索結果は、見出し語で検出されたのか、解説文で検出されたのか、区別しません。
「電子書籍」の検索結果は、キーワードが含まれる、ページ番号が表示されます。
検索結果が五十音のどこに該当するのかを判断するために、「目次」に五十音を作成しました。
例えば、233ページは、229ページの「え」と260ページ「お」に挟まれることから、「え」の見出しになります。

国語辞典の利用は、小説の読書とは異なり、先頭ページから、全文を読了する方法は、用いません。
従って、検索対象が、見出し語以外の部分に含まれていた場合、情報の見落としが生じます。
例えば、「とくがわいえやす」に関して、検索を行います。
その解説文には、「家康」と関連した武将として、今川義元・織田信長・豊臣秀吉・石田三成のみが見出されます。
「徳川」と「家康」をキーワードに用いると、「葵下坂」・「浅野幸長」・「井伊直政」など、75ページが検出されます。
さらに、「徳川」だけでは197ページが、「家康」だけでは91ページが、見出せます。
「電子書籍」の国語辞典を用いると、従来のピンポイントの情報取得でなく、総合的な情報の収集が可能になります。
これは、「電子書籍」の利用により、新たな国語辞書の世界が、出現したことになります。