Entry: main  << >>
e.Typist NEO v.12.0でOCR
JUGEMテーマ:日記・一般

e.Typist NEO v.12.0

お経は文字、文言の集合体ですよね。「八万四千の法門」といいますが、長い歴史において、非常に数多くの教典や教えがあります。
ということは、現代では膨大なお経を電子化してデータベースを構築しようという作業も行われています。
我が宗では「天台宗典編纂所」がその事業を行っています。
◎天台宗典編纂所
http://www.biwa.ne.jp/~namu007/
私事、「電子仏典員」なるお役を拝命しており、経典データベース作成のお手伝いをしています。
主に大正〜昭和にかけて刊行された経典全集(=活字印刷)から天台宗に関係の深いものをテキストデータ化してます。
スキャナで読み取った画像から文字を識別して文書に変換するOCRソフトを用いますが、『e.Typist NEO v.12.0』を初めて使ってみました。
以前は『Dr.よみとらす』を使っていたのですが、どうもメーカーがなくなったみたいで、この後継として宗派本部から送られてきました。
『e.Typist NEO v.12.0』の良いところは、文字の学習をしたらすぐに認識候補に出てくるのは秀逸です。JIS第2水準や旧字体(異体字)も多くある中、変換精度もまあまあ合格点だと思います。
漢字というのはヘンやツクリが似ている文字がいっぱいありまして、ソフトに「特定の文字に変換してほしい」と学習させます。そういう文字が出てくるたびに学習しますと大変ですけど、今後のためと思い、えっちらおっちらしてます。
今回の私の担当はUSBメモリで送られていた8ページ分です。

なお、OCRとは、【Optical Character Reader】の略で、日本語では 「光学式文字読取装置」といいます。手書き文字や印字された文字を光学的に読み取り、前もって記憶されたパターンとの照合により文字を特定し、文字データを入力する(発生させる)ことです。


| 真之丞 | 19:26 | comments(2) | trackbacks(1) | pookmark |
Comment
作業、ご苦労様です。
最近は何でもデジタル化なのですね(笑)
私も昔々、OCRソフトを使ったことがありますが、当時は誤変換が多くてんで使い物にならなかった記憶があります。
今は性能もぐんとよくなったと思いますが、作業を行うのはやはり人の手。
大変な作業だとは思いますが、どうぞ今後のためにがんばってくださいませ。
Posted by: たらきち☆ |at: 2010/06/15 6:01 AM
たらきち☆さん、こん**は。
今のOCRは昔より格段に変換精度があがっています。
確かに校正は人の目ですから全自動というわけにはまいりませんが(笑)。
私がした8ページ分を投函して提出しました。
Posted by: 真之丞 |at: 2010/06/15 3:28 PM








Trackback
 【エコポイント対象】Panasonic WIDE32V型 地デジ対応 ハイビジ...
これ欲しい | at: 2010/06/21 7:23 PM

Calendar

    123
45678910
11121314151617
18192021222324
252627282930 
<< June 2017 >>

Profile

日めくりカレンダー

九星気学


-方位学-

Search

Entry

Comment

Trackback

Archives

Category

Link

Feed

Others

無料ブログ作成サービス JUGEM

Mobile

qrcode