というわけで、まだOCRで自炊をしているんですが。
ぶっちゃけて言うと、D&D4thのサプリメントです。あの重いルールブックやサプリを何冊も持って歩かないで済むのは大きな利点だと思うので。
まあ、シナリオ作っている最中は絶対に紙の本の方が使いやすいのですが、セッションの最中確認したりするには、持ち運びが楽で、検索も出来る自炊pdfが。なんて思っていたのですが。
......結構大変です、これは。
まず、文字の認識率が。
最近のOCRは非常に優秀で、文字認識率は99.9%かそれ以上です。つまり、1000文字(約2kB、400字詰め原稿用紙で3枚くらい)に一文字の認識間違いがあるか、どうか。辞書を鍛えていけば、この認識率はさらに高くなるものと思われます。だいたい1ページに2文字くらいのご認識ってところでしょうか。体感では。
ところが、これが、地紋(文字の後ろの模様)が付くと、途端に認識率が凄まじく低下します。ざっと4行から3行に1行くらい。おおざっぱに言って70%くらいかしら。4行から3行に一文字、じゃないですよ。1行ですよ。ま、地紋の模様にもよるのでしょうけど。
D&Dのルールブックで言うと、モンスターのパワーが書かれている緑系の網掛け地紋、あれがひどい認識率です。凄まじくややこしい字に勘違いしてくれる。赤系列はまだマシなんですが。そういえば、昔の漫画家入門書で、青系統、緑系統は印刷に出にくいからカラー原稿でもなるべく使うなとかいてありましたが、そういうところ関係しているのでしょうかね。
あと、絵の中に無理やり文字っぽいものを見つけて、文字として認識しようとします。
文字認識だけだったら、たぶん画像を白黒にして、地紋を飛ばしてしまえば楽になるのでしょうけど。基本はページをスキャンした画像で、透明テキストをかぶせて検索だけ効くようにしたいのですよ。だから、画像を白黒にするわけには行かない。
というわけで、文字認識された原稿を、改めてチェックして、きちんとした記事に修正しているんですが......まあ、大変ですわ。なんだかんだで3日間ぐらいやっています。もちろんぶっ続けでやっているわけではなく、飽きたり目が疲れたりしたら休んだり、他のこともやりながらではあるのですがね。正直、思っていたよりしんどい。
ある程度、誤認識のパターンというのはあるのですが、一括置換が出来ないのも多くて。「+」と「十」とか、「-」と「-」と「一」とか。
ゲラ刷り校正とやっていることは変わらないのですが、なんだろうなあ、5倍は疲れる。ブルーライトカットがないディスプレイだからか、寝不足だからか、仕事でないからか。
というわけで、ここ2~3日、OCRにかまけてて、ブログの更新もおろそかに、ゲームもオンセとかそういう話も無しなのでした。
たぶん、これ、トラベラーサプリみたいな白黒画像だと、ここまで苦労はしないで済むんだろうけどなあ。
コメントする