2011年 09月 05日

節子ー、それ、OCR機能やない! 最適化や!

困りましたねw
自炊をやっているんですが、いろいろと困ることがあります。

今の問題は「自動判別機能」が信頼できないことです。

たとえば、色相の自動判別。

カラー原稿>カラー読み取り
モノクロイラスト>グレースケール読み取り
モノクロ文章>白黒読み取り

と気を利かせてくれる機能で、ラノベみたいに、カラーやらイラストやら文章が混じるテキストでは重宝します。

ただ。。。わりと暴発します。

あれ? 文章なのに、カラー!?
イラストなのに、白黒!?

とかね。
文庫の紙って黄色っぽいので、それが原因だと思うんですが。

次は、原稿サイズの自動判別。

原稿サイズを読み取って、よきに計らってくれる機能なんですが。。。
明らかに「幅」がおかしい読み込み結果があったりw

サムネイルで見ると、そいつだけ、1.5倍の幅ですからね。

これが愛なら。。。
愛などいらぬ!

というわけで、信じてやるもんか-!
と自動判別機能を切ってみたんですよ。

そしたら、今度は原稿の角度がガッタガタw

自動判別するついでに、どうやらスキャナが原稿を揃えてくれていたみたいですね。今までなら、せいぜい1度くらいのブレだったんですが、そんなもんじゃきかないですね。

「旦那さまったら! また原稿の整理ができていない! ぷんぷん! わたしがいなくなったらどうするんですか、もう!」

くっ。。。
これが。。。スキャナの愛の力か!?

だけど、暴発されるのはダメなんです。暴発の可能性が少しでもあった場合、スキャナ後の目視チェックが必要になりますからね。

機械的に、大量処理をしたい場合、いかに人力を減らすかです。

「文字列の傾きを自動的に補正します」という角度補正の機能もあるんですが、こいつはこいつで、文字が少ないイラスト部分で逆補正する可能性があるしね。。。w

どうしたらいいんだ!
と思っていたら、救世主が!

添付ソフトのAdobe AcrobatにはOCR機能があるんですけど、こいつは文字列解析以外にも謎の機能があるんです。

・なぜかPDFの容量が下がる
・なぜかPDFの角度を補正してくれる

たぶん、アクロバットちゃんが「べ、別にあんたのために整理してあげるんじゃないんだからね! わたしが読みにくいから揃えるだけなんだから! か、勘違いしないでね!」とやってくれているのでしょう。

という感じなので、現状のベストアンサーは。。。

・自動判別は切る
・その後、OCR処理をかける(マンガも)

という感じでしょうか?
OCR処理自体は、けっこう時間がかかる処理なんですが、複数一括処理ができるので、寝ている間に設定しておけば問題ないでしょう。

ノウハウが日進月歩で変わっているので、また変わると思いますが。。。くっ、ベストソリューションは、なんだ!?
[PR]

by netnetnet_78 | 2011-09-05 09:41 | 雑記


<< バンダイチャンネルが、神すぎる      自炊生活、はじまる >>