tagCANDY CGI VBレスキュー(花ちゃん)の Visual Basic 6.0用 掲示板 [ツリー表示へ]   [Home]
一括表示(VB6.0)
タイトルPDFファイルの画像データ内の文字列読み込み
記事No12350
投稿日: 2008/05/23(Fri) 15:56
投稿者出来悪くでごめんなさい
お世話になります。

VB6.0で開発中です。

PDFファイルの画像データ内の文字列を読み込んで、プログラム中でその読み込んだ文字列を使用したいのですが、良い方法はありますか?

今、考えているのは以下です。

@PDFファイルをOCRソフトで読み込み、読み込んだ文字列を使用する。
→フリーソフトだと、テキストデータ内の文字列は読み込めるが、画像データ内の文字列を読み込めるツールが存在しない?(現調査段階)

AVB6.0で、PDFファイルの画像データ内の文字列を読み込める関数等を使用する。
→見つかれない(現調査段階)

宜しくお願いします

[ツリー表示へ]
タイトルRe: PDFファイルの画像データ内の文字列読み込み
記事No12351
投稿日: 2008/05/23(Fri) 16:40
投稿者魔界の仮面弁士
> PDFファイルの画像データ内の文字列を読み込んで、

Microsoft Office 付属の OCR 機能は使えませんか?
PDF を画像化する処理が別途必要になりますけれども。

http://hpcgi1.nifty.com/MADIA/VBBBS/wwwlng.cgi?print+200805/08050013.txt
http://hanatyan.sakura.ne.jp/vbnetbbs/wforum.cgi?mode=allread&no=7208&page=0

[ツリー表示へ]
タイトルRe^2: PDFファイルの画像データ内の文字列読み込み
記事No12353
投稿日: 2008/05/23(Fri) 18:50
投稿者出来悪くでごめんなさい
ありがとうございます。

PDFを画像化する処理は調査する予定ですが、
画像ファイルから、Microsoft Office付属のOCR機能を使い読み込むことができました。

しかし、ちょっと精度が悪いような気がします。
度々、申し訳ありませんが、もっと精度が良いものを知っていたら教えて下さい。
宜しくお願いします。


> > PDFファイルの画像データ内の文字列を読み込んで、
>
> Microsoft Office 付属の OCR 機能は使えませんか?
> PDF を画像化する処理が別途必要になりますけれども。
>
> http://hpcgi1.nifty.com/MADIA/VBBBS/wwwlng.cgi?print+200805/08050013.txt
> http://hanatyan.sakura.ne.jp/vbnetbbs/wforum.cgi?mode=allread&no=7208&page=0

[ツリー表示へ]
タイトルRe^3: PDFファイルの画像データ内の文字列読み込み
記事No12354
投稿日: 2008/05/23(Fri) 20:45
投稿者魔界の仮面弁士
> しかし、ちょっと精度が悪いような気がします。

フリーの OCR も幾つかありますが、手っ取り早く精度を上げるなら、
市販の OCR ソフトに頼った方が良いでしょう。認識補正の辞書の量が違いますし、
定型文書の場合には、レイアウトの指示を行えるものもありますので。

元の文書の状態や、認識させる文書の種類などにもよるので、比較が難しい分野ですが、
まずはプログラム制御云々を抜きにした比較論として、このあたりの情報とか。
http://q.hatena.ne.jp/1158154829
http://softfarm.net/info/ather/ocr_soft.html
http://mahoro-ba.net/c1-80.html


で、それらの試用版などを試してみて、許容できる精度のものをピックアップし、
それらがプログラムから制御できるか否か、開発元に問い合わせてみては如何でしょう。

[ツリー表示へ]
タイトルRe^4: PDFファイルの画像データ内の文字列読み込み
記事No12359
投稿日: 2008/05/26(Mon) 09:07
投稿者出来悪くでごめんなさい
いろいろとありがとうございました。
教えて頂いた方法で、検討・調査しやってみます。

また何かありましたら、書き込みするかもしれませんので、
その際は宜しくお願い致します。


> > しかし、ちょっと精度が悪いような気がします。
>
> フリーの OCR も幾つかありますが、手っ取り早く精度を上げるなら、
> 市販の OCR ソフトに頼った方が良いでしょう。認識補正の辞書の量が違いますし、
> 定型文書の場合には、レイアウトの指示を行えるものもありますので。
>
> 元の文書の状態や、認識させる文書の種類などにもよるので、比較が難しい分野ですが、
> まずはプログラム制御云々を抜きにした比較論として、このあたりの情報とか。
> http://q.hatena.ne.jp/1158154829
> http://softfarm.net/info/ather/ocr_soft.html
> http://mahoro-ba.net/c1-80.html
>
>
> で、それらの試用版などを試してみて、許容できる精度のものをピックアップし、
> それらがプログラムから制御できるか否か、開発元に問い合わせてみては如何でしょう。

[ツリー表示へ]