zhaigy 发表于 2007-8-25 23:48:41

数字图书ocr识别的办法

数字图书ocr识别的办法
对于数字图书的识别,其实有很多方法,关键是看你的数字图书的来源和清晰度。
我一般习惯用两种:
1、
利用office2003的虚拟打印机Microsoft Office Document Image Writer,识别时,选择打印,打印机选择Microsoft Office Document Image Writer就可以,打印成*.mdi文件,office识别,里面就有ocr识别了,识别后可以发送到word或者记事本。不果打印的页数不咬太多,要不然识别的时候时间太长,还以为死机了呢,可以分段识别。不过对表格的识别较差。表格要先拷贝出去。(office2003安装是选择全部安装即可!)
2、
用尚书,把想要识别的文件,存成tiff文件,再尚书里开开就识别了。
这两种我都用过,效果还可以。
大家有什么问题可以跟贴,我负责回答。包括pdf文件的制作。
页: [1]
查看完整版本: 数字图书ocr识别的办法