怎样把PDF等电子书格式转换成文
现在许多PDF等电子书是由经过扫描的图片组成的,所以,对于一般的转换软件无能无力,唯一的办法就是通过识别软件识别,这样工作量就太大了。经过一段时间的琢磨,终于找到一个比较方便的方法,原理还是通过识别,但可以批量,一本书一次识别,然后再进行复制整理,效率大大提高,在此把方法写出来,给需要的朋友。
首先,把PDF格式转换成djvu格式,具体的先把PDF拆分成图片,然后用DjvuToy制作成djvu格式,然后用此软件中的文本相关项目下的OCR识别,识别过一次后,用djvu阅读器打开电子书,里面的文本就可以复制下来了。 识别率的高低,跟图片的质量关系比较大。如果图片质量好,一面基本修改几处就...全部
现在许多PDF等电子书是由经过扫描的图片组成的,所以,对于一般的转换软件无能无力,唯一的办法就是通过识别软件识别,这样工作量就太大了。经过一段时间的琢磨,终于找到一个比较方便的方法,原理还是通过识别,但可以批量,一本书一次识别,然后再进行复制整理,效率大大提高,在此把方法写出来,给需要的朋友。
首先,把PDF格式转换成djvu格式,具体的先把PDF拆分成图片,然后用DjvuToy制作成djvu格式,然后用此软件中的文本相关项目下的OCR识别,识别过一次后,用djvu阅读器打开电子书,里面的文本就可以复制下来了。
识别率的高低,跟图片的质量关系比较大。如果图片质量好,一面基本修改几处就够了。这样虽然还需要一定的工作量,不过,效率已经大大提高了。具体的软件自己可以下载,本人的共享里也有上传。
[请问您是要解答还是要传授经验?]。
收起