找回密码
 立即注册
搜索
查看: 4166|回复: 26

[软件] 有什么软件能对几百页的PDF批量OCR,然后输出其中文本?

[复制链接]
     
发表于 2023-4-6 15:48 | 显示全部楼层 |阅读模式
RT,有这么个课题,给我的是一套出版物的PDF,文本无法复制,体积比较大,大的文件近2G。我的需求是:通过OCR批量输出文本,然后用正则脚本提取需要的信息并汇总
用Acrobat试了一下,弄了一会然后就闪退了...
所以还有什么软件能满足这个需求吗...

回复

使用道具 举报

     
发表于 2023-4-6 15:57 | 显示全部楼层
可以考虑一下曲线救国,Acrobat导出按页命名的图片再OCR
回复

使用道具 举报

     
发表于 2023-4-6 16:00 | 显示全部楼层
pdf可以先降低精度减少大小的吧
压到20m以内再试试?
回复

使用道具 举报

     
发表于 2023-4-6 16:01 | 显示全部楼层
2楼正解,OCR是很吃性能的,你一下子塞这么多页的内容只能给你摆烂
回复

使用道具 举报

     
 楼主| 发表于 2023-4-6 16:01 | 显示全部楼层
回忆and无语 发表于 2023-4-6 15:57
可以考虑一下曲线救国,Acrobat导出按页命名的图片再OCR

导出之后再用什么软件ocr呢?
回复

使用道具 举报

     
发表于 2023-4-6 16:03 | 显示全部楼层
古畑任三郎2015 发表于 2023-4-6 16:00
pdf可以先降低精度减少大小的吧
压到20m以内再试试?

虽然但是

OCR识别的正确率和PDF精度直接挂钩。你降低精度的代价就是出来的文本错误几倍的增加。最后排查错误又是麻烦事情。

不过纯文字的内容PDF也不会变成2G大,能有这么大里面肯定不少插图。删除图片再做ocr是可行的
回复

使用道具 举报

     
发表于 2023-4-6 16:08 来自手机 | 显示全部楼层
导出单页图片之后上python?

—— 来自 HUAWEI JAD-AL50, Android 12上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2023-4-6 16:11 来自手机 | 显示全部楼层
先分割成几十个小的pdf,然后ocr
回复

使用道具 举报

     
发表于 2023-4-6 16:12 | 显示全部楼层
出版物就是转曲了呗
我现在一般做法是在Acrobat里切一下页眉和页脚等不要的部分,然后pdfFLY转单页图分批喂到白描里(白描一次最多50页),最后导出并合并txt正则调一下
abbyy finereader之类的可以一次性OCR整个PDF,我用白描是因为中文识别效果好

评分

参与人数 1战斗力 +1 收起 理由
evagle + 1 好评加鹅

查看全部评分

回复

使用道具 举报

     
发表于 2023-4-6 16:27 来自手机 | 显示全部楼层
一页页导出后扔白描 pc 版
回复

使用道具 举报

     
 楼主| 发表于 2023-4-6 16:30 | 显示全部楼层
GMJ 发表于 2023-4-6 16:03
虽然但是

OCR识别的正确率和PDF精度直接挂钩。你降低精度的代价就是出来的文本错误几倍的增加。最后排查 ...

刚把它压了一下,ppi低到20,等于删图片了吧,1.89G到970M...
估计是文本也是通过图片形式保存的
回复

使用道具 举报

     
发表于 2023-4-6 16:35 | 显示全部楼层
evagle 发表于 2023-4-6 16:30
刚把它压了一下,ppi低到20,等于删图片了吧,1.89G到970M...
估计是文本也是通过图片形式保存的 ...

你试过这个ppi下的文字识别率了么?能行就这么搞也行
他的pdf如果是扫描的形式保存的,那确实每一页都是一张大图片这种是最窝巢的
回复

使用道具 举报

     
发表于 2023-4-6 16:39 | 显示全部楼层
邪道:能不能让人工智能做这个事情?

CHATgpt,把XXX书全部文字内容输出一个word给我
回复

使用道具 举报

     
发表于 2023-4-6 16:42 | 显示全部楼层
福昕应该可以
回复

使用道具 举报

     
 楼主| 发表于 2023-4-6 16:43 | 显示全部楼层
GMJ 发表于 2023-4-6 16:35
你试过这个ppi下的文字识别率了么?能行就这么搞也行
他的pdf如果是扫描的形式保存的,那确实每一页都是一 ...

文字像是矢量的,总之就是很奇怪...
回复

使用道具 举报

     
 楼主| 发表于 2023-4-6 16:43 | 显示全部楼层
password 发表于 2023-4-6 16:12
出版物就是转曲了呗
我现在一般做法是在Acrobat里切一下页眉和页脚等不要的部分,然后pdfFLY转单页图分批喂 ...

试了一下abbyy,能正常输出到doc或者 txt,但是一些生僻字的识别有点捉急..
回复

使用道具 举报

     
发表于 2023-4-6 17:02 | 显示全部楼层
evagle 发表于 2023-4-6 16:43
试了一下abbyy,能正常输出到doc或者 txt,但是一些生僻字的识别有点捉急..

生僻字就不要纠结了,不在系统的识别库里随便给你个他觉得长得像的很正常
回复

使用道具 举报

     
 楼主| 发表于 2023-4-6 17:05 | 显示全部楼层
GMJ 发表于 2023-4-6 17:02
生僻字就不要纠结了,不在系统的识别库里随便给你个他觉得长得像的很正常 ...

然后白描的效果还不如abbyy...
回复

使用道具 举报

     
发表于 2023-4-6 17:08 | 显示全部楼层
本帖最后由 GMJ 于 2023-4-6 17:11 编辑
evagle 发表于 2023-4-6 17:05
然后白描的效果还不如abbyy...

你可以试试出一张300dpi的JPG给白描做


300dpi是精美印刷品常用的挂网精度,ocr本来针对的就是把印刷品的扫描图转成文本。所以你PDF直接导出300dpi的图可以默认为没有精度损失。效果可以接受的话还是楼上的办法,批量导出高质量jpg,分组去ocr

评分

参与人数 1战斗力 +1 收起 理由
evagle + 1 好评加鹅

查看全部评分

回复

使用道具 举报

     
 楼主| 发表于 2023-4-6 17:30 | 显示全部楼层
GMJ 发表于 2023-4-6 17:08
你可以试试出一张300dpi的JPG给白描做

结果好了不少,白描似乎是先把pdf转换成低精度的图片,然后再OCR
回复

使用道具 举报

     
发表于 2023-4-6 19:27 | 显示全部楼层
建议这种可以程序批量处理的需求先GitHub搜一边,大概率有解决办法
回复

使用道具 举报

     
发表于 2023-4-6 20:01 | 显示全部楼层
本帖最后由 鸺鹠 于 2023-4-6 20:03 编辑

喵~有许多 OCR(光学字符识别)软件可以处理多页 PDF 文件并提取其中的文本。以下是一些流行的 OCR 软件和工具:
Adobe Acrobat Pro:Adobe Acrobat Pro 是一款功能强大的 PDF 编辑软件,它内置了 OCR 功能。你可以使用 Adobe Acrobat Pro 对多页 PDF 文件进行 OCR,并将识别的文本导出为 Word、TXT 或其他格式的文件。

ABBYY FineReader:ABBYY FineReader 是一款专业的 OCR 软件,可以处理多页 PDF 文件。它支持多种输出格式,如 Word、TXT、Excel 等。FineReader 支持多种语言,并提供高识别准确率。

Tesseract:Tesseract 是一个由 Google 开发的开源 OCR 引擎,它支持多种语言。你可以使用 Tesseract 处理多页 PDF 文件,但需要先将 PDF 文件转换为图像格式(如 TIFF)。为了方便使用,你可以尝试一些基于 Tesseract 的图形用户界面(GUI)工具,如 gImageReader 或者 OCR.space。

OmniPage:OmniPage 是一款功能丰富的 OCR 软件,可以处理多页 PDF 文件。它提供了多种输出格式,如 Word、TXT、Excel 等,并支持多种语言。

Readiris:Readiris 是一款 OCR 软件,支持处理多页 PDF 文件并将识别的文本导出为 Word、TXT 等格式。Readiris 支持多种语言,并提供一定的识别准确率。

PDFelement:PDFelement 是一款 PDF 编辑软件,也具有 OCR 功能。你可以使用它对多页 PDF 文件进行 OCR,并将识别的文本导出为 Word、TXT 或其他格式的文件。

请注意,不同软件之间的识别准确率和处理速度可能会有所不同。为了找到最适合你需求的 OCR 软件,建议尝试一些免费试用版或开源软件。
回复

使用道具 举报

     
发表于 2023-4-6 20:21 | 显示全部楼层
先批量按页转成图片,然后传到 Google Drive,右键以文档方式打开,我觉得这是最无敌的免费又非常好用的 OCR,繁体识别率99.99%
回复

使用道具 举报

     
发表于 2023-4-8 10:48 | 显示全部楼层
回复

使用道具 举报

     
发表于 2023-4-8 11:05 | 显示全部楼层
那个,试试wps呢?我曾经用这个把四五百页的扫描书转换成文字,识别率总体还可以,就是格式有点乱

  -- 来自 能手机投票的 Stage1官方 Android客户端
回复

使用道具 举报

     
发表于 2023-4-8 11:32 | 显示全部楼层
你不想折腾的话冲个wps会员
回复

使用道具 举报

     
发表于 2023-4-9 16:43 来自手机 | 显示全部楼层
先PDF导出图片  再图片ocr如何   这类不能选文本体积又非常大的PDF 很大可能就是个图包
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2024-11-13 16:50 , Processed in 0.139105 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表