圣者
精华
|
战斗力 鹅
|
回帖 0
注册时间 2012-10-27
|
本帖最后由 win8 于 2019-2-10 11:39 编辑
虽说现在电子书扫描档自动切边、重排版、ocr已经很厉害了,但是很多时候仍然很惨。我在想能不能做一个结合深度学习对扫描书自动切边、重排版甚至ocr的软件。
处理的对象:
针对出版物,已经使用扫描仪采集导出的PDF电子书
处理的结果:
矫正倾斜/去除多余白边/去除页眉页脚,重新输出PDF,
更进一步的可能性:
1. (甚至结合OCR)制作一个排版更优秀的扫描档重排功能的Android阅读器应用.
2. 制作一个大幅减少工作量的PDF扫描档->图文混排电子书的转换工具.
核心思路:1. 把扫描书最中间的20页左右页提取为图片作为样本
2. 解析bitmap,对每页文字区域提取特征、对页眉页脚均匀连续的边线提取特征
3. 针对提取到的特征自动校正图片的偏转方向
4. 根据文字区域特征、页眉页脚边线特征的相似性判断真实的页眉页脚区域,把这些区域裁切掉。并且训练出模型(至多包含奇数页、偶数页、无页眉页脚页)
5. 使用训练的模型对整本书进行自动裁切
备选方案:
1. 提取扫描书为位图文件(已经实现)
2. 对位图尺寸进行判定,高于512*512的位图压缩分辨率至200像素宽,并进行二值化
3. 针对(2)处理的结果作深度学习,基于识别文字轮廓/整行轮廓文字的图形对书页进行版面分析
4.针对排版分析结果输出缩图的正文区域,针对同一本书的正文区域再次做机器学习处理,令同一书的正文区域较为接近
5. 缩图的正文区域乘以缩图比例得到粗步的原图裁切区域。
>更多的:
一个文本类型的阅读器,针对文本内容用户可以进行手动矫正(错误的断行/错字/章节重复/广告/错误的OCR)。
针对文本进行分词并记录词频。
现实内容时,进行分词和自然语言的语义识别。如果分词结果很诡异,或者语义语法存在很大的问题,检索异常部分的文字图像是否与先前矫正的内容的相似性。如果相似度较高,那么自动校正文本。
> 更多的:
调用一页裁切的结果,使用互联网ocr接口对图片进行文本识别。
针对识别的结果用户进行手动矫正。
针对识别的结果进行分词并记录词频。
识别下页内容时,进行分词和自然语言的语义识别。如果分词结果很诡异,或者语义语法存在很大的问题,检索异常部分的文字图像是否与先前矫正的图像有高的相似性。如果相似度较高,那么自动校正文本。
已经在自己折腾了,有这个方向折腾的意向的话请联系我.
使用java,目的是PC和android设备都有机会使用,
一楼更新进度, 如果有大的进展我会顶下帖子
2/6 完成了最最初步的工具,从PDF抽取图片并保存为文件.
使用方法:拖拽一个或多个文件,甚至是文件夹到run.bat上,软件自动提取图片并显示在命令行界面上。
其实就是找到现成的pdfbox库然后套了个壳子。
类似的工具其实有现成的,但是用别人的工具操作太复杂了……并且现成的工具不见得比这个好用。
链接: https://pan.baidu.com/s/1wdOgbtt_5mDGIUZI9OVvSA 提取码: ry32
|
|