炸裂!PDF转Word彻底告别收费时代,这个OCR开源项目要逆天!
1.导读
跟着企业数字化历程不竭加速,PDF转Word的功用、纸量文本的电子化存储、文件复原与二次编纂、信息检索等应用都有着强烈的企业需求。目前市道上已有一些软件,但普及需要繁琐的安拆注册操做,大多还存在额度限造。此外,最末转换效果也依赖于版面形态,无法做到针对性适配。
图1 PDF文件转Word文件效果图
PP-StructureV2智能文档阐发系统晋级点包罗以下2方面:
系统功用晋级 :新增图像矫正和版面复原模块,撑持原则格局pdf和图片格局pdf解析!
系统性能优化 :
版面阐发:发布轻量级版面阐发模子, 速度提拔11倍 ,均匀 CPU耗时仅需41ms !
GitHub传送门:
2.PP-StructureV2
智能文档阐发系统优化战略概述
PP-StructureV2系统流程图如下所示,文档图像起首颠末图像矫正模块,判断整图标的目的并完成转正,随后能够完成版面信息阐发与关键信息抽取2类使命。
图2 PP-StructureV2系统流程图
展开全文
从算法改良构想来看,对系统中的3个关键子模块,共停止了8个方面的改良:
☆版面阐发
PP-PicoDet:轻量级版面阐发模子
FGD:兼顾全局与部分特征的模子蒸馏算法
PP-LCNet: CPU友好型轻量级骨干收集
CSP-PAN:轻量级凹凸层特征合成模块
SLAHead:构造与位置信息对齐的特征解码模块
☆关键信息抽取
VI-LayoutXLM:视觉特征无关的多模态预训练模子构造
TB-YX:考虑阅读挨次的文本行排序逻辑
UDML:结合互进修常识蒸馏战略
最末,与PP-StructureV1比拟:
版面阐发模子参数量削减95%,推理速度提拔11倍,精度提拔0.4%;
详细的改良战略解读请参考本文最初一节
3.PP-StructureV2
智能文档阐发系统整体介绍
3.1 版面阐发与恢复
版面阐发指的是对图片形式的文档停止区域划分,定位此中的关键区域,如文字、题目、表格、图片等。在PP-StructureV1中,利用了PaddleDetection中开源的高效检测算法PP-YOLOv2完成版面阐发的使命。在PP-StructureV2中,我们发布基于PP-PicoDet的轻量级版面阐发模子,针对版面阐发场景定造图像标准,同时利用FGD常识蒸馏算法,进一步提拔模子精度,最末CPU上41ms即可完成版面阐发。
图3 版面阐发效果图(分类为文字、图片、表格、图注、标注等)
3.2 表格识别
本次晋级过程中,我们对模子构造和丧失函数等5个方面停止晋级,提出了 SLANet (Structure Location Alignment Network) ,模子构造如下图所示,详细解读请参考手艺陈述。
图4 SLANet模子构造图
图5 可视化成果
表1 SLANet模子与其他模子效果比照
战略
Acc
TEDS
推理速度(CPU+MKLDNN)
模子大小
TableMaster
77.9%
96.12%
2144ms
253M
TableRec-RARE
73.8%
95.3%
1550ms
8.7M
SLANet
76.31%
95.89%
766ms
9.2M
测试情况:飞桨版本为2.3.1,CPU为Intel(R) Xeon(R) Gold 6148 CPU @ 2.40GHz,开启mkldnn,线程数为10。
3.3关键信息抽取
图6 关键信息抽取流程图
在XFUND数据集上,与其他办法的效果比照如下所示。
表2 VI-LayoutXLM模子与其他模子效果比照
模子
SER Hmean
RE Hmean
LayoutLMv2-base
85.44%
67.77%
LayoutXLM-base
89.24%
70.73%
StrucTexT-large
92.29%
86.81%
VI-LayoutXLM-base (ours)
93.19%
83.92%
4.社区开发者开发
PDF转Word应用法式
飞桨社区开发者吴泓晋( GitHubID:whjdark)基于最新发布的PP-StructureV2智能文档阐发系统,开发了一款PDF转Word小东西,导入PDF文件可一键转换为可编纂Word,撑持文字、表格、题目、图片的完好恢复。
图8 PDF文件转Word文件操做流程演示
5.参加PaddleOCR
手艺交换群
本次更新除了PP-Structure的晋级以外,PaddleOCR团队对PP-OCRv3模子也停止了面向前端场景的适配晋级,并供给了开箱即用的网页版demo和小法式demo,整系统统存储从12.3M压缩至4.3M,在Mac-M1机器上利用chrome阅读器测试推理速度仅需350ms,流利度显著晋级,比拟旧版本模子压缩65%,预测速度提拔87.5%。欢送各人试用!
☆入群福利
《脱手学OCR》电子书,配套讲解视频和Notebook项目;
OCR场景应用聚集:包罗数码管、液晶屏、车牌、高精度SVTR模子等10个垂类模子,笼盖通用,造造、金融、交通行业的次要OCR垂类应用;
PaddleOCR历次发版曲播课视频;
OCR社区优良开发者项目分享视频。
☆入群体例
更多阅读
飞桨官网:
PaddleOCR项目地址:
GitHub:
Gitee:
PP-StructureV2手艺陈述:
附.PP-StructureV2
核心8种优化战略详细解读
☆版面阐发
PP-PicoDet:轻量级版面阐发模子
PP-PicoDet:轻量级版面阐发模子
PaddleDetection中提出了全新的轻量级系列模子PP-PicoDet,通过利用ESNet骨干收集、CSP-PAN特征合成模块、SimOTA标签分配办法等优化战略,最末在CPU与挪动端具有卓越的性能。本次版面阐发模子利用PP-PicoDet停止优化,同时针对版面阐发场景优化预测标准,最末比拟PP-StructureV1版面阐发模子,精度提拔0.6%,模子速度提拔9倍。
FGD:兼顾全局与部分特征的模子蒸馏算法
FGD(Focal and Global Knowledge Distillation for Detectors),是一种兼顾部分全局特征信息的模子蒸馏办法,分为Focal蒸馏和Global蒸馏2个部门。Focal蒸馏别离图像的前景和布景,让学生模子别离存眷教师模子的前景和布景部门特征的关键像素;Global蒸馏部门重建差别像素之间的关系并将其从教师转移到学生,以抵偿Focal蒸馏中丧失的全局信息。版面阐发尝试成果表白,FGD蒸馏算法可以进一步提拔模子精度。
PP-LCNet: CPU友好型轻量级骨干收集
PP-LCNet: CPU友好型轻量级骨干收集
CSP-PAN:轻量级凹凸层特征合成模块
SLAHead:构造与位置信息对齐的特征解码模块
PP-StructureV2中,我们设想SLAHead模块,对单位格token和坐标之间做了对齐操做,如下图b所示。在SLAHead中,每一个step的隐藏层形态表征会别离送入SDM和CLDM来得到当前step的token和坐标,每个step的token和坐标输出别离停止concat得到表格的html表达和全数单位格的坐标。此外,我们在构造与回归分指使用更多的全毗连层,增加二者特征的区分度。
☆关键信息抽取
VI-LayoutXLM:视觉特征无关的多模态预训练模子构造
VI-LayoutXLM:视觉特征无关的多模态预训练模子构造
LayoutLMv2以及LayoutXLM中引入视觉骨干收集,用于提取视觉特征,并与后续的text embedding停止结合,做为多模态的输入embedding。但是该模块为基于ResNet_x101_64x4d的特征提取收集,特征抽取阶段耗时严峻,因而我们将其去除,同时仍然保留文本、位置以及规划等信息,最末发现针对LayoutXLM停止改良,下流SER使命精度无损,针对LayoutLMv2停止改良,下流SER使命精度仅降低2.1%,而模子大小减小了约340M。详细消融尝试能够参考手艺陈述。
TB-YX:考虑阅读挨次的文本行排序逻辑
文本阅读挨次关于信息抽取与文本理解等使命至关重要,传统多模态模子中,没有考虑差别OCR东西可能产生的不准确阅读挨次,而模子输入中包罗位置编码,阅读挨次会间接影响预测成果,在预处置中,我们对文本行根据从上到下,从左到右(YX)的挨次停止排序,为避免文本行位置轻细骚乱带来的排序成果不不变问题,在排序的过程中,引入位置偏移阈值Th,关于Y标的目的间隔小于Th的2个文本内容,利用X标的目的的位置从左到右停止排序。
UDML:结合互进修常识蒸馏战略
图片来源:
[1] 图片源于收集