炸裂!PDF转Word彻底告别收费时代,这个OCR开源项目要逆天!

1个月前 (11-18 01:20)阅读3回复0
小小的人啊
小小的人啊
  • 管理员
  • 注册排名4
  • 经验值79540
  • 级别管理员
  • 主题15908
  • 回复0
楼主

1.导读

跟着企业数字化历程不竭加速,PDF转Word的功用、纸量文本的电子化存储、文件复原与二次编纂、信息检索等应用都有着强烈的企业需求。目前市道上已有一些软件,但普及需要繁琐的安拆注册操做,大多还存在额度限造。此外,最末转换效果也依赖于版面形态,无法做到针对性适配。

图1 PDF文件转Word文件效果图

PP-StructureV2智能文档阐发系统晋级点包罗以下2方面:

系统功用晋级 :新增图像矫正和版面复原模块,撑持原则格局pdf和图片格局pdf解析!

系统性能优化 :

版面阐发:发布轻量级版面阐发模子, 速度提拔11倍 ,均匀 CPU耗时仅需41ms !

GitHub传送门:

2.PP-StructureV2

智能文档阐发系统优化战略概述

PP-StructureV2系统流程图如下所示,文档图像起首颠末图像矫正模块,判断整图标的目的并完成转正,随后能够完成版面信息阐发与关键信息抽取2类使命。

图2 PP-StructureV2系统流程图

展开全文

从算法改良构想来看,对系统中的3个关键子模块,共停止了8个方面的改良:

☆版面阐发

PP-PicoDet:轻量级版面阐发模子

FGD:兼顾全局与部分特征的模子蒸馏算法

PP-LCNet: CPU友好型轻量级骨干收集

CSP-PAN:轻量级凹凸层特征合成模块

SLAHead:构造与位置信息对齐的特征解码模块

☆关键信息抽取

VI-LayoutXLM:视觉特征无关的多模态预训练模子构造

TB-YX:考虑阅读挨次的文本行排序逻辑

UDML:结合互进修常识蒸馏战略

最末,与PP-StructureV1比拟:

版面阐发模子参数量削减95%,推理速度提拔11倍,精度提拔0.4%;

详细的改良战略解读请参考本文最初一节

3.PP-StructureV2

智能文档阐发系统整体介绍

3.1 版面阐发与恢复

版面阐发指的是对图片形式的文档停止区域划分,定位此中的关键区域,如文字、题目、表格、图片等。在PP-StructureV1中,利用了PaddleDetection中开源的高效检测算法PP-YOLOv2完成版面阐发的使命。在PP-StructureV2中,我们发布基于PP-PicoDet的轻量级版面阐发模子,针对版面阐发场景定造图像标准,同时利用FGD常识蒸馏算法,进一步提拔模子精度,最末CPU上41ms即可完成版面阐发。

图3 版面阐发效果图(分类为文字、图片、表格、图注、标注等)

3.2 表格识别

本次晋级过程中,我们对模子构造和丧失函数等5个方面停止晋级,提出了 SLANet (Structure Location Alignment Network) ,模子构造如下图所示,详细解读请参考手艺陈述。

图4 SLANet模子构造图

图5 可视化成果

表1 SLANet模子与其他模子效果比照

战略

Acc

TEDS

推理速度(CPU+MKLDNN)

模子大小

TableMaster

77.9%

96.12%

2144ms

253M

TableRec-RARE

73.8%

95.3%

1550ms

8.7M

SLANet

76.31%

95.89%

766ms

9.2M

测试情况:飞桨版本为2.3.1,CPU为Intel(R) Xeon(R) Gold 6148 CPU @ 2.40GHz,开启mkldnn,线程数为10。

3.3关键信息抽取

图6 关键信息抽取流程图

在XFUND数据集上,与其他办法的效果比照如下所示。

表2 VI-LayoutXLM模子与其他模子效果比照

模子

SER Hmean

RE Hmean

LayoutLMv2-base

85.44%

67.77%

LayoutXLM-base

89.24%

70.73%

StrucTexT-large

92.29%

86.81%

VI-LayoutXLM-base (ours)

93.19%

83.92%

4.社区开发者开发

PDF转Word应用法式

飞桨社区开发者吴泓晋( GitHubID:whjdark)基于最新发布的PP-StructureV2智能文档阐发系统,开发了一款PDF转Word小东西,导入PDF文件可一键转换为可编纂Word,撑持文字、表格、题目、图片的完好恢复。

图8 PDF文件转Word文件操做流程演示

5.参加PaddleOCR

手艺交换群

本次更新除了PP-Structure的晋级以外,PaddleOCR团队对PP-OCRv3模子也停止了面向前端场景的适配晋级,并供给了开箱即用的网页版demo和小法式demo,整系统统存储从12.3M压缩至4.3M,在Mac-M1机器上利用chrome阅读器测试推理速度仅需350ms,流利度显著晋级,比拟旧版本模子压缩65%,预测速度提拔87.5%。欢送各人试用!

☆入群福利

《脱手学OCR》电子书,配套讲解视频和Notebook项目;

OCR场景应用聚集:包罗数码管、液晶屏、车牌、高精度SVTR模子等10个垂类模子,笼盖通用,造造、金融、交通行业的次要OCR垂类应用;

PaddleOCR历次发版曲播课视频;

OCR社区优良开发者项目分享视频。

☆入群体例

更多阅读

飞桨官网:

PaddleOCR项目地址:

GitHub:

Gitee:

PP-StructureV2手艺陈述:

附.PP-StructureV2

核心8种优化战略详细解读

☆版面阐发

PP-PicoDet:轻量级版面阐发模子

PP-PicoDet:轻量级版面阐发模子

PaddleDetection中提出了全新的轻量级系列模子PP-PicoDet,通过利用ESNet骨干收集、CSP-PAN特征合成模块、SimOTA标签分配办法等优化战略,最末在CPU与挪动端具有卓越的性能。本次版面阐发模子利用PP-PicoDet停止优化,同时针对版面阐发场景优化预测标准,最末比拟PP-StructureV1版面阐发模子,精度提拔0.6%,模子速度提拔9倍。

FGD:兼顾全局与部分特征的模子蒸馏算法

FGD(Focal and Global Knowledge Distillation for Detectors),是一种兼顾部分全局特征信息的模子蒸馏办法,分为Focal蒸馏和Global蒸馏2个部门。Focal蒸馏别离图像的前景和布景,让学生模子别离存眷教师模子的前景和布景部门特征的关键像素;Global蒸馏部门重建差别像素之间的关系并将其从教师转移到学生,以抵偿Focal蒸馏中丧失的全局信息。版面阐发尝试成果表白,FGD蒸馏算法可以进一步提拔模子精度。

PP-LCNet: CPU友好型轻量级骨干收集

PP-LCNet: CPU友好型轻量级骨干收集

CSP-PAN:轻量级凹凸层特征合成模块

SLAHead:构造与位置信息对齐的特征解码模块

PP-StructureV2中,我们设想SLAHead模块,对单位格token和坐标之间做了对齐操做,如下图b所示。在SLAHead中,每一个step的隐藏层形态表征会别离送入SDM和CLDM来得到当前step的token和坐标,每个step的token和坐标输出别离停止concat得到表格的html表达和全数单位格的坐标。此外,我们在构造与回归分指使用更多的全毗连层,增加二者特征的区分度。

☆关键信息抽取

VI-LayoutXLM:视觉特征无关的多模态预训练模子构造

VI-LayoutXLM:视觉特征无关的多模态预训练模子构造

LayoutLMv2以及LayoutXLM中引入视觉骨干收集,用于提取视觉特征,并与后续的text embedding停止结合,做为多模态的输入embedding。但是该模块为基于ResNet_x101_64x4d的特征提取收集,特征抽取阶段耗时严峻,因而我们将其去除,同时仍然保留文本、位置以及规划等信息,最末发现针对LayoutXLM停止改良,下流SER使命精度无损,针对LayoutLMv2停止改良,下流SER使命精度仅降低2.1%,而模子大小减小了约340M。详细消融尝试能够参考手艺陈述。

TB-YX:考虑阅读挨次的文本行排序逻辑

文本阅读挨次关于信息抽取与文本理解等使命至关重要,传统多模态模子中,没有考虑差别OCR东西可能产生的不准确阅读挨次,而模子输入中包罗位置编码,阅读挨次会间接影响预测成果,在预处置中,我们对文本行根据从上到下,从左到右(YX)的挨次停止排序,为避免文本行位置轻细骚乱带来的排序成果不不变问题,在排序的过程中,引入位置偏移阈值Th,关于Y标的目的间隔小于Th的2个文本内容,利用X标的目的的位置从左到右停止排序。

UDML:结合互进修常识蒸馏战略

图片来源:

[1] 图片源于收集

0
回帖

炸裂!PDF转Word彻底告别收费时代,这个OCR开源项目要逆天! 期待您的回复!

取消
载入表情清单……
载入颜色清单……
插入网络图片

取消确定

图片上传中
编辑器信息
提示信息