炸裂！PDF转Word彻底告别收费时代，这个OCR开源项目要逆天！

1个月前 (11-18 01:20)阅读3回复0

管理员
注册排名4
经验值79540
级别管理员
主题15908
回复0

楼主

1.导读

跟着企业数字化历程不竭加速，PDF转Word的功用、纸量文本的电子化存储、文件复原与二次编纂、信息检索等应用都有着强烈的企业需求。目前市道上已有一些软件，但普及需要繁琐的安拆注册操做，大多还存在额度限造。此外，最末转换效果也依赖于版面形态，无法做到针对性适配。

图1 PDF文件转Word文件效果图

PP-StructureV2智能文档阐发系统晋级点包罗以下2方面:

系统功用晋级：新增图像矫正和版面复原模块，撑持原则格局pdf和图片格局pdf解析！

系统性能优化：

版面阐发：发布轻量级版面阐发模子，速度提拔11倍，均匀 CPU耗时仅需41ms !

GitHub传送门：

2.PP-StructureV2

智能文档阐发系统优化战略概述

PP-StructureV2系统流程图如下所示，文档图像起首颠末图像矫正模块，判断整图标的目的并完成转正，随后能够完成版面信息阐发与关键信息抽取2类使命。

图2 PP-StructureV2系统流程图

展开全文

从算法改良构想来看，对系统中的3个关键子模块，共停止了8个方面的改良：

☆版面阐发

PP-PicoDet：轻量级版面阐发模子

FGD：兼顾全局与部分特征的模子蒸馏算法

PP-LCNet: CPU友好型轻量级骨干收集

CSP-PAN：轻量级凹凸层特征合成模块

SLAHead：构造与位置信息对齐的特征解码模块

☆关键信息抽取

VI-LayoutXLM：视觉特征无关的多模态预训练模子构造

TB-YX：考虑阅读挨次的文本行排序逻辑

UDML：结合互进修常识蒸馏战略

最末，与PP-StructureV1比拟：

版面阐发模子参数量削减95%，推理速度提拔11倍，精度提拔0.4%；

详细的改良战略解读请参考本文最初一节

3.PP-StructureV2

智能文档阐发系统整体介绍

3.1 版面阐发与恢复

版面阐发指的是对图片形式的文档停止区域划分，定位此中的关键区域，如文字、题目、表格、图片等。在PP-StructureV1中，利用了PaddleDetection中开源的高效检测算法PP-YOLOv2完成版面阐发的使命。在PP-StructureV2中，我们发布基于PP-PicoDet的轻量级版面阐发模子，针对版面阐发场景定造图像标准，同时利用FGD常识蒸馏算法，进一步提拔模子精度，最末CPU上41ms即可完成版面阐发。

图3 版面阐发效果图（分类为文字、图片、表格、图注、标注等）

3.2 表格识别

本次晋级过程中，我们对模子构造和丧失函数等5个方面停止晋级，提出了 SLANet (Structure Location Alignment Network) ，模子构造如下图所示，详细解读请参考手艺陈述。

图4 SLANet模子构造图

图5 可视化成果

表1 SLANet模子与其他模子效果比照

战略

Acc

TEDS

推理速度(CPU+MKLDNN)

模子大小

TableMaster

77.9%

96.12%

2144ms

253M

TableRec-RARE

73.8%

95.3%

1550ms

8.7M

SLANet

76.31%

95.89%

766ms

9.2M

测试情况：飞桨版本为2.3.1，CPU为Intel(R) Xeon(R) Gold 6148 CPU @ 2.40GHz，开启mkldnn，线程数为10。

3.3关键信息抽取

图6 关键信息抽取流程图

在XFUND数据集上，与其他办法的效果比照如下所示。

表2 VI-LayoutXLM模子与其他模子效果比照

模子

SER Hmean

RE Hmean

LayoutLMv2-base

85.44%

67.77%

LayoutXLM-base

89.24%

70.73%

StrucTexT-large

92.29%

86.81%

VI-LayoutXLM-base (ours)

93.19%

83.92%

4.社区开发者开发

PDF转Word应用法式

飞桨社区开发者吴泓晋（ GitHubID：whjdark）基于最新发布的PP-StructureV2智能文档阐发系统，开发了一款PDF转Word小东西，导入PDF文件可一键转换为可编纂Word，撑持文字、表格、题目、图片的完好恢复。

图8 PDF文件转Word文件操做流程演示

5.参加PaddleOCR

手艺交换群

本次更新除了PP-Structure的晋级以外，PaddleOCR团队对PP-OCRv3模子也停止了面向前端场景的适配晋级，并供给了开箱即用的网页版demo和小法式demo，整系统统存储从12.3M压缩至4.3M，在Mac-M1机器上利用chrome阅读器测试推理速度仅需350ms，流利度显著晋级，比拟旧版本模子压缩65%，预测速度提拔87.5%。欢送各人试用！

☆入群福利

《脱手学OCR》电子书，配套讲解视频和Notebook项目；

OCR场景应用聚集：包罗数码管、液晶屏、车牌、高精度SVTR模子等10个垂类模子，笼盖通用，造造、金融、交通行业的次要OCR垂类应用；

PaddleOCR历次发版曲播课视频；

OCR社区优良开发者项目分享视频。

☆入群体例

更多阅读

飞桨官网：

PaddleOCR项目地址：

GitHub:

Gitee:

PP-StructureV2手艺陈述：

附.PP-StructureV2

核心8种优化战略详细解读

☆版面阐发

PP-PicoDet：轻量级版面阐发模子

PaddleDetection中提出了全新的轻量级系列模子PP-PicoDet，通过利用ESNet骨干收集、CSP-PAN特征合成模块、SimOTA标签分配办法等优化战略，最末在CPU与挪动端具有卓越的性能。本次版面阐发模子利用PP-PicoDet停止优化，同时针对版面阐发场景优化预测标准，最末比拟PP-StructureV1版面阐发模子，精度提拔0.6%，模子速度提拔9倍。

FGD：兼顾全局与部分特征的模子蒸馏算法

FGD（Focal and Global Knowledge Distillation for Detectors），是一种兼顾部分全局特征信息的模子蒸馏办法，分为Focal蒸馏和Global蒸馏2个部门。Focal蒸馏别离图像的前景和布景，让学生模子别离存眷教师模子的前景和布景部门特征的关键像素；Global蒸馏部门重建差别像素之间的关系并将其从教师转移到学生，以抵偿Focal蒸馏中丧失的全局信息。版面阐发尝试成果表白，FGD蒸馏算法可以进一步提拔模子精度。

PP-LCNet: CPU友好型轻量级骨干收集

CSP-PAN：轻量级凹凸层特征合成模块

SLAHead：构造与位置信息对齐的特征解码模块

PP-StructureV2中，我们设想SLAHead模块，对单位格token和坐标之间做了对齐操做，如下图b所示。在SLAHead中，每一个step的隐藏层形态表征会别离送入SDM和CLDM来得到当前step的token和坐标，每个step的token和坐标输出别离停止concat得到表格的html表达和全数单位格的坐标。此外，我们在构造与回归分指使用更多的全毗连层，增加二者特征的区分度。

☆关键信息抽取

VI-LayoutXLM：视觉特征无关的多模态预训练模子构造

LayoutLMv2以及LayoutXLM中引入视觉骨干收集，用于提取视觉特征，并与后续的text embedding停止结合，做为多模态的输入embedding。但是该模块为基于ResNet_x101_64x4d的特征提取收集，特征抽取阶段耗时严峻，因而我们将其去除，同时仍然保留文本、位置以及规划等信息，最末发现针对LayoutXLM停止改良，下流SER使命精度无损，针对LayoutLMv2停止改良，下流SER使命精度仅降低2.1%，而模子大小减小了约340M。详细消融尝试能够参考手艺陈述。

TB-YX：考虑阅读挨次的文本行排序逻辑

文本阅读挨次关于信息抽取与文本理解等使命至关重要，传统多模态模子中，没有考虑差别OCR东西可能产生的不准确阅读挨次，而模子输入中包罗位置编码，阅读挨次会间接影响预测成果，在预处置中，我们对文本行根据从上到下，从左到右（YX）的挨次停止排序，为避免文本行位置轻细骚乱带来的排序成果不不变问题，在排序的过程中，引入位置偏移阈值Th，关于Y标的目的间隔小于Th的2个文本内容，利用X标的目的的位置从左到右停止排序。

UDML：结合互进修常识蒸馏战略

图片来源：

[1] 图片源于收集

呱呱视频社区3.1

回帖 《长江日报》报道江岸多形式多载体学习宣传贯彻党的二十大精神 宁夏各地认真学习党的二十大文件及学习辅导读物深入基层深入人心深刻领略学深悟透

炸裂！PDF转Word彻底告别收费时代，这个OCR开源项目要逆天！期待您的回复！

取消

炸裂！PDF转Word彻底告别收费时代，这个OCR开源项目要逆天！

炸裂！PDF转Word彻底告别收费时代，这个OCR开源项目要逆天！ 期待您的回复！

插入网络图片

炸裂！PDF转Word彻底告别收费时代，这个OCR开源项目要逆天！期待您的回复！