探析微信“图片大爆炸”背后的图片文字提取手艺和相关专利

2周前 (02-13 01:35)阅读1回复0
小小的人啊
小小的人啊
  • 管理员
  • 注册排名4
  • 经验值131650
  • 级别管理员
  • 主题26330
  • 回复0
楼主

#本文仅代表做者看点,不代表IPRdaily立场,未经做者答应,制止转载#

“一文带你领会微信是若何做到准确提取图片文字的。”

来源:IPRdaily中文网(iprdaily.cn)

做者:李文军

比来,微信在安卓8.0.24正式版更新了新功用,名为“图片大爆炸”。该功用通过长按图片,能够提取到图片上的文字停止后续的复造粘贴以及搜刮等操做,有效地处理了以往用户在利用过程中经常碰着的德律风号码、快递单号、网址等信息以图片的形式得到而又无法间接利用、需要手动输进的困顿情形。

图1 微信对话场景

1、利用微信“图片大爆炸”功用停止图片文字提取

微信图片文字提取功用的操做及界面如图2-图4所示:

展开全文

点开需要提取文字的图片,长按屏幕上对应该图片的位置,即可呈现文字提取操做抉择界面;

图2 长按图片导出“提取文字”操做界面

在弹出对话框中抉择“提取文字”操做图标,即可在屏幕图片上的文字停止识别或进一步地停止文字涂抹抉择;

图3 停止图片文字提取

抉择并用手指涂抹想要利用的字段即可供用户轻松的停止“唤喊”、“添加到通信录”、“复造”、“搜一搜”、“转发”以及“收躲”等操做。

图4 提取出文字撑持进一步操做

通过简单的几个步调就能够轻松地实现图片上文字的提取,不论是字母、数字,仍是文字,都能够轻松识别和提取,停止复造粘贴以及搜刮等操做。用户利用微信时再也不会碰着图片上的德律风号码、快递单号、网址等需要手动输进的困顿情形。

那一问题的处理大大进步了用户对微信的利用体验,随之而来的是,越来越多的用户对那项手艺产生兴致。

那么微信是若何做到准确提取图片文字的呢?带着那个问题,笔者对腾讯的图片文字提取手艺相关专利停止了检索和阐发。

2、腾讯图片文字提取手艺专利阐发

通过对腾讯的图片文字提取手艺相关专利检索发现,腾讯早在微信“图片大爆炸”功用推出之前就已经规划了大量的专利,从2015年至今共规划了36件创造专利。从专利年申请量方面来看,近两年明显较早期多,从受权情况(受权专利根据申请年统计,若某件专利2016年申请,2017年受权,该受权量统计计进2016年)方面来看,腾讯的图片文字提取手艺相关专利大部门处于审查形态中,2016年受权率到达66.67%。较多相关手艺的积存和专利规划奠基了现在微信“图片大爆炸”功用的问世。

图5 腾讯在图片文字提取手艺范畴的专利申请趋向及受权情况(申请量:件)

从专利规划的角度研判企业的市场重心,腾讯的36件图片文字提取相关专利次要规划在中国和中国香港,同时通过PCT路子申请专利。

图6 腾讯在图片文字提取手艺范畴的专利规划地区散布(单元:件)

从专利手艺散布的角度研究企业的优势手艺,腾讯的36件专利涉及24项专利手艺,次要处理识此外准确性、成本、文本内容的私密性以及文本识别过程中文本的翻译效率四个手艺问题。

图7 腾讯在图片文字提取手艺范畴的专利手艺成效散布

1) 腾讯聚焦于若何进步图片文字识别准确率的手艺问题,申请了20项专利,次要的手艺手段为通过文字检测手艺手段对图片中的文字停止检测和阐发,以及对文本图像停止图像优化和图像朋分的处置。此中,专利CN108830186B摘用图像优化的手艺手段,通过从文本图像中拔取已知布景区域,关于文本图像中已知布景区域以外的剩余区域,摘用插值算法别离计算那些剩余区域的布景像素值;根据该区域的布景像素值确定文本图像的布景像素值;根据文本图像的原始像素值和布景像素值,对文本图像停止布景减除,得到文本图像的内容图像。那种手艺能够征服暗影、边角杂量、纸张颜色等对提取文本内容的影响,使得最末得到的内容图像中的文本内容愈加准确、清晰。

图8 专利CN108830186B文字图像布景减除过程示企图

再如专利CN111914825A摘用文字检测的手艺手段,通过获取包罗待识别文字(包罗至少一个字符组〔字符组包罗至少一个字符〕)的待识别图像,从待识别图像中提取图像特征,并根据图像特征确定待识别文字所对应候选文字的第一编码序列以及第一概率;根据候选文字的第二编码序列,获取候选文字对应的第二概率;根据第一概率和第二概率,从各候选文字的第一编码序列中确定待识别文字对应的目标编码序列,并将目标编码序列所表达的候选文字确定为待识别文字的识别成果。如斯,能够有效降低字符组识别出错的几率,进而降低待识别文字识别出错的几率。

图9 专利CN111914825A中待识别文字构成示企图

2) 降低成本方面的专利有1项,通过图像优化的手艺手段实现降低成本。

专利CN108304839B,生成目标图像对应的单色重量图像,并根据每个单色重量图像中的角点和端点,在目标图像中划分待识别区域,并基于分类器,计算每个待识别区域别离对应的文字识别概率,并根据文字识别概率在待识别区域中识别文字区域。因为识别角点和端点的过程和计算文字识别概率的过程均能够在大大都用户末端中实现,所以无需摆设云端办事器即可在用户末端侧完成对文字区域的准确识别,从而降低了实现成本,也可制止与云端办事器停止数据传输,降低收集流量的消耗。

图10 专利CN108304839B文字图像单色叠加过程示企图

3) 进步文本内容私密性方面的专利有2项,别离通过文字检测和图像朋分的手艺手段对图像文字停止分类,并加以处置以提防灵敏信息的泄露,进步私密性。

例如专利CN111062389A,在通过负样本区域操练得到用于文字识此外第一模子之后,能够在文本区域中包罗灵敏信息时间接输出设定、输出信息,进而从模子层面制止了识别出文字之后再鉴别而形成的灵敏信息泄露的风险,进步了信息的私密性。

图11 专利CN111062389A文字识别灵敏信息鉴别过程示企图

4) 进步翻译效率方面的专利有1项,专利CN112183122A摘用文字检测的手艺手段对图片停止文字识别,通过对目标图片停止文字识别,得到的文字信息包罗至少两个语种的文字(包罗语种不为目标语种的文字的情状),对该文字信息中的语种不为目标语种的文字停止机器翻译,得到并展现目标语种的文字信息,到达了不消手工输进即可对外文文字停止翻译的目标,从而实现了进步外文文字翻译效率的手艺效果,进而处理了因为现有手艺中翻译软件需要人工输进,形成的外文文字翻译效率低的手艺问题。

图12 专利CN112183122A文字识别翻译示企图

结语

腾讯在图片文字提取手艺范畴申请了较多的专利,聚焦于若何进步图片文字识别准确率的手艺问题,停止了较为全面的手艺研发和专利规划,具有比力明显的手艺优势。能在实现图片文字提取功用的根底上连结高的图片文字识别准确率,使得微信的图片文字识别功用更贴合用户的利用需乞降体验。

(原题目:探析微信“图片大爆炸”背后的图片文字提取手艺和相关专利)

来源:IPRdaily中文网(iprdaily.cn)

做者:李文军

编纂:IPRdaily赵甄 校对:IPRdaily纵横君

0
回帖

探析微信“图片大爆炸”背后的图片文字提取手艺和相关专利 期待您的回复!

取消
载入表情清单……
载入颜色清单……
插入网络图片

取消确定

图片上传中
编辑器信息
提示信息