本文内容整理自「智能媒体消费」系列课程第二讲:视频AI与智能消费造造,由阿里云智能视频云高级手艺专家分享视频AI原理,AI辅助媒体消费,音视频智能化才能和底层原理,以及若何操纵阿里云现有资本利用音视频AI才能。课程回放见文末。
01 算法演进:视频AI原理
在媒体消费的全生命周期中,AI算法辅助提拔内容消费造造效率,为创做保驾护航。
智能消费全链路
智能消费全链路可分为五大部门。传统的媒体消费包罗摘集、编纂、存储、治理和分发五个流程,跟着人工智能手艺的鼓起,五大流程涉及到越来越多的机器参与,此中最次要的即是AI手艺的利用。以下举例阐明:
l 摘集
在摄像机拍摄时同步停止绿幕抠图,那在演播室或者影视造造场景中是比力常见的。
l 编纂
编纂过程运用到良多手艺,好比横转竖、提取封面、叠加字幕等,同时那些字幕还能够通过语音识此外体例提取出来再叠加在画面上。
l 存储
视频在摘集和编纂之后,需要存储下来停止构造化阐发,像智能标签就是运用在存储场景,从视频中提取出响应的标签,停止构造化的存储,并把视频库中的视频停止构造化联系关系。
l 治理
存储下来的视频若何治理?若何通过关键词检索到对应的视频?在治理环节,AI能够搀扶帮助停止多模态的检索,好比人物搜刮等。
l 分发
在存储和治理之后,视频分发也运用到AI手艺,好比音视频DNA、溯源水印等版权庇护利用。假设通过曲播流的体例对广阔用户停止曲播,那么分发环节还会涉及到曲播审核,以免呈现曲播毛病。
基于智能消费全链路,媒体AI全景图应运而生,共分为四个条理:
展开全文
最上面的条理表达媒体消费的利用场景,包罗智能媒资治理、内容智能消费以及视频版权庇护。
往下是产物才能,即AI组合达成的才能,好比视频分类、智能封面、智能抠图等。
再往下是AI原子才能,好比语音识别、天然语言处置那些底层的AI才能。
最下是支持AI才能的根底底座,如编解码和GPU加速等。以上组合起来,生成一张AI运用在智能消费中的全景图。
视频AI原理
视频AI的底层原理事实是什么?
人工智能发源于机器进修,而机器进修最早只是一种统计手段,像决策树、撑持向量机、随机丛林等各类数学办法。
跟着时代开展,科学家提出一种人工神经收集的计算办法,或者说算法,后来发现人工神经收集能够变得更大、条理变得更深,颠末进一步摸索开展,在二十多年前提出了深度进修的看点和概念。
所谓深度进修,就是在原先的人工神经收集上,把中间的条理(我们称之为隐含层)扩展成两个条理、三个条理,以至开展到如今的几十个条理,即可得到更多的输进层和输出层节点。
当神经收集变得更大、更深的时候,机器进修就演化成深度进修,也就是我们如今俗称的AI。
随之而来产生一个问题:若何将AI运用到视频和图像中?
假设有一个1080P的视频,视频大小为1920✖1080,此时一张图像上就存在百万个像素。假设把百万个像素点都放进神经收集中,会产生浩荡的计算量,远远超出常规计算机所能到达的上限。
因而,在把图像放进神经收集前需要停止处置,研究人员提出了卷积神经收集,而那也是如今所有图像和视频AI的根底。
在卷积神经收集的原则模子中,图像进进神经收集之前需要停止两步操做:
第一步是卷积层。所谓卷积就是拿一个卷积核(能够简单理解为一个矩阵)和原始图像的每一个卷积核大小的矩阵停止矩阵层的操做,最初得到一个特征图像。因为有多个卷积核,所以一张图片能够提取出多个特征图像。
特征图像间接放进神经收集仍是太大,因而,需要停止第二步池化层操做,池化层的感化就是下摘样,可摘取多种体例,好比把方格中的更大值、均匀值或者加权均匀值做为最末输出值,构成下摘样数据。
在上述例子中,一张图像的大小降低为原先的四分之一,输进到神经收集之后,极大降低了原始数据量,即可停止图像神经收集处置。由此可见,用通俗的话来讲,视频或图像的AI模子必需是由大数据喂出来的。
大数据天然地长在云上,云和AI天然的连系,能够使AI在云上得到较好的开展与运用。
领会视频AI原理之后,若何反过来评判AI的效果?
以典型的分类问题举例,假设有100个视频,需要找出此中呈现过人的视频,那么有两个目标能够评判AI模子的好坏:一个是精度,另一个是召回率。
所谓的精度是指,假设AI算法最末找出50个视频,但是查抄之后发现,此中只要40个是实正有人的,那么精度计算为40➗50=0.8。
召回率是指,假设那100个视频中实正有人的一共有80个,而AI找出了此中40个,那么召回率计算为0.5。
能够发现,精度和召回率是一对矛盾。假设想进步精度,只要找出来的视频少一点,就能够包管每个找出来的视频都是对的,即精度上升,但此时召回率必然会下降。
现阶段的AI其实不完美,也就是说,目前AI还只能辅助视频消费,消费视频的主体仍是人。
AI辅助消费
AI辅助消费能够由以下两个示例停止阐明。
示例一:通过图片搜刮相关图片或视频。Demo展现,输进一张周星驰的图片后,机器固然不熟悉那是谁,但是可以从图片中提取此人的表面特征,然后在视频库里做响应搜刮,找出一堆包罗周星驰的视频。
示例二:智能横转竖。传统片子和电视剧均为横屏播放,跟着挪动互联网鼓起,那些片子和电视剧需要在手机端停止投放,由此降生了智能横转竖如许的AI算法,将大量的横屏视频转换成竖屏视频,搀扶帮助横屏视频在手机端分发。
电视剧横转竖效果
新闻横转竖效果
02智能进阶:视频内容理解
智能标签
智能标签基于AI关于视频内容的理解,主动提取视频中的标签、关键词等信息,阐发详情会展现为四部门:
第一部门是视频标签,获取视频的类目,视频呈现过哪些人物,人物呈现的时间点以及在视频中的位置,人物的类似度等。
第二部门是文本标签,会提炼出一些关键词,包罗视频文本中呈现过的组织机构,好比央视等。
后面两部门为文字识别和语音识别,别离通过图片OCR手艺和语音云识别手艺实现。
详细示例可在AI体验馆中停止体验,同时,也供给API接进文档停止参考。
体验中心:
API接进文档:
AI是若何从视频中提取出信息的呢?从视频标签的流程图中能够看到,输进一个视频,别离停止两部门操做:
一部门是对视频做抽帧处置,抽帧得到的图像通过人像识别、场景识别、物体识别、地标识别、OCR等图像AI识别模子,提炼出视频标签。
另一部门是把视频中的音频提取出来,然后通过ASR得到文本成果,最初再颠末NLP(天然语言处置),提取出文本标签。
智能审核
视频审核的手艺原理与视频标签不异,独一差别的是,视频标签能够理解为一个正向的视频内容理解,而视频审核是负向的,审核需要识别出一些不合规的、有问题的内容,好比鉴黄、暴恐涉政、违规、二维码、不良场景等信息。
视频检索
视频检索的核心手艺点是操纵标签成果停止视频的阐发和查询。
视频检索架构图展现,媒资系统中的视频通过媒资特征进库模块,导进到智能标签阐发中,并得到一系列的标签,包罗视频标签、文本标签,原始的ASR、OCR成果等,将那些成果连同视频的元数据信息好比题目、描述等,操纵ElasticSearch开源办事停止文本信息的倒排索引和查询。
视频检索过程中会涉及到精排模块,那需要由营业层来实现。假设只是从ES中把契合检索前提的成果提取出来,纷歧定能称心营业层需求,例如说营业层面临政治新闻场景时,会要求把某些人物的搜刮成果更靠前排序,而那就是精排模块所需要做的工做。
检索系同一般城市根据营业层排序,接进营业接口模块,由此一个根本的检索系统搭建完成。但是,如今的检索系统只能根据文本检索视频。若何通过一张图片,检索到类似的图片或视频呢?
那涉及到视频DNA检索手艺。所谓的视频DNA,就是把视频里面的关键帧或者某一镜头提炼出关键信息,我们把它称之为DNA,并把那些信息放进向量数据库中停止检索,更多内容可通过体验中心和接进文档停止拓展领会。
体验中心:
API接进文档:
03才能晋级:音视频智能处置
基于视频内容理解,若何对视频停止智能处置?
绿幕抠图
绿幕抠图是在视频拍摄或者摘集时,把布景替代成电脑造造的画面。在演播室场景中,现实拍摄时根据需求,在主持人的背后放置绿幕布景或者蓝幕布景。
影视造造场景同样运用到绿幕抠图,好比科幻片中无法实景拍摄的部门,会在后期停止布景叠加或其他处置工做,通过在人物背后放置绿幕的体例,把人物主体提取出来。
绿幕抠图要求输进的是蓝幕或者绿幕视频,辨认率不超越4K,同时输进一张布景图片,即可输出替代布景后的视频。以下为示例阐明:一小我从绿幕前走过,替代布景后,酿成此人在布景前走路,整体效果十分天然。
视频链接:
视频链接:
若何评判绿幕抠图的量量?起首要处置好边沿溢色,好比在头发边沿,因为原始的图像布景是绿幕,头发缝边沿一定会染上一些绿色,手艺上需要把那些边沿溢色擦除掉。
此外,若何实在地闪现通明度,并叠加背后的内容,还有运动模糊,空中暗影等,均是绿幕抠图量量好坏的评判点。
横转竖
横转竖是在挪动互联网上分发视频的必备处置手段。
传统人工造造横转竖视频的难点在于:一,需要专业的剪辑软件和造造人员,成本高,速度慢;二,在目标挪动比力快的场景中,需要逐帧剪裁,工做量浩荡;三,剪裁目标区域后,前后帧难以对齐。因而,横转竖视频更合适由机器造造实现。
智能横转竖的算法流程是:起首对视频停止镜头朋分,所谓的镜头朋分就是在视频造造中,根据差别拍摄机位的改变,识别镜头的切换,并把差别镜头朋分开来。
视频链接:
其次是主体抉择,在主体抉择时,一般抉择画面中最夺目的人做为目标,在上述跳舞场景中,主体就是那个正在跳舞的人。
然后是镜头逃踪,每帧图像做好初期抉择之后,下一帧都要跟从目标,即框定的图像跟从那小我停止挪动。
最初是途径光滑,镜头逃踪完成之后,最末生成的竖屏视频必需是光滑的,不克不及呈现翘边等不良效果。更多内容可拜见官网:
体验中心:
API接进文档:
其他视频智能处置才能
目前,阿里云视频云供给的视频智能处置才能,可分为以下四类:
1. ROI提取,即感兴致区域提取,包罗绿幕抠图和横转竖;
2. 智能擦除,好比往图标、往字幕;
3. 关键信息提炼,好比智能封面,即从视频中提取出最能表示视频的一张图片;视频摘要,提取出视频中最能表示视频的简短视频;
4. 构造化阐发,好比字幕提取,把嵌进在图像中的字幕主动提取出来;PPT拆条,能够将一个课程视频主动拆成段落。
讲完视频智能处置才能,接下来介绍两项音频智能处置才能:副歌识别和节拍检测。
副歌识别
副歌是指歌曲中的飞腾片段。副歌识别有何利用场景?好比,良多音乐APP的试听功用,会间接播放歌曲中的飞腾片段,报酬停止提取相当费事,而副歌识别就能很好地完成使命。
副歌识此外算法流程为:输进歌曲之后,起首停止音乐段落检测,然后提取副歌段落,并停止精调使之更贴合,最初再生成副歌片段。
副歌识此外示例展现,通过挪用之后,算法会返回两个成果值,即副歌的起头时间点和完毕时间点。
各人能够对返回的成果和音频停止比照,从72秒副歌起头,到102秒副歌完毕,副歌识别成果仍是十分准确的。
节拍检测
节拍检测即识别音乐中的节拍点,其次要利用场景为视频造造和音乐选举,好比,通过识别出音乐节拍点,停止鬼畜视频的造造;通过识别音乐的节拍类型,是四三拍仍是四四拍,搀扶帮助停止音乐分类等。
陆续以上述音频示例,节拍检测算法输出两个成果:第一个是节拍时间点,如0.46秒、0.96秒均为节拍时间点;第二个是downbeat时间点,在乐理中阐明为重拍,此中0.46秒为第一拍,2.46秒为第五拍,也就是说每四拍为一个末节,每末节的第一拍为重拍,由此检测出该音乐的节拍。
其他音频智能处置才能
此外,视频云还供给其他音频智能处置才能,包罗混音,ASR语音识别和TTS语音合成。混音即把两个音乐片段停止叠加,此中涉及到音量增益和主动掌握算法。
那些才能停止组合,还能够实现更多弄法,好比歌曲串烧,起首通过副歌识别,把几首歌曲的副歌部门提取出来,然后停止节拍检测,把适宜的节拍点合在一路,最末组合成一首完全的歌曲串烧。
04 开箱即用:阿里云媒资办事
基于视频AI原理以及效果,阿里云操纵现有资本,供给更便利、更高效的音视频AI利用才能。
MPS办事
MPS是媒体处置的英文简称。阿里云供给针对多媒体的数据处置办事,将媒体处置过程笼统成两种形式:一种是输进音视频等多媒体文件,颠末智能化媒体处置,生成一个新的媒体文件,好比之前提到的智能横转竖。
另一种形式是输进一个媒体文件,输出颠末媒体处置阐发后的一系列构造化数据,好比智能标签或智能审核。
MPS撑持多项音视频智能处置才能,此外,MPS的媒体文件类型,既能够输进OSS文件,也撑持输进收集URL地址。
MPS接口挪用的流程为:
第一步,开通MPS产物,在开通的过程中,掌握台会引导停止增加权限等相关操做。
开通MPS产物:
第二步,挪用MPS的Open API接口,获得Access Key,包罗AK的ID和密钥。所有阿里云的Open API都要通过AK和SK拜候。
利用RAM办事获取AccessKey:
第三步,认实阅读MPS供给的API文档:
第四步,针对开发需要,选用差别编程语言,并安拆依靠模块:
第五步,编写代码。
阿里云MPS办事供给的智能化才能能够分为四个维度:
一是视频内容理解,包罗智能标签,智能审核,媒体DNA,媒体DNA是视频检索中的重要构成部门,还有智能封面、视频摘要等。
二是视频智能处置,像横转竖、往图标、往字幕、字幕提取等,从电视剧或片子中抽取出字幕,并输出TXT或者SRT格局,此外,也包罗绿幕抠图和PPT拆条等。
三是音频智能处置,包罗副歌检测、混音处置、节拍检测和音量检测等。
四是图片智能处置,包罗横转竖、往图标和人像风气化。人像风气化能够把一张人像图片风气化成差别的形式,好比把人像停止卡通化,或者停止3D处置。
IMS办事
IMS办事是阿里云近年来新上的办事,全称是智能媒体办事,和MPS办事的区别在于:
IMS办事围绕曲播和点播场景,是针对媒体处置的全流程办事,可认为是MPS办事的严重产物迭代和晋级。
第一,IMS不只针关于单个媒体处置过程,而是关于媒体办事全流程、全消费周期的治理和造造;
第二,IMS的集成度更高,不但能够停止单个原子才能的音视频处置,还能够停止媒资治理、工做流触发等,闪开发者更便利地利用音视频智能化才能;
第三,IMS更智能,后续所有智能化才能晋级后城市集中表现在IMS办事中。
IMS掌握台合成了媒资治理,媒资库中的音频视频文件,包罗图片、辅助的媒资,都能够通过IMS办事停止展现和治理。
操纵多模检索的智能化才能,IMS能够实现多媒体文件的智能化检索。传统的音视频文件检索,只能针对题目或者简介停止,而IMS撑持对上传的音视频文件做AI主动分类,并根据分类成果停止搜刮,同时,也撑持对视频中的文字停止主动识别检索。
好比,新闻联播的画面中呈现了“康辉”两个字样,固然视频文件的题目和简介里都没有呈现过“康辉”,但在搜刮“康辉”时,AI仍是能够搜刮识别出此视频文件,那就是多模检索的才能。
Retina多媒体AI体验中心
上述MPS和IMS办事的智能化才能,都需要通过Open API挪用或者掌握台开通利用,而Retina体验中心能够让各人更便利灵敏地停止体验,只需上传视频或图片,就能够曲看地得到颠末智能化处置后的成果。
例如,在Retina平台,你能够体验人像卡通化的效果,只需上传一张人像图片,颠末主动处置,就能获得童话风气的卡通人像图片,更多体验就在:/
跟着视频与AI手艺的开展和演进,AI在媒体消费范畴中发扬着越来越重要的感化,以更快的速度、更高的效率完成之前难以实现的工作。
将来,AI将从辅助媒体消费,逐步改变为间接消费有意义、有价值、有感情的视频,进一步加速媒体消费造造全主动处置历程。
更多完全内容详见课程回放 ⬇️
视频链接: