课程回忆｜以智能之力，加速媒体消费全主动历程

3年前 (2023-02-13)阅读28回复0

小强

管理员
注册排名8
经验值276535
级别管理员
主题55307
回复0

楼主

本文内容整理自「智能媒体消费」系列课程第二讲：视频AI与智能消费造造，由阿里云智能视频云高级手艺专家分享视频AI原理，AI辅助媒体消费，音视频智能化才能和底层原理，以及若何操纵阿里云现有资本利用音视频AI才能。课程回放见文末。

01 算法演进：视频AI原理

在媒体消费的全生命周期中，AI算法辅助提拔内容消费造造效率，为创做保驾护航。

智能消费全链路

智能消费全链路可分为五大部门。传统的媒体消费包罗摘集、编纂、存储、治理和分发五个流程，跟着人工智能手艺的鼓起，五大流程涉及到越来越多的机器参与，此中最次要的即是AI手艺的利用。以下举例阐明：

l 摘集

在摄像机拍摄时同步停止绿幕抠图，那在演播室或者影视造造场景中是比力常见的。

l 编纂

编纂过程运用到良多手艺，好比横转竖、提取封面、叠加字幕等，同时那些字幕还能够通过语音识此外体例提取出来再叠加在画面上。

l 存储

视频在摘集和编纂之后，需要存储下来停止构造化阐发，像智能标签就是运用在存储场景，从视频中提取出响应的标签，停止构造化的存储，并把视频库中的视频停止构造化联系关系。

l 治理

存储下来的视频若何治理？若何通过关键词检索到对应的视频？在治理环节，AI能够搀扶帮助停止多模态的检索，好比人物搜刮等。

l 分发

在存储和治理之后，视频分发也运用到AI手艺，好比音视频DNA、溯源水印等版权庇护利用。假设通过曲播流的体例对广阔用户停止曲播，那么分发环节还会涉及到曲播审核，以免呈现曲播毛病。

基于智能消费全链路，媒体AI全景图应运而生，共分为四个条理：

展开全文

最上面的条理表达媒体消费的利用场景，包罗智能媒资治理、内容智能消费以及视频版权庇护。

往下是产物才能，即AI组合达成的才能，好比视频分类、智能封面、智能抠图等。

再往下是AI原子才能，好比语音识别、天然语言处置那些底层的AI才能。

最下是支持AI才能的根底底座，如编解码和GPU加速等。以上组合起来，生成一张AI运用在智能消费中的全景图。

视频AI原理

视频AI的底层原理事实是什么？

人工智能发源于机器进修，而机器进修最早只是一种统计手段，像决策树、撑持向量机、随机丛林等各类数学办法。

跟着时代开展，科学家提出一种人工神经收集的计算办法，或者说算法，后来发现人工神经收集能够变得更大、条理变得更深，颠末进一步摸索开展，在二十多年前提出了深度进修的看点和概念。

所谓深度进修，就是在原先的人工神经收集上，把中间的条理（我们称之为隐含层）扩展成两个条理、三个条理，以至开展到如今的几十个条理，即可得到更多的输进层和输出层节点。

当神经收集变得更大、更深的时候，机器进修就演化成深度进修，也就是我们如今俗称的AI。

随之而来产生一个问题：若何将AI运用到视频和图像中？

假设有一个1080P的视频，视频大小为1920✖1080，此时一张图像上就存在百万个像素。假设把百万个像素点都放进神经收集中，会产生浩荡的计算量，远远超出常规计算机所能到达的上限。

因而，在把图像放进神经收集前需要停止处置，研究人员提出了卷积神经收集，而那也是如今所有图像和视频AI的根底。

在卷积神经收集的原则模子中，图像进进神经收集之前需要停止两步操做：

第一步是卷积层。所谓卷积就是拿一个卷积核（能够简单理解为一个矩阵）和原始图像的每一个卷积核大小的矩阵停止矩阵层的操做，最初得到一个特征图像。因为有多个卷积核，所以一张图片能够提取出多个特征图像。

特征图像间接放进神经收集仍是太大，因而，需要停止第二步池化层操做，池化层的感化就是下摘样，可摘取多种体例，好比把方格中的更大值、均匀值或者加权均匀值做为最末输出值，构成下摘样数据。

在上述例子中，一张图像的大小降低为原先的四分之一，输进到神经收集之后，极大降低了原始数据量，即可停止图像神经收集处置。由此可见，用通俗的话来讲，视频或图像的AI模子必需是由大数据喂出来的。

大数据天然地长在云上，云和AI天然的连系，能够使AI在云上得到较好的开展与运用。

领会视频AI原理之后，若何反过来评判AI的效果？

以典型的分类问题举例，假设有100个视频，需要找出此中呈现过人的视频，那么有两个目标能够评判AI模子的好坏：一个是精度，另一个是召回率。

所谓的精度是指，假设AI算法最末找出50个视频，但是查抄之后发现，此中只要40个是实正有人的，那么精度计算为40➗50=0.8。

召回率是指，假设那100个视频中实正有人的一共有80个，而AI找出了此中40个，那么召回率计算为0.5。

能够发现，精度和召回率是一对矛盾。假设想进步精度，只要找出来的视频少一点，就能够包管每个找出来的视频都是对的，即精度上升，但此时召回率必然会下降。

现阶段的AI其实不完美，也就是说，目前AI还只能辅助视频消费，消费视频的主体仍是人。

AI辅助消费

AI辅助消费能够由以下两个示例停止阐明。

示例一：通过图片搜刮相关图片或视频。Demo展现，输进一张周星驰的图片后，机器固然不熟悉那是谁，但是可以从图片中提取此人的表面特征，然后在视频库里做响应搜刮，找出一堆包罗周星驰的视频。

示例二：智能横转竖。传统片子和电视剧均为横屏播放，跟着挪动互联网鼓起，那些片子和电视剧需要在手机端停止投放，由此降生了智能横转竖如许的AI算法，将大量的横屏视频转换成竖屏视频，搀扶帮助横屏视频在手机端分发。

电视剧横转竖效果

新闻横转竖效果

02智能进阶：视频内容理解

智能标签

智能标签基于AI关于视频内容的理解，主动提取视频中的标签、关键词等信息，阐发详情会展现为四部门：

第一部门是视频标签，获取视频的类目，视频呈现过哪些人物，人物呈现的时间点以及在视频中的位置，人物的类似度等。

第二部门是文本标签，会提炼出一些关键词，包罗视频文本中呈现过的组织机构，好比央视等。

后面两部门为文字识别和语音识别，别离通过图片OCR手艺和语音云识别手艺实现。

详细示例可在AI体验馆中停止体验，同时，也供给API接进文档停止参考。

体验中心：

API接进文档：

AI是若何从视频中提取出信息的呢？从视频标签的流程图中能够看到，输进一个视频，别离停止两部门操做：

一部门是对视频做抽帧处置，抽帧得到的图像通过人像识别、场景识别、物体识别、地标识别、OCR等图像AI识别模子，提炼出视频标签。

另一部门是把视频中的音频提取出来，然后通过ASR得到文本成果，最初再颠末NLP（天然语言处置），提取出文本标签。

智能审核

视频审核的手艺原理与视频标签不异，独一差别的是，视频标签能够理解为一个正向的视频内容理解，而视频审核是负向的，审核需要识别出一些不合规的、有问题的内容，好比鉴黄、暴恐涉政、违规、二维码、不良场景等信息。

视频检索

视频检索的核心手艺点是操纵标签成果停止视频的阐发和查询。

视频检索架构图展现，媒资系统中的视频通过媒资特征进库模块，导进到智能标签阐发中，并得到一系列的标签，包罗视频标签、文本标签，原始的ASR、OCR成果等，将那些成果连同视频的元数据信息好比题目、描述等，操纵ElasticSearch开源办事停止文本信息的倒排索引和查询。

视频检索过程中会涉及到精排模块，那需要由营业层来实现。假设只是从ES中把契合检索前提的成果提取出来，纷歧定能称心营业层需求，例如说营业层面临政治新闻场景时，会要求把某些人物的搜刮成果更靠前排序，而那就是精排模块所需要做的工做。

检索系同一般城S根据营业层排序，接进营业接口模块，由此一个根本的检索系统搭建完成。但是，如今的检索系统只能根据文本检索视频。若何通过一张图片，检索到类似的图片或视频呢？

那涉及到视频DNA检索手艺。所谓的视频DNA，就是把视频里面的关键帧或者某一镜头提炼出关键信息，我们把它称之为DNA，并把那些信息放进向量数据库中停止检索，更多内容可通过体验中心和接进文档停止拓展领会。

体验中心：

API接进文档：

03才能晋级：音视频智能处置

基于视频内容理解，若何对视频停止智能处置？

绿幕抠图

绿幕抠图是在视频拍摄或者摘集时，把布景替代成电脑造造的画面。在演播室场景中，现实拍摄时根据需求，在主持人的背后放置绿幕布景或者蓝幕布景。

影视造造场景同样运用到绿幕抠图，好比科幻片中无法实景拍摄的部门，会在后期停止布景叠加或其他处置工做，通过在人物背后放置绿幕的体例，把人物主体提取出来。

绿幕抠图要求输进的是蓝幕或者绿幕视频，辨认率不超越4K，同时输进一张布景图片，即可输出替代布景后的视频。以下为示例阐明：一小我从绿幕前走过，替代布景后，酿成此人在布景前走路，整体效果十分天然。

视频链接：

若何评判绿幕抠图的量量？起首要处置好边沿溢色，好比在头发边沿，因为原始的图像布景是绿幕，头发缝边沿一定会染上一些绿色，手艺上需要把那些边沿溢色擦除掉。

此外，若何实在地闪现通明度，并叠加背后的内容，还有运动模糊，空中暗影等，均是绿幕抠图量量好坏的评判点。

横转竖

横转竖是在挪动互联网上分发视频的必备处置手段。

传统人工造造横转竖视频的难点在于：一，需要专业的剪辑软件和造造人员，成本高，速度慢；二，在目标挪动比力快的场景中，需要逐帧剪裁，工做量浩荡；三，剪裁目标区域后，前后帧难以对齐。因而，横转竖视频更合适由机器造造实现。

智能横转竖的算法流程是：起首对视频停止镜头朋分，所谓的镜头朋分就是在视频造造中，根据差别拍摄机位的改变，识别镜头的切换，并把差别镜头朋分开来。

视频链接：

其次是主体抉择，在主体抉择时，一般抉择画面中最夺目的人做为目标，在上述跳舞场景中，主体就是那个正在跳舞的人。

然后是镜头逃踪，每帧图像做好初期抉择之后，下一帧都要跟从目标，即框定的图像跟从那小我停止挪动。

最初是途径光滑，镜头逃踪完成之后，最末生成的竖屏视频必需是光滑的，不克不及呈现翘边等不良效果。更多内容可拜见官网：

体验中心：

API接进文档：

其他视频智能处置才能

目前，阿里云视频云供给的视频智能处置才能，可分为以下四类：

1. ROI提取，即感兴致区域提取，包罗绿幕抠图和横转竖；

2. 智能擦除，好比往图标、往字幕；

3. 关键信息提炼，好比智能封面，即从视频中提取出最能表示视频的一张图片；视频摘要，提取出视频中最能表示视频的简短视频；

4. 构造化阐发，好比字幕提取，把嵌进在图像中的字幕主动提取出来；PPT拆条，能够将一个课程视频主动拆成段落。

讲完视频智能处置才能，接下来介绍两项音频智能处置才能：副歌识别和节拍检测。

副歌识别

副歌是指歌曲中的飞腾片段。副歌识别有何利用场景？好比，良多音乐APP的试听功用，会间接播放歌曲中的飞腾片段，报酬停止提取相当费事，而副歌识别就能很好地完成使命。

副歌识此外算法流程为：输进歌曲之后，起首停止音乐段落检测，然后提取副歌段落，并停止精调使之更贴合，最初再生成副歌片段。

副歌识此外示例展现，通过挪用之后，算**返回两个成果值，即副歌的起头时间点和完毕时间点。

各人能够对返回的成果和音频停止比照，从72秒副歌起头，到102秒副歌完毕，副歌识别成果仍是十分准确的。

节拍检测

节拍检测即识别音乐中的节拍点，其次要利用场景为视频造造和音乐选举，好比，通过识别出音乐节拍点，停止鬼畜视频的造造；通过识别音乐的节拍类型，是四三拍仍是四四拍，搀扶帮助停止音乐分类等。

陆续以上述音频示例，节拍检测算法输出两个成果：第一个是节拍时间点，如0.46秒、0.96秒均为节拍时间点；第二个是downbeat时间点，在乐理中阐明为重拍，此中0.46秒为第一拍，2.46秒为第五拍，也就是说每四拍为一个末节，每末节的第一拍为重拍，由此检测出该音乐的节拍。

其他音频智能处置才能

此外，视频云还供给其他音频智能处置才能，包罗混音，ASR语音识别和TTS语音合成。混音即把两个音乐片段停止叠加，此中涉及到音量增益和主动掌握算法。

那些才能停止组合，还能够实现更多弄法，好比歌曲串烧，起首通过副歌识别，把几首歌曲的副歌部门提取出来，然后停止节拍检测，把适宜的节拍点合在一路，最末组合成一首完全的歌曲串烧。

04 开箱即用：阿里云媒资办事

基于视频AI原理以及效果，阿里云操纵现有资本，供给更便利、更高效的音视频AI利用才能。

MPS办事

MPS是媒体处置的英文简称。阿里云供给针对多媒体的数据处置办事，将媒体处置过程笼统成两种形式：一种是输进音视频等多媒体文件，颠末智能化媒体处置，生成一个新的媒体文件，好比之前提到的智能横转竖。

另一种形式是输进一个媒体文件，输出颠末媒体处置阐发后的一系列构造化数据，好比智能标签或智能审核。

MPS撑持多项音视频智能处置才能，此外，MPS的媒体文件类型，既能够输进OSS文件，也撑持输进收集URL地址。

MPS接口挪用的流程为：

第一步，开通MPS产物，在开通的过程中，掌握台会引导停止增加权限等相关操做。

开通MPS产物：

第二步，挪用MPS的Open API接口，获得Access Key，包罗AK的ID和密钥。所有阿里云的Open API都要通过AK和SK拜候。

利用RAM办事获取AccessKey：

第三步，认实阅读MPS供给的API文档：

第四步，针对开发需要，选用差别编程语言，并安拆依靠模块：

第五步，编写代码。

阿里云MPS办事供给的智能化才能能够分为四个维度：

一是视频内容理解，包罗智能标签，智能审核，媒体DNA，媒体DNA是视频检索中的重要构成部门，还有智能封面、视频摘要等。

二是视频智能处置，像横转竖、往图标、往字幕、字幕提取等，从电视剧或片子中抽取出字幕，并输出TXT或者SRT格局，此外，也包罗绿幕抠图和PPT拆条等。

三是音频智能处置，包罗副歌检测、混音处置、节拍检测和音量检测等。

四是图片智能处置，包罗横转竖、往图标和人像风气化。人像风气化能够把一张人像图片风气化成差别的形式，好比把人像停止卡通化，或者停止3D处置。

IMS办事

IMS办事是阿里云近年来新上的办事，全称是智能媒体办事，和MPS办事的区别在于：

IMS办事围绕曲播和点播场景，是针对媒体处置的全流程办事，可认为是MPS办事的严重产物迭代和晋级。

第一，IMS不只针关于单个媒体处置过程，而是关于媒体办事全流程、全消费周期的治理和造造；

第二，IMS的集成度更高，不但能够停止单个原子才能的音视频处置，还能够停止媒资治理、工做流触发等，闪开发者更便利地利用音视频智能化才能；

第三，IMS更智能，后续所有智能化才能晋级后城S集中表现在IMS办事中。

IMS掌握台合成了媒资治理，媒资库中的音频视频文件，包罗图片、辅助的媒资，都能够通过IMS办事停止展现和治理。

操纵多模检索的智能化才能，IMS能够实现多媒体文件的智能化检索。传统的音视频文件检索，只能针对题目或者简介停止，而IMS撑持对上传的音视频文件做AI主动分类，并根据分类成果停止搜刮，同时，也撑持对视频中的文字停止主动识别检索。

好比，新闻联播的画面中呈现了“康辉”两个字样，固然视频文件的题目和简介里都没有呈现过“康辉”，但在搜刮“康辉”时，AI仍是能够搜刮识别出此视频文件，那就是多模检索的才能。

Retina多媒体AI体验中心

上述MPS和IMS办事的智能化才能，都需要通过Open API挪用或者掌握台开通利用，而Retina体验中心能够让各人更便利灵敏地停止体验，只需上传视频或图片，就能够曲看地得到颠末智能化处置后的成果。

例如，在Retina平台，你能够体验人像卡通化的效果，只需上传一张人像图片，颠末主动处置，就能获得童话风气的卡通人像图片，更多体验就在：/

跟着视频与AI手艺的开展和演进，AI在媒体消费范畴中发扬着越来越重要的感化，以更快的速度、更高的效率完成之前难以实现的工作。

将来，AI将从辅助媒体消费，逐步改变为间接消费有意义、有价值、有感情的视频，进一步加速媒体消费造造全主动处置历程。

更多完全内容详见课程回放 ⬇️

视频链接：

全自动智能马桶

回帖 【盛泰智能】全主动物流分拣机的适应范畴 智能洗车设备_喜车族24小时营业全主动洗车店

课程回忆｜以智能之力，加速媒体消费全主动历程期待您的回复！

取消

课程回忆｜以智能之力，加速媒体消费全主动历程

课程回忆｜以智能之力，加速媒体消费全主动历程 期待您的回复！

插入网络图片

课程回忆｜以智能之力，加速媒体消费全主动历程期待您的回复！