当喜马拉雅拆上AI引擎,音频行业还有时机吗?

16小时前 (15:19:36)阅读1回复0
王富贵
王富贵
  • 管理员
  • 注册排名5
  • 经验值114020
  • 级别管理员
  • 主题22804
  • 回复0
楼主

当喜马拉雅拆上AI引擎,音频行业还有时机吗?

文|光锥智能 周文斌

“风雪夜回人”,凭如许一句话,画一幅水彩或者油画,需要多长时间?

娴熟的画手可能需要几个小时,但AI只需要几分钟,以至几十秒。

将一篇3000字摆布的文章录造成音频需要多长时间?

体味丰富的播音员一次过可能需要15分钟,但通过AI文字转语音只需要一分钟,并且感情充沛。

近期,AI绘画再次爆火,其快速的生长速度,超高的“工做效率”都令人食惊。而以AI绘画为代表,现在也确实有越来越多的行业起头通过手艺手段来改动传统的消费构造和贸易形式。

当喜马拉雅拆上AI引擎,音频行业还有时机吗?

图:ChatGPT编写的代码

好比在音频创做范畴,喜马拉雅近期公布的一则数据展现,其用单田芳AI合成音造造的TTS(语音合成)专辑总播放量已经破亿。那一数据,喻示着在喜马拉雅“UGC+PGC+PUGC”内容生态之外,又多了一个AIGC的内容生态。

展开全文

事实上,音频行业其实不断存在着许多问题,好比单个创做者创做形式单一、消费周期长、内容成本高档等。而为了打破那些问题,音频行业不断也都在做各类测验考试。

好比,喜马拉雅比来上线了喜韵音坊创做者平台,试图用AI为创做者赋能的体例,以手艺手段来处理行业沉疴。刚好也是本年,喜马拉雅的两项智能语音手艺相关论文被2022年国际音频、语音与信号处置会议(ICASSP)收录。

喜马拉雅开创人兼CEO余建军之前也提过,喜马拉雅是一家科技驱动的内容公司,科技是手段,文化是目标。

那么,在此次喜马拉雅以通过科技赋能文化的过程中,又是若何改动音频行业的呢?

01 配音小说用AI东西一天更新上百集

“以前历来没有想过,音频节目能够一天更新上百集。”那是喜马拉雅的音频主播“CV千索”用过喜韵音坊之后的感慨。

喜韵音坊,喜马拉雅近期上的一个创做者平台,它通过TTS手艺搀扶帮助主播实现与AI配合创做音频节目。“CV千索”就是通过那项手艺在喜马拉雅上创做了有声书《史上最强捡漏王》,上线一个多月,播放量已经超越300万。

工欲善其事必先利其器,创做者有了AI东西,就能够大幅提拔创做效率,进而提拔收益。

但要打造一个好东西也并不是易事,喜韵音坊关于喜马拉雅来说,就好像剪映之于抖音,但音频造造自己又有差别的手艺难点。

“TTS”是将输进的文本转换为语音的手艺统称,在许多场景中都有利用。但在很多场景中,好比在德律风客服、机器人等身上,经常会有冷冰冰的“机器音”让人十分“出戏”。

但在音频节目中,我们需要声音有情感、有温度:听童话故事的时候,声音调皮心爱;讲军旅故事的声音,铿锵有力;听汗青故事,又需要它深厚雄浑。

“TTS音色演绎小说十分难,需要进修小说中的顿挫顿挫、感情表达、上下文关系,区分旁白和对白,并最末将做品完美演绎出来。”喜马拉雅智能语音尝试室的卢恒博士表达。

因而,若何让AI理解文本的语境,然后抉择合适的音色,以至根据文本的情感随时转换声音,就是TTS针对特定场景停止利用时碰着的更大难点。

当喜马拉雅拆上AI引擎,音频行业还有时机吗?

图:评书巨匠 单田芳

好比以喜马拉雅复刻的单田芳先生的声音为例,评书凡是韵律起伏改变大,再加许多发音有本身特殊的特征,好比“那个”中的“那”字,通俗话发音“zhè”,但在评书中凡是读为“zhèi”。

那种情状,假设仅靠当前支流的TTS框架模子做提取和合成,合成评书最末的整体豪情和情感城市很平平,没有了原做的跌宕起伏。

为此,喜马拉雅智能语音尝试室自主设想了零丁的韵律提取模块,并将其融进到HiTTS手艺框架中。而针对单老评书中区别于原则通俗话的发音,团队还设想了口音模块对那些特殊发音停止标注,使得AI合成音可以原汁原味地复原出老味道。

因为手艺上的立异,喜马拉雅用TTS合成语音所造造的AIGC专辑几乎可以以假乱实。已经在利用喜马拉雅TTS录造节目标《厉少的重生小甜妻》主播清月古筝表达:“最末的效果不错,有人以至没听出来是AI演播的,还有人问男主的配音是谁。”

现在,喜马拉雅多感情、多风气、多语种声音的TTS手艺模子已经普遍被运用于评书、新闻、小说、财经等多品种型AIGC内容的造造中。

除了HiTTS手艺在声音韵律上的优化之外,跨语言语音合成在TTS中也十分重要,事实仅在中国境内就有129种语言,七大方言。

跨语言语音合成手艺就是让一种声音可以说两种差别的语言(方言)。好比用迪丽热巴的声音讲四川话,或者用李现的声音讲山东话。那项手艺的难点在于,我们良多时候可能只要李现和迪丽热巴讲通俗话的声音,那个时候就需要让AI学会说方言(或其他语言)。

但在传统的操练体例中,那一过程其实存在一些bug,好比方言学欠好或者没学会,还扳连本来的通俗话也讲欠好了,酿成了“邯郸学步”。

为领会决那一问题,喜马拉雅自研了一套新的操练办法,让模子可以承受所有音色和语言的组合的操练,就是跨语言语音合成手艺,其研究论文也被2022年国际音频、语音与信号处置会议(ICASSP)收录。

当喜马拉雅拆上AI引擎,音频行业还有时机吗?

除了用TTS实现文字转语音,音频中也少不了语音转文字的手艺——ASR。

此前,许多音频节目其实不会婚配文本,就像听歌没有歌词,假设听不清,你就实不晓得它讲的啥。

为领会决那一问题,喜马拉雅以ASR和另一项能够将超长音频与文本停止对齐的算法为核心,推出了AI文稿功用。它可以识别无文稿声音的内容,为其主动生成文稿,从而便于听寡更好天文解声音内容。

而关于已经有文稿的声音内容,AI文稿又可以将声音与文稿停止时间戳对轨,在声音播放的同时,对响应文字停止同步高亮,让用户能更便当地享受边听边看的内容消费体验。

近期,喜马拉雅的ASR手艺(主动语音识别手艺)也在国内权势巨子行业公开评测项目Speec

hIO TIOBE第三季度的评测中以2.16%的超低错误率荣获冠军。

总之,跟着AI手艺对特定场景理解的不竭加深,喜马拉雅将带动音频行业的消费体例、内容构造和贸易效率产生量的改变。

02 再做一遍音频生意

传统的音频行业,并非一门好生意。中国并没有降生如播客一样的付费潮,于是各个玩家都在觅觅利润更高的“好生意”。

好比之前同样做音频的荔枝FM,如今的重心就已经转到了更随便盈利的曲播营业上。本年二季度,其营收中虚拟礼品即相关的收进占比已经超越了99%。除此之外,几乎所有在线音频玩家,都曾测验考试Clubhouse的聊天室形式。以至从2017年起头,喜马拉雅还在智能家居、智能音箱、汽车座舱等多种生态渠道规划,试图扩展渠道来翻开更多的市场。

关于音频行业来说,那些摸索当然不错,但在线音频素质上仍然是内容行业,实正吸引用户利用、付费,以至吸引告白主的,最末仍是基于内容的体验。

正如信息流手艺改动了图文、视频的新媒体传布逻辑,降生了字节跳动如许的新巨头,进而在电商、当地生活上都展示出浩荡的倾覆式弄法。

AIGC、TTS、ASR等AI手艺在音频行业的打破式停顿,也将让那个行业迸发出一种新活力。

在传统在线音频行业中,内容构造以及随之而来的内容成本不断是障碍平台盈利的一个重要原因。

颠末那么多年的开展,目前在线音频行业已经有了十分不变的内容消费构造。以喜马拉雅为例,其摘用的“PGC+PUGC+UGC”的内容构造像金字塔一样搭建而成,此中UGC做为金字塔的底座,是用户消费最多的部门,其收听时长在2021年整个平台收听时长中占了45.3%。

当喜马拉雅拆上AI引擎,音频行业还有时机吗?

图:招股书中喜马拉雅PGC、PUGC、UGC内容占比

但同时,喜马拉雅与消费内容的创做者之间摘用的收进分红的利润分配体例,那间接招致了那些年来喜马拉雅的内容成本不断居高不下。好比2020年和2021年,喜马拉雅给内容创做者的分红别离是13亿和16亿,占总营收比例别离为31.9%与27.3%。

但在内容创做中引进AI手艺之后,那一形态有看改动。

起首,通过AI手艺,创做者将大幅提拔内容的消费效率,从而让内容规模也获得指数级增长。

以音频里的新闻播报为例,通过TTS,新京报、全球时报、时代周报等为代表的数十家支流媒体就在喜马拉雅上线了超越40张AIGC音频专辑,他们日均消费约500条声音。

据介绍,目前喜马拉雅新闻TTS每分钟内能转化约3000字摆布,那种效率是人类主播不敢想象的。《厉少的重生小甜妻》主播清月古筝就表达,喜韵音坊节约了她的录造成本,让她能够在同样的时间里大大进步出音量。

当喜马拉雅拆上AI引擎,音频行业还有时机吗?

图:AI电子书《厉少的重生小甜妻》 收听27.4W

其次,平台也会通过AIGC大量生成内容。目前,喜马拉雅“单田芳声音重现”等账号下上线的运用单田芳AI合成音所造造的专辑数量已经有100多张,总播放量超越1亿。除此之外,喜马拉雅还与近百家收集平台和出书机构协做,上线了近6万本电子书,然后通过TTS手艺为那些电子书实时生成TTS声音。

本年7月,百度开创人李彦宏认为,“将来十年,AIGC将倾覆现有内容消费形式。能够实现以非常之一的成本,以百倍千倍的消费速度,往生成AI原创内容。”

招股书展现,从2019年到2021年,喜马拉雅的毛利率已经从44.5%进步到了54%。

能够预见,跟着AIGC内容规模的不竭扩展,也将再大幅降低音频平台的均匀内容成本。

除此之外,手艺的引进还将丰富音频内容的量量。

音频行业里,除了少部门专业团队之外,大部门内容创做者都是“单兵做战”,一小我、一收麦。那也招致他们在内容创做的时候只能抉择演绎单播做品,那极大的限造了声音内容的变现力。

而在喜马拉雅喜韵音坊基于TTS手艺开发的AIGC多播功用上线之后,主播能够与AI协做,随便实现差别声音与差别角色、感情的婚配,让单个主播也能演绎多播做品。

“如今喜韵音坊已经有令郎音、御姐音、师傅音、妈妈音等各类音色,并且它还付与了那些人物差别的情感,可以自若表达哀痛、愤慨、厌恶、钦佩等等各类复杂的人类感情,能够称心小说中各个角色的切换。”《我在仙界淘废品》的主播“DJ老赵”表达:“借助那个功用,能够快速实现由单播到多播”。

之前听寡在听书的时候只能听到一小我一种声音,现在听书的时候,有几个角色就有几种差别的声音,让声音内容更有张力,能够吸引更多听寡,也能让更多用户情愿为之付费。

从数据上看,2020年喜马拉雅挪动端每名活泼用户的日均在线音频收听时长为117.4分钟,到2021年,那一数据增长到144分钟。同时,2021年,喜马拉雅月活泼付费会员数量为1440万,同比增长52%。

整体上,AI手艺不只在重构音频行业的消费体例,也在从底子上改动着那个行业的贸易逻辑。

0
回帖

当喜马拉雅拆上AI引擎,音频行业还有时机吗? 期待您的回复!

取消
载入表情清单……
载入颜色清单……
插入网络图片

取消确定

图片上传中
编辑器信息
提示信息