应用

技术

物联网世界 >> 物联网新闻 >> 物联网热点新闻
企业注册个人注册登录

5G对音频的赋能到底是怎么发生的?

2019-08-22 09:37 脑极体
关键词:5G音频物联网

导读:5G虽然与视觉紧密相关,但它能给声音带来的东西也不算少数。今天我们从几个方向展示一下,5G对音频的赋能到底是怎么发生的。

语音识别,5G,音频,IOT,AI语音,VR

图片来自“123rf.com.cn”

“5G来了,你最盼望的应用是什么?”

如果拿这个问题去询问大部分手机用户,相信收获的答案会是高清直播、VR、云游戏等等。应该近乎没人会说,“5G来了,会让我听音乐更爽”。

确实,5G提高带宽降低时延,基本指向于网络能够支撑更好画质,于是无论视频、游戏还是AR、VR,都把5G牢牢和视觉困在了一起。

那么5G网络的升级,真的就跟听觉一点关系都没有吗?换言之,今天智能手机以及个人硬件里,关于“听”的那一部分是不是已经走到了尽头?

其实未必,5G虽然与视觉紧密相关,但它能给声音带来的东西也不算少数。今天我们从几个方向展示一下,5G对音频的赋能到底是怎么发生的。

高音质与低时延:5G特性下的声音

首先能够给声音带来改变的,依旧是5G的基础特性:大带宽与低时延。

沿着这两条轨迹,我们会发现现有声音传输还是有较大空间来进行优化。在4G网络环境下,我们习惯了随时在线收听音乐、音频节目,甚至观看直播,但其基本是建立在音质经过较大幅度压缩基础上的。而当网络传输速率达到10Gbps左右的时候,高清音质也可以通过网络快速传输,保证实时化共享。另一方面,5G网络的低时延特性也给声音带来了新的可能,比如多声源同步问题可以得到比较妥善的解决。

把这些5G特性落到应用场景里,我们可以比较简单地看到,三个方面的5G+声音能力将被打开。随之而来是一些新玩法可能被挖掘。

一、高清、高品质音乐的在线化。

我们知道,一些高质量音乐在手机段很难复现,一方面是由于扬声环境有限,另一方面也是因为网络环境限制,导致质量较大的音频文件很难传输。5G直接带来的改变,是高品质音乐和音频节目具有更高的实现性。这个特性可能打开的应用,不仅于音乐一项。很多对于音质细节具有高要求的音频内容,比如环境音、催眠音效、白噪音等等也可以获得更好的输出效果。比如用声音来触发大脑舒适感的ASMR,一直以来其圈内都强调专用收音设备的等级。而高等级收音同时也需要大带宽网络的辅助,才能最终让用户体验到最终效果,5G到来或许是类似领域的一个契机。

二、让声音在5G中互动。

5G的另一个特性是低时延,这意味着不同音源的声音可以更好组成统一体。这一点应用在在线音频中,可以很好解决几个终端同步收音合奏的效果。今天的直播界,也经常会搞一些对唱和声之类的玩法,但质量很难跟现场音乐相提并论。尤其乐器合奏,近乎于是无法在4G网络环境下达成很好效果的。

5G网络的特性,可以让异地音乐排练变为可能。而对商业形态的最直接影响在于,5G网络或许可以让不同地域的歌手乐手完成高品质的合奏玩法,换言之就是网上音乐会成为可能。在今天直播与音频节目盛行的环境下,类似玩法应该会有比较好的表现。

三、更好的声画同步效果。

音频当然不止于自身,更多情况下它需要与视频合作。5G网络的低时延特性,一个可能性在于能够升级VR、游戏等环境下的声画同步体验,让声音更好与视觉配合。这个体验最直接的商业想象力在于互动视频,更复杂可交互的音效,是互动视频体验升级的核心路径之一。

声音漂移:IoT环境下无处不在的声音

更多时候,5G不能被看作一个单独的技术路径,而是必须与更多技术突破相结合,提供网络方面的助力。对于声音来说,这样的“5G+”赋能也同样存在。

比如我们知道,大量生活场景里的IoT设备,都趋向于取消按键和触屏,而是用智能语音交互作为主要控制入口。

这也意味着,大量家庭生活与车载场景里的IoT设备,都将携带发声设备。那么在5G环境下,这些设备将获得更好的联接效果与硬件虚拟化能力。声音也就可以在这些设备之间更好传输。

或许不久的未来,我们可以期待这样的场景:客厅中用电视追剧的你,要起身去运动,然后去厨房搞点吃的。在执行这个非常符合减肥需求的行动同时,你并不想停止追剧,至少也要听个声音。那么你可以把电视的声音扔到运动耳机上,运动之后再把耳机的声音扔到厨房的音箱,或者干脆扔到冰箱、燃气灶上……

IoT体系下的声音无缝体验,并不仅仅意味着用户可以指挥声音到处游走,同时也意味着设备对用户声音的识别、理解与交互能力。每个设备和用户说过什么话,学习到了什么东西,都需要体系化共享与再学习,这都需要建立在强大网络环境上。5G和wifi6,目前看来是这一能力的网络基础基石。

IoT必须拥有更多能力,而声音正是其中之一。

算法即声音:AI+5G赋能音频

或许关注AI领域的朋友有这样一个感觉,新闻里的AI语音能力越来越神奇,什么声音克隆、情绪识别、机器对话,都非常强力。但落到自己的手机和音箱上,总感觉有点傻傻的?

这里面有一个核心问题,就是算力和网络环境不达标,庞大的深度学习模型没法在现有条件下跑在终端设备上。虽然类似问题出现在机器视觉领域更多,但随着这两年语音模型飞速发展,算力和网络能力不足,优秀算法不能落到用户终端的问题,也开始出现在了语音领域。

所以5G给音频的赋能,另一个想象力在于跟AI结合。

未来,我们听见的机器声音和其他人传递过来的音频,很有可能已经经过了大量算法“美化”。声音界更具欺诈性的“乔碧萝殿下”可谓指日可待。

相对需要5G网络加持的语音算法应用,包括机器音的实时美化和情绪修饰、声音克隆、多模态语义理解等等。另一方面,在5G网络下,AI也将有条件更好理解用户的声音,并从中产生更多玩法和商业化价值。

5G即将到来,升级网络环境和众多新网络特性,对于各产业都将带来不同的升级效果。对于内容创作者来说,5G是新的画板。无论你的创作载体是声音、视频、游戏,或者想象中的其他形式,5G都是一个新的机遇。