pa是什么| 狗咬人后狗为什么会死| 信的拼音是什么| 幽门螺旋杆菌是什么原因造成的| 非洲有什么动物| 心脏肥大吃什么药好| 阿司匹林是什么| 什么是直男| 皮下脂肪瘤挂什么科| 昙花什么时候开花| 农历七月十五是什么节| 头晕看什么科| 盆腔炎是什么| 梦见系鞋带是什么意思| 睡觉手麻是什么原因引起的女人| 低压偏高是什么原因| 恢复伤口的鱼叫什么鱼| md是什么意思| 蟑螂喜欢吃什么东西| 治疗肝脏硬化要吃什么药好| 阳卦代表什么意思| 尬是什么意思| 血小板数目偏高是什么意思| 长命的动物是什么生肖| 樱桃有什么营养价值| 拉肚子发热是什么情况| 肾病综合症是什么病| 精液是什么颜色的| 边长是什么| 什么地赶来| 妗子是什么意思| 妈妈的姑姑叫什么| 什么情况下需要做喉镜检查| 5月24号是什么日子| 8月29日什么星座| 屎忽鬼是什么意思| 麻腮风疫苗什么时候打| 路过是什么意思| 脑缺血灶是什么意思| 心脏看什么科室| 六级什么时候考| 泡脚有什么好处| lca是什么意思| 女人吃桃子有什么好处和坏处| 卸磨杀驴什么意思| 高血压吃什么食物好| pw是什么意思| 丰胸吃什么食物有效果| 梦见穿山甲预示着什么| 六神无主是什么意思| 梦见鸡啄我是什么意思| 流清口水是什么原因| 尿胆素1十是什么意思| 骨质增生的症状是什么| 朱砂红是什么颜色| 山东济南有什么好玩的地方| arr是什么| 牙齿打桩是什么意思| 什么样的树木| 什么是单核细胞百分比| 人言可畏是什么意思| 大连机场叫什么| 咽喉有异物感吃什么药| 病毒疣是什么| 非萎缩性胃炎什么意思| 扁平化管理是什么意思| 围绝经期吃什么药调理| 脆皖鱼是什么鱼| 什么是食品添加剂| 验光是什么意思| 脚气挂号应该挂什么科| 颠了是什么意思| 是什么意思啊| 鸡粉是什么| 肺纤维化有什么症状| 窦性心律t波改变是什么意思| 卫青为什么被灭九族| 喝荷叶茶有什么好处和坏处| 殊胜的意思是什么| 曹植是什么生肖| 怀孕初期吃什么食物好| 羊肉馅饺子放什么菜| 什么是周边| 梦到别人怀孕了是什么意思| rx是什么意思| 肺动脉增宽是什么意思| 南瓜和什么相克| 山药为什么煮熟了也麻口| 孤僻是什么意思| 月经来一点又不来了是什么原因| 香奶奶是什么牌子| 见血是什么兆头| 今天是什么生肖日| 动物的耳朵有什么作用| 什么鲜花填动词| 骨折移位有什么感觉| 乳腺小叶增生是什么意思| 主母是什么意思| 胃不消化吃什么药好| 梦见老公穿新衣服是什么意思| 五花肉炒什么配菜好吃| 什么梳子梳头最好| 两个人能玩什么游戏| 右侧上颌窦粘膜增厚是什么意思| 凤凰单丛属于什么茶| 低钾血症吃什么药| 美国是什么人种| 梦见手机失而复得是什么意思| 咽炎是什么原因引起的| 什么是药品| 灰色配什么色好看| 六月十一号是什么星座| 子宫出血是什么原因造成的| 尿道尿血是什么原因| 梦到生儿子有什么预兆| 慢性阑尾炎挂什么科| xxx是什么意思| 兔跟什么生肖配对最好| 月下老人什么意思| 宜祭祀是什么意思| 1988年出生是什么命| 为什么尿有点偏红色| 整装是什么意思| 津津有味什么意思| 麝香是什么| 肋软骨炎挂什么科| 满人是什么民族| 熟地有什么功效| 头寸是什么意思| 咽喉炎挂什么科| 胃窦炎是什么原因引起的| 小孩肠系膜淋巴结炎吃什么药| 女儿红是什么| 祛疤用什么| 仙鹤代表什么生肖| 什么东西补钙最好最快| 众什么意思| lane是什么意思| 外向是什么意思| 阿哥是什么意思| 中午一点半是什么时辰| 吃榴莲对身体有什么好处| 黄晓明和杨颖什么时候结婚的| 排便困难是什么原因| 梦见下雪了是什么意思| 男朋友有什么用| 血压偏低吃什么东西补最好| 瞒天过海是什么意思| 不动明王是什么意思| 修身养性是什么意思| 叫花子是什么意思| 阴部痒什么原因| 山竹为什么叫山竹| 10月10日是什么星座| 抹茶粉是什么做的| 医保卡是什么样子的| 7朵玫瑰花代表什么意思| 财五行属什么| 优甲乐是什么药| hp代表什么意思| 吃什么生发效果最好| 为什么250是骂人的话| 脚筋疼是什么原因| 橄榄油的好处和坏处是什么| 身上皮肤痒是什么原因| 斤加一笔是什么字| 独角仙吃什么食物| 乳腺1类是什么意思| 慢性肠炎吃什么药最好| 四月初八是什么星座| 鬼压床是什么原因| 荔枝肉是什么菜系| 诸侯国是什么意思| 胃胀打嗝吃什么药| 妊娠囊是什么| 三叉神经痛吃什么药效果好| 三虫念什么| 孕妇缺碘吃什么补最快| 早孕反应什么时候开始| 砖红色是什么颜色| 总胆汁酸高吃什么药| 慢性胃炎有什么症状| 色弱是什么意思| 东方美人茶属于什么茶| 送人礼物送什么好| 念珠菌感染用什么药效果好| gc什么意思| 参片泡水喝有什么功效| 什么药对伤口愈合快| 天蝎女跟什么星座最配| 什么火灾不能用水扑灭| 狗不能吃什么东西| 提高免疫力吃什么药| 多吃山竹有什么好处| 为什么要打肝素| 心肌缺血有什么症状和表现| 爱出油的人身体缺什么| 为什么qq| 为什么会得甲状腺| 冰粉为什么要加石灰水| 疫苗是什么| 梦见打牌是什么意思| 喝酒后吃头孢有什么反应| 蛆长什么样| 铁蛋白是什么意思| 卿字五行属什么| 玄孙是什么意思| 伪娘是什么| 半夜鸡叫是什么征兆| 什么是亚健康| 人过留名雁过留声什么意思| 器质性是什么意思| 所费不赀是什么意思| 女生为什么喊你男神| 饿得快是什么原因| 一什么水井| 红豆杉是什么植物| 继续近义词是什么| 三省吾身是什么意思| 肾囊肿有什么症状表现| 夏天吃什么菜最好| 什么叫2型糖尿病| 毫无违和感是什么意思| 今天穿什么衣服合适| 拉黑色大便是什么原因| 马赫是什么意思| 闻字五行属什么| 2020年什么年| 手机合约版是什么意思| 喉咙痛吃什么水果好得最快| 一个口一个且念什么字| 待寝什么意思| 红参和高丽参有什么区别| 花中四君子是什么| 头发大把大把的掉是什么原因| 梦见诈尸预示什么| 男生的蛋蛋长什么样| 是什么拼音| 2001年是什么年| 眼睑浮肿是什么原因| 六角恐龙吃什么| 就寝什么意思| zoom是什么| 黄花菜都凉了什么意思| 门诊是什么意思| 怂人是什么意思| 作怪是什么意思| 孕期吃什么水果好| 打狂犬疫苗不能吃什么食物| 心胸狭窄是什么意思| 何许人也是什么意思| 阴虱长什么样| 猝死是什么原因造成的| 温存是什么意思| 拔罐对身体有什么好处和坏处| 7月30号什么星座| 侯字五行属什么| 嘴唇有黑斑是什么原因| 肾结晶是什么意思| 腱鞘囊肿是什么原因引起的| 夏天有什么特点| 吃什么去胃火口臭| 背包客是什么意思| 牙齿痛吃什么药最管用| 百度

默认
打赏 发表评论 12
想开发IM:买成品怕坑?租第3方怕贵?找开源自已撸?尽量别走弯路了... 找站长给点建议
即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型
阅读(173929) | 评论(12 收藏13 淘帖1 5
微信扫一扫关注!

本文来自网易云音乐音视频实验室负责人刘华平在LiveVideoStackCon 2017大会上的分享,并由LiveVideoStack根据演讲内容整理而成(本次演讲PPT文稿,请从文末附件下载),原文链接:blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/84351432。


1、引言


大家好,我是刘华平,从毕业到现在我一直在从事音视频领域相关工作,也有一些自己的创业项目,曾为早期Google Android SDK多媒体架构的构建作出贡献。

就音频而言,无论是算法多样性,Codec种类还是音频编解码复杂程度都远远比视频要高。视频的Codec目前还主要是以宏块为处理单元,预测加变换的混合编码框架,例如H.264和H.265都是在这一框架下。而音频则相当复杂,且不同的场景必须要选择不同的音频编解码器。以下就是本次为大家分享的主要内容,希望通过此次分享可以使大家对音频编解码有一个整体的认识,并在实际应用中有参考的依据。

本次分享的内容提纲:

  • 1)语音/音频编码总表;
  • 2)数字语音基本要素;
  • 3)为什么要压缩;
  • 4)编码器考虑的因素;
  • 5)语音经典编码模型;
  • 6)ISO;
  • 7)编码模型;
  • 8)USAC;
  • 9)编码;
  • 10)使用选型考虑的因素。

* 本次演讲PPT文稿,请从文末附件下载!

2、分享者


即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_a.jpg

刘华平:

  • - 现为网易云音乐音视频实验室负责人,上海大学通信学院在职博士;
  • - 曾任掌门集团(WIFI万能钥匙)音视频技术研发总监,资深研究员;
  • - 行者悟空声学技术有限公司首席技术官(联合创始人);
  • - 阿里巴巴前高级技术专家(P8), 阿里音乐音视频部门总监;
  • - Visualon音频部门经理、盛大创新院研究员、Freescale 上海研发中心多媒体部门;
  • - 早期 Google Android SDK多媒体架构的贡献者,开源 AMR_WB 编码器工程开发者。

刘华平拥有5项技术发明专利、二十余篇专业论文和多项软件著作权,参与过浙江省杭州重大专项项目,浙江省金华科委项目,上海市科委项目(球谐域全景音频关键技术研究)。

3、系列文章


本文是系列文章中的第18篇,本系列文章的大纲如下:


4、语言/音频编码总表


即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_1.gif
▲ 语言/音频编码总表

上图展示的是语言/音频编码总表,可以看到其比视频编码要复杂得多,单纯的算法也远远比视频要更加复杂。

5、数字语言基本要素


数字声音具有三个要素:

  • 1)采样率;
  • 2)通道数;
  • 3)量化位数。

即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_2.gif
▲ 声音数字化的过程

如上图所示,声音数字化的过程为:

  • 1)采样:在时间轴上对信号数字化;
  • 2)量化:在幅度轴上对信号数字化;
  • 3)编码:按一定格式记录采样和量化后的数字数据。

6、为什么要压缩


压缩音频,主要是为了在降低带宽负担的同时为视频腾出更多带宽空间。存储和带宽二大因素决定了语音压缩的必要性。

我们看看下面的例子。

长度为4分钟,采样频率为44100Hz,采样深度为16bits,双声音Wav文件大小:

44100Hz*16bits*4minutes*2=(44100/1second)*16bits*(4minutes*(60seconds/1minutes)*2=705600bits/second*240seconds=169344000bits=169344000/(8bits/1byte)*2=42336000bytes=42336000/(1048576/1M)bytes=40.37MB


MP3,128kbps压缩后文件大小:

128kbps*4minutes=(128kbits/1second)*(4minutes*(60seconds/1minutes))=(128kbits/1second)*240seconds=30720kbits=30720kbits/(8bits/1byte)=3840kbytes=3840k/(1024k/1M)bytes=3.75Mbytes=3.75MB


正如上面的例子,声音压缩后,存储大小为原大小的十分之一,压缩率十分可观!

7、编码器考虑因素


7.1基本概念


编码器考虑的因素:

  • 1)最佳压缩比;
  • 2)算法的复杂度;
  • 3)算法延时;
  • 4)针对特殊场景下的特定设计;
  • 5)兼容性。

通过一些特定的压缩算法,可以压缩音频文件至原来的1/10,同时人耳也无法分辨压缩前后的声音质量差异,需要满足多种条件才能实现这种效果;而对于编码器,无论是设计阶段还是使用阶段,我们都需要考虑最佳压缩效果、算法的复杂度与算法的延时,结合特殊场景进行特定的设计;而兼容性也是我们不能不考虑的重点。

7.2语音经典编码模型:发音模型


即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_3.gif
▲ 发音模型原图点击查看

我们的很多编解码器都是基于综合人的发音模型与一些和听觉相关的理论支持研究提出的特定编解码算法。初期我们通过研究人的发音原理来设计音频编解码的算法,包括端到端的滤波或轻浊音等,只有充分理解人的发声原理我们才能在编解码端做出有价值的优化。

【7.2.1】语音编码模型——LPC:

即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_4.jpg
▲ 经典语音编码模型:LPC原图点击查看

即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_5.jpg
▲ LPC 数学表达

LPC作为经典语音编码模式,其本质是一个线性预测的过程。早期的G.7系列编码模型便是通过此模型对整个语音进行编码,上图展示的过程可与之前的人发声过程进行匹配,每个环节都有一个相应的模块用来支撑人发声的过程。其中使用了AR数学模型进行线性预测,此算法也是现在很多语音编码的重要组成模块。

【7.2.2】语音编码模型——G.729:

即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_6.jpg
▲经典语音编码模型: G.729(CELP)

G.729同样是经典的语音编码模型之一,也是我们学习语音编码的一个入门级Codec。G.729的文档十分完善,包括每个模块的源代码在内都可直接下载。G.729可以说是在早期发声模型基础上的改进,需要关注的性能指标是帧长与算法上的延时,包括语音质量的MOS分。G.729也有很多变种,由于语音需要考虑系统兼容性,不同的系统指定携带的Codec也不同,音频编码的复杂程度要远高于视频编码。

G.729 建议了共轭结构的算术码本激励线性预测(CS-ACELP)编码方案。G.729算法的帧长为10ms, 编码器含5ms 前瞻,算法时延15ms,语音质量MOS分可达4.0。

7.3语音经典编码模型——听觉模型


即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_7.gif
▲ ISO编码模型:心理声学模型

除了研究人发声的原理,我们还需要研究人听声的原理,从而更好实现声音的收集与处理。一个声音信号是否能被人耳听见主要取决于声音信号的频率、强度与其他音的干扰。心理声学模型便是用来找出音频信号中存在的冗余信息从而实现在压缩声音信号的同时不影响听觉的目的。心理声学理论的成熟为感知编码系统奠定了理论基础,这里的感知编码主要是ISO编码模型,主要覆盖的声学原理有临界频带、绝对听觉阈值、频域掩蔽、时域掩蔽等。

即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_8.jpg
▲ 听觉模型

无论是MP3还是AAC以至于到后面的杜比音效都是基于听觉模型进行的探索与创新。

【7.3.1】临界频带:

由于声音频率与掩蔽曲线不是线性关系,为从感知上来统一度量声音频率,引入了“临界频带”的概念。通常认为,在20Hz到16kHz范围内有24个监界频带。临界频带的单位叫Bark(巴克)。

即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_9.gif
▲ 临界频带

临界频带主要用于心理声学模型。由于声音频率与掩蔽曲线并非线性关系,为从感知上来统一度量声音频率,我们引入了“临界频带”的概念。人耳对每段的某个频率的灵敏度不同,二者关系是非线性的。通常我们会将人可以听到的整个频率也就是从20Hz到16KHz分为24个频带,可在其中进行时域或频域类的掩蔽,将一些冗余信息从编码中去除从而有效提升压缩率。

【7.3.2】绝对听觉阈值:

即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_10.gif
▲ 绝对听觉阈值

绝对听觉阈值也可有效提升压缩率,基于心理声学模型,可去除编码中的冗余部分。

7.4经典音频编码:ISO


即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_11.gif
▲ 经典音频编码:ISO

我们可将最早的MP3 Layer1理解为第一代的ISO感知编码,随后的一些纯量化内容更多的是在压缩上进行改进而核心一直未改变。从MP3 Layer1到Layer2与Layer3,主要的改变是心理声学模型的迭代。

即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_12.gif
▲ MPEG1 LayerI Codec

即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_13.gif
▲ MPEG1 LayerIII Codec

上图展示的是Encode与Decode的回路。输入的PCM首先会经过多子带分析与频域中的心理声学模型冗余处理,而后进行量化编码;Layer III中的是我们现在常说的MP3的Codec:Encode与Decode之间的整体回路,相比于Layer1多了几个处理环节以及霍夫曼编码。

7.5AAC协议族


即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_14.jpg
▲ AAC家族

AAC与G.719一样包括很多系列,但AAC的巧妙之处在于向下兼容的特性。开始时我们就强调,所有Codec在设计时都需要考虑兼容性,瑞典的Coding Technology公司曾提出在兼容性上特别优化的方案。AAC Plus V1包括AAC与SBR,AAC Plus V2包括AAC+SBR+PS,现在常见的很多音乐类或直播音频编码都是基于AAC Plus协议族进行的。

德国的霍朗浦学院曾在AAC低延时协议扩展方面做出一些探索并得到了AAC LD协议族,其原理仍基于传统的AAC模块,但在后端会对处理长度进行调整,例如之前是以1024bit为一个处理单位,那改进后则以960bit为一个处理单位。除此之外AAC LD加入了LD-SBR与LD-MPS等,从而形成一个规模较大的AAC-ELD V2模块,可以说是十分巧妙。

【7.5.1】AACPlus核心模块——SBR(Spectral Band Replication):

即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_15.jpg
▲ SBR(Spectral Band Replication)

我们可以看到,AAC可以说充分利用了频域扩展,用很小的代价实现诸多功能优化。AAC的核心之一是SBR,这是一种使用极少位数就可描述高频部分并在解码时进行特殊优化从而实现频域扩展的模块。上图展示的是不同压缩率模块所覆盖的频率取值范围,而使用AAC时需要注意一个被称为“甜点码率”的指标。无论是采样率还是码率都是变化的,在应用时选择何种码率十分关键。例如直播时采用64Kbps即可在覆盖整个频段的同时保持良好音质。

【7.5.2】AACPlus核心模块——PS(Parametric Stereo):

即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_16.jpg
▲ :PS(Parametric Stereo)
PS 描述参数:IID(Inter-channel Intensity Difference),,ICC(Inter-channel Cross-Correlation),IPD(Inter-channel Phase Difference)。

即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_17.jpg
▲ AACPlus v2编码框图

即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_18.jpg
▲ AACPlus v2解码框图

PS模块也是AAC的核心模块之一,主要用于分析左右声道属性并使用非常少的位数表示左右声道相关性,而后在解码端将左右声道分离。这里比较巧妙的是PS的向下兼容特性,整体数据打包是分开进行的。如果获取到AAC、SBR、PS三者的基本数据包后,在解码阶段我们就只需AAC—LC。上图展示的就是AAC的解码框架,如果大家读过3GPP的代码就可发现其每一个模块都相当清楚。我们可根据文档读取代码并对应到每一个环节。

【7.5.3】甜点码率:

即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_19.jpg
▲ AAC 甜点码率

甜点码率是一项很关键的指标。例如在手机直播应用场景中,一般的视频分辨率为640×360,音频码率大约在800K左右。如果音频码率过大则会直接影响视频质量,因而我们需要控制音频码率在一个较为合适的范围内从而实现最佳的音画效果。在很多应用场景中可能需要系统根据不同的网络环境下载不同音质的文件,例如在2G环境中下载较小的文件,这样做主要是为了节省带宽并提高音频文件的播放流畅程度。

7.6AAC-ELD家族


AAC-ELD家族产生背景:aacplus v2 已经在压缩和音质方面做到了近似于极致,但由于算法实现上的长达100ms左右的延时极大的阻碍aacplus v2在实时通讯领域的应用。Fraunhofer IIS 为了解决这个问题,对AAC进行相关改进,形成了AAC-ELD协议族。

即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_20.jpg
▲ AAC-ELD家族

AAC-ELD家族带来的主要改进是低延迟。如果Codec的延迟太长便无法在一些特定场景中被使用。例如早期AAC Plus V2的整体延迟可达100ms,如此高的延迟肯定无法被应用于语音通话等对实时性要求极高的应用场景。霍朗普学院推出的AAC-ELD可在保持音质的前提下将延迟降低至15ms,相对于MP3最高长达200ms的延迟而言提升巨大。

7.7应用中端到端的延迟


即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_21.jpg
▲ 端到端的延时

编解码过程也存在延时问题,这也是我们选择编解码器时需要考虑的最主要因素之一,编解码的延时主要由处理延时与算法延时组成,例如G.729的算法延时为15ms,而AAC-LC可达到一百毫秒以上。另外,播放端或采集端的长帧数量太多,播放时缓存太多等也会直接影响延时,我们在选择编解码器时需要考虑延时带来的影响。

编解码器已经历了两个发展方向:

  • 1)一个是以G.7(G.729)为例,根据发声模型设计的一套主要集中于语音方面的编解码算法;
  • 2)另一个是以ISO的MP3和AAC为例,根据心理声学模型设计的一套感知编码。

最近的趋势是编码的统一:原来在语音场景下我们使用8K或16K进行采样,音乐场景下则需使用覆盖到全频带的44.1K进行采样,每个Codec都有一个频域覆盖的范围。在之前的开发中,如果应用场景仅针对压缩语音那么需要选择语音编码方案,如果应用场景针对压缩音乐则需要选择音乐编码方案,而现在的发展方向是通过一套编码从容应对语音与音乐两个应用场景,这就是接下来将要被提到的USAC。

这里介绍两个比较典型的Codec:

  • 1)一个是Opus,通过其中集成的模块可实现根据传入音频文件的采样率等属性自动选择语音编码或音乐编码;
  • 2)另一个是EVS这也是霍朗普等组织推行的方案,已经尝试用于4G或5G之中。

EVS (Enhanced Voice Services):主要是VoiceAge, Dolby, Fraunhofer, 华为联合开发的USAC编码器,低速率音乐编码质量很好。

即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_22.gif
▲ USAC

由框图我们可以了解到USAC向下兼容的特性。

编解码器可总结为经历了三个时代:

  • 1)发声模型;
  • 2)听觉感知;
  • 3)融合方案。

接下来我将展示目前所有的Codec情况并整理为表格以方便大家检索查阅。

8、解码器(Codec)总结


8.1IETF系列


即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_23.gif

IETF作为标准协议联盟组织之一推出了以上Codec:Opus包括采样率为8kHz、甜点码率为11kbps的窄带单声语音(SILK),采样率为16kHz、甜点码率为20kbps的宽带单声语音与采样率为48kHz、甜点码率为32kbps的全带单声语音(CELT),采用甜点码率意味着将压缩率和音质保持在一个良好的平衡状态。在一些窄带单声语音应用场景例如常见的微信语音聊天,其压缩率可达到原来的8.5%。Opus没有技术专利和源代码的门槛,使得其受到现在很多流媒体厂商的欢迎,Opus支持更广的码率范围,具备丰富采样率选择,可实现极低延迟与可变帧大小,也具备以往一些Codec的许多特性如CBR、VBR、动态调整等,支持的通道数量也更多。除此之外,Opus同样具备许多从SILK移植而来的特性或功能。如在VUIB传输上集成了扛丢包模式等。

iLBC早在SILK未出现时就被提出同样具备抗丢包。的特性,高达15.2kbps的甜点码率与4.14的Mos使其音质较为良好,超过G.729的相关指标;GSM就是最早手机网络仍停留在2G时代时流行的编码形式,主要用于蜂窝电话的编码任务。

8.2AMR系列


即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_24.gif

AMR早在3G时期就被广泛应用,AMR-NB是最流行的语音编码器,具有压缩效果好,支持多种码率形式的特点;与此同时,这也是GSM与3G时期Android平台最早支持的窄带语音编码方案。AMR-WB作为AMR-NB向宽带的扩展版,主要用于3G和4G通话标准协议中,其甜点码率为12.65kbps。在实践中我们将码率参数调整为此值即可实现压缩率与质量的平衡。AMR-WB+则是上述两者的融合,三者共同构成AMR系列。

8.3ITU-T G系列


即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_25.gif

ITU-T G系列包括最早的波形编码G711到现在大家熟悉的G.729这里我想强调的是G722.1 Siren7、G722.1c Siren14与G719 Siren22,例如G.719可覆盖整个前频带且支持立体声。即使都属于老协议,但由于其优秀的兼容性,不应被我们忽略。

即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_26.gif

将Opus与其他一些Codec进行对比我们可以看到,无论是质量还是延时控制,Opus的优势十分明显;加之Opus作为开源的免费方案,不存在专利限制,受到业界追捧也不足为奇。

8.4ISO系列


即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_27.gif

ISO里我想强调的是MP3与AAC,二者同样支持很多码率。MP3的甜点码率为128kbps,MP3 Pro的码率可达到MP3的一半;AAC支持8~96khz的采样率,AAC-LC的甜点码率为96kbps,HE-AAC的甜点码率为32kbps,AAC-LD与ELD做到了AAC的低延时,实现了延时与压缩比的最佳平衡。

8.53GPP系列:EVRC


EVRC 是CDMA 中使用的语音编解码器,由高通公司1995年提出目标是取代QCELP。

即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_28.gif

高通公司主推的3GPP是CDMA中使用的语音编解码器,在未来选择编解码器类型时我们需要特别考虑延时与帧长。由于语音编码种类很多,帧长也是复杂多变的,其背后的算法复杂程度,RAM、ROM占用等都是在实践当中需要着重考虑的。

8.6极低码率


即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_29.gif

极低码率主要的应用场景是对讲机、卫星通讯、军工等。

上图图表中的MELP最早由美国军方开发,现在绝大多数的对讲机都基于此模型进行扩展开发,压缩后的码率可达到2.4kbps而目前最极端的极低码率可实现300bps,相当于压缩为原数据的0.2%,此时的音频文件仅能被用于传达语音内容而丢失了很多声色。

8.7全频带


即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_30.gif

全频带中的组合也是多种多样。

9、编解码使用注意


9.1License


即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_31.gif
▲ 开源项目常用的Lisence

国内大部分企业在开发时容易忽视包括专利安全性在内的与License相关的内容。如果企业计划得比较长远,需要长期使用某项技术或企业规模不断扩大时则不能不考虑专利问题。专利费用包括Open Source与算法专利,二者完全独立互不干涉,如果我们从某家专利公司购买了AAC的专利算法,并不能获得此AAC专利的源代码,仅能获得与此技术相关的专利使用授权。专利公司会给予需要下载的文件列表,通过这种方式实现技术的授权使用。

即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_32.gif
▲ 一张图看懂Lisence(来自:阮一峰的博客

上面的二叉树图比较清晰地展示了代码授权的具体流程,随着企业的规模化发展日趋成熟,企业应当规范自身的技术使用行为,尽可能避免专利纠纷带来的不利影响。

9.2专利


即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_33.gif
▲ 2个著名的多媒体技术专利池

主流语音编解码技术拥有两个专利池:

  • 1)MPEG-LA;
  • 2)Via Licensing。

很多非常复杂的Codec涉及高达上千个专利,与之相关的企业或组织多达几十个,为专利授权而与每一个企业或组织进行洽谈显然是不现实的,因而专利池的出现使得技术授权更加规范清晰,方便企业统一处理技术授权问题。

9.3常见Codec Patent License


即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_34.png

即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_35.png

即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型_36.gif

希望大家在使用技术的同时尊重知识产权,助力技术创新可持续发展。

10、讲稿PPT下载


语音编解码技术演进和应用选型-刘华平(52im.net).pdf (3.34 MB , 下载次数: 403 )

附录:更多音视频技术资料


[1] 实时音视频开发的其它精华资料:
实时语音聊天中的音频处理与编码压缩技术简述
网易视频云技术分享:音频处理与压缩技术快速入门
学习RFC3550:RTP/RTCP实时传输协议基础知识
基于RTMP数据传输协议的实时流媒体技术研究(论文全文)
声网架构师谈实时音视频云的实现难点(视频采访)
浅谈开发实时视频直播平台的技术要点
还在靠“喂喂喂”测试实时语音通话质量?本文教你科学的评测方法!
实现延迟低于500毫秒的1080P实时音视频直播的实践分享
移动端实时视频直播技术实践:如何做到实时秒开、流畅不卡
如何用最简单的方法测试你的实时音视频方案
技术揭秘:支持百万级粉丝互动的Facebook实时视频直播
简述实时音视频聊天中端到端加密(E2EE)的工作原理
移动端实时音视频直播技术详解(一):开篇
移动端实时音视频直播技术详解(二):采集
移动端实时音视频直播技术详解(三):处理
移动端实时音视频直播技术详解(四):编码和封装
移动端实时音视频直播技术详解(五):推流和传输
移动端实时音视频直播技术详解(六):延迟优化
理论联系实际:实现一个简单地基于HTML5的实时视频直播
IM实时音视频聊天时的回声消除技术详解
浅谈实时音视频直播中直接影响用户体验的几项关键技术指标
如何优化传输机制来实现实时音视频的超低延迟?
首次披露:快手是如何做到百万观众同场看直播仍能秒开且不卡顿的?
Android直播入门实践:动手搭建一套简单的直播系统
网易云信实时视频直播在TCP数据传输层的一些优化思路
实时音视频聊天技术分享:面向不可靠网络的抗丢包编解码器
P2P技术如何将实时视频直播带宽降低75%?
专访微信视频技术负责人:微信实时视频聊天技术的演进
腾讯音视频实验室:使用AI黑科技实现超低码率的高清实时视频聊天
微信团队分享:微信每日亿次实时音视频聊天背后的技术解密
近期大热的实时直播答题系统的实现思路与技术难点分享
福利贴:最全实时音视频开发要用到的开源工程汇总
七牛云技术分享:使用QUIC协议实现实时视频直播0卡顿!
实时音视频聊天中超低延迟架构的思考与技术实践
理解实时音视频聊天中的延时问题一篇就够
实时视频直播客户端技术盘点:Native、HTML5、WebRTC、微信小程序
写给小白的实时音视频技术入门提纲
微信多媒体团队访谈:音视频开发的学习、微信的音视频技术和挑战等
腾讯技术分享:微信小程序音视频技术背后的故事
微信多媒体团队梁俊斌访谈:聊一聊我所了解的音视频技术
新浪微博技术分享:微博短视频服务的优化实践之路
实时音频的混音在视频直播应用中的技术原理和实践总结
以网游服务端的网络接入层设计为例,理解实时通信的技术挑战
腾讯技术分享:微信小程序音视频与WebRTC互通的技术思路和实践
新浪微博技术分享:微博实时直播答题的百万高并发架构实践
技术干货:实时视频直播首屏耗时400ms内的优化实践
>> 更多同类文章 ……

[2] 开源实时音视频技术WebRTC的文章:
开源实时音视频技术WebRTC的现状
简述开源实时音视频技术WebRTC的优缺点
访谈WebRTC标准之父:WebRTC的过去、现在和未来
良心分享:WebRTC 零基础开发者教程(中文)[附件下载]
WebRTC实时音视频技术的整体架构介绍
新手入门:到底什么是WebRTC服务器,以及它是如何联接通话的?
WebRTC实时音视频技术基础:基本架构和协议栈
浅谈开发实时视频直播平台的技术要点
[观点] WebRTC应该选择H.264视频编码的四大理由
基于开源WebRTC开发实时音视频靠谱吗?第3方SDK有哪些?
开源实时音视频技术WebRTC中RTP/RTCP数据传输协议的应用
简述实时音视频聊天中端到端加密(E2EE)的工作原理
实时通信RTC技术栈之:视频编解码
开源实时音视频技术WebRTC在Windows下的简明编译教程
网页端实时音视频技术WebRTC:看起来很美,但离生产应用还有多少坑要填?
了不起的WebRTC:生态日趋完善,或将实时音视频技术白菜化
腾讯技术分享:微信小程序音视频与WebRTC互通的技术思路和实践
>> 更多同类文章 ……

即时通讯网 - 即时通讯开发者社区! 来源: - 即时通讯开发者社区!

评分

2

查看评分

本帖已收录至以下技术专辑

推荐方案
评论 12
讲的非常实用
签名: 啊😱
内容又多又好,先收藏起来慢慢消化
签名: 回家看看
引用:无敌巡按 发表于 2025-08-06 14:47
内容又多又好,先收藏起来慢慢消化

慢慢看
您好,本文为我司LiveVideoStack音视频技术社区整理内容,并为授权贵网站转载权限,而且贵网站在未征得我司同意下,将讲师分享PPT用于商业用途,还请立即撤销。
引用:rpanodra 发表于 2025-08-06 18:51
您好,本文为我司LiveVideoStack音视频技术社区整理内容,并为授权贵网站转载权限,而且贵网站在未征得我 ...

很抱歉,没有及时联系到你们允许我转载此文,是我的疏忽。我已在文中上方最显眼位置注明详细的引用来源信息,为了获得你们的准许,是否还需我做何处理?

另外,PPT需要积分下载只是防止盗链而已(网站带宽有限),实际上本站积分全是免费获得,从未曾出现如您所说的“商业用途”。为防止误会,此文附件现已取消积分限制。

特别说明:本站为非盈利性技术爱好者交流学习社区,所有整理的文章皆为学习研究目的,且永久无偿无条件供阅读和学习。如有冒犯,请多包涵。
感谢大家对技术的无私奉献。感谢刘华平先生、感谢楼主、感谢相关单位
引用:踏雪寻梅 发表于 2025-08-06 14:36
感谢大家对技术的无私奉献。感谢刘华平先生、感谢楼主、感谢相关单位

还要感谢祖国的培养。。
引用:JackJiang 发表于 2025-08-06 14:37
还要感谢祖国的培养。。

信息量很大。
对许可证梳理太赞了
讲的非常好,感谢无私奉献
“甜点码率是一项很关键的指标。例如在手机直播应用场景中,一般的视频分辨率为640×360,音频码率大约在800K左右” ================>
这里是笔误么,音频码率一般不会这么大吧?无损压缩都没这么大。
打赏楼主 ×
使用微信打赏! 使用支付宝打赏!

返回顶部
10月27日什么星座 胃热吃什么药最有效 机票什么时候买便宜 什么油最健康 吸入甲醛会有什么症状
散光轴位是什么意思 女人喝红酒有什么好处 手串断了是什么预兆 面膜什么时候敷效果最好 交泰殿是干什么的
子宫内膜9mm意味着什么 肌酐高了是什么原因 68岁属什么生肖 唇红是什么原因 朱迅什么病
鼻子两侧毛孔粗大是什么原因造成的 声音嘶哑吃什么药 菌子不能和什么一起吃 hcy是什么意思 哀伤是什么意思
血色素低吃什么补得快hcv9jop6ns4r.cn 早晨起来口苦什么原因hcv8jop2ns8r.cn 鲁班是干什么的hcv8jop6ns6r.cn 明了是什么意思qingzhougame.com 泻立停又叫什么名字hcv9jop6ns2r.cn
河南有什么景点hcv8jop6ns9r.cn 肝内小囊肿是什么意思bjcbxg.com 骨折有什么忌口hcv9jop7ns0r.cn 六月初九是什么星座hcv8jop9ns7r.cn 阴茎发麻是什么原因hcv8jop6ns0r.cn
血脂稠是什么原因造成的hcv9jop1ns3r.cn 梦见买东西是什么意思hcv8jop0ns7r.cn 荨麻疹是什么样子的hcv8jop0ns2r.cn 月经期间喝什么好排毒排污血clwhiglsz.com panadol是什么药hcv7jop6ns0r.cn
什么惊什么怪baiqunet.com 林子大了什么鸟都有tiangongnft.com 血吸虫是什么动物gangsutong.com 一等功有什么待遇onlinewuye.com 74岁属什么hcv9jop3ns2r.cn
百度