标签【音频算法系列】

概念在数字信号处理过程中，每次FFT变换只能对有限长度的时域数据进行变换，因此，需要对时域信号进行信号截断。即使是周期信号，如果截断的时间长度不是周期的整数倍（周期截断），那么，截取后的信号将 ...

　　今天在搜索人脸识别的文章时，无意中搜到一个比较开源代码，介绍说是这个系统人脸的识别率是比较高的，可以达到：99.38%。这么高的识别率，着实把我吓了一跳。抱着实事求是的态度。个人就做了一些 ...

　　原理：　　离散余弦变换(DCT for Discrete Cosine Transform)是与傅里叶变换相关的一种变换，它类似于离散傅里叶变换(DFT for Discrete Fourie ...

MFCC特征参数提取流程概述

　　一　概念概述：　　在语音识别（Speech Recognition）和话者识别（Speaker Recognition）方面，最常用到的语音特征就是梅尔倒谱系数（Mel-scale Freq ...

　　音频处理中，经常要看一下啊频域图是什么样子的，这里自己写了一个小程序，可以完美的同步显示时域和频域图，直接上代码：　直接上图看结果：　　这个只能对单声道１6k采样的wa ...

提纲挈领webrtc之vad检测

　　顾名思义，VAD（Voice Activity Detection）算法的作用是检测是否是人的语音，它的使用范围极广，降噪，语音识别等领域都需要有vad检测。vad检测有很多方法，这里我们之介 ...

音频处理EQ的基本概念

　　我们通常所说的人声，歌声以及乐声都是一个复合音，也就是由声音的基音和一系列的泛音所构成的。这些泛音都是基音频率的倍数，物理学中叫分音，电声学中叫谐波，音乐中则把它们称做泛音。可以说，泛音对音色的 ...

一概念：在声学领域中，DRC(Dynamic range compression) 一般用来动态调整音频输出幅值，在音量大时压制音量在某一范围内，在音量小时适当提升音量。通常用于控制音频输出功 ...

音频格式RAW和PCM区别和联系

定义: RAW：在一些外国品牌的播放机中名为 BitSream，我们通常称为“源码”。意义是把光盘上的音频格式不加处理地、“原汁原味”地从同轴和光纤输出。这就要求用户的功放具备这种音频格式的解码功 ...

　　早期语音质量的评价方式是凭主观的，人们在打通电话之后通过人耳来感知语音质量的好坏。1996年国际ITU组织在ITU-T P.800和P.830建议书开始制订相关的评测标准：MOS（Mean Opi ...