之前有大概介绍了音频采样相关的思路,详情见《简洁明了的插值音频重采样算法例子 (附完整C代码)》。 音频方面的开源项目很多很多。 最知名的莫过于谷歌开源的WebRTC, 其中的音频模块就包含有 AGC自动增益补偿(Automatic Gain Control)自动调麦克风的收音量,使 ...
在一些特殊情况下,经常需要依据图像中的人脸,对图片进行倾斜矫正。 例如拍照角度幅度过大之类的情况,而进行人工矫正确实很叫人头大。 那是不是可以有一种算法,可以根据人脸的信息对图片进行角度的修复呢 答案肯定是确认的。 再次例如,想要通过人脸的特征对人物的表情和情绪进行精准判断, 那么这个时候如果能确保人脸没有发现严重倾斜,无疑对准确率判断有一定的帮助。 那么假如一张图片只有一个人脸,其实很好判断,通 ...
2018-05-08 21:42 2 4888 推荐指数:
之前有大概介绍了音频采样相关的思路,详情见《简洁明了的插值音频重采样算法例子 (附完整C代码)》。 音频方面的开源项目很多很多。 最知名的莫过于谷歌开源的WebRTC, 其中的音频模块就包含有 AGC自动增益补偿(Automatic Gain Control)自动调麦克风的收音量,使 ...
人脸检测 识别一直是图像算法领域一个主流话题。 前年 SeetaFace 开源了人脸识别引擎,一度成为热门话题。 虽然后来SeetaFace 又放出来 2.0版本,但是,我说但是。。。 没有训练代码,想要自己训练一下模型那可就犯难了。 虽然可以阅读源码,从前向传播的角度,反过来实现训练代码 ...
以及普通照明阴影中的效果都明显不同。高斯平滑也用于计算机视觉算法中的预先处理阶段,以增强图像在不同比例大 ...
说起红眼算法,这个话题非常古老了。 百度百科上的描述: “红眼”一般是指在人物摄影时,当闪光灯照射到人眼的时候,瞳孔放大而产生的视网膜泛红现象。 由于红眼现象的程度是根据拍摄对象色素的深浅决定的,如果拍摄对象的眼睛颜色较深,红眼现象便不会特别明显。 “红眼”也指传染性结膜炎 ...
绝大数人都知道mp3格式编码,以及aac,amr等压缩格式编码。 而在语音通信界有一个强悍的音频格式编码opus. 经过实测,压缩比最高可以达到1:10。 100KB 压缩后 10KB 虽然是 ...
近期比较忙, 抽空出来5.1开源献礼. 但凡学习音频降噪算法的朋友,肯定看过一个算法. <<语音增强-理论与实践>> 中提及到基于对数的最小均方误差的降噪算法,也就是LogMMSE. 资料见: <<Speech enhancement using ...
降噪是音频图像算法中的必不可少的。 目的肯定是让图片或语音 更加自然平滑,简而言之,美化。 图像算法和音频算法 都有其共通点。 图像是偏向 空间 处理,例如图片中的某个区域。 图像很多时候是以二维数据为主,矩形数据分布。 音频更偏向 时间 处理,例如语音中的某段时长。 音频一般是一维 ...
WebRTC提供一套音频处理引擎, 包含以下算法: AGC自动增益控制(Automatic Gain Control) ANS噪音抑制(Automatic Noise Suppression) AEC是声学回声消除(Acoustic Echo Canceller for Mobile ...