🫐Python声学特征神经网络构建区域响度图
Python | PyTorch | scipy | Matplotlib | Numpy | 声学 | 特征 | 神经网络 | 区域 | 响度 | h5py | scikit-learn | 音频 | 隐式表示 | 短时傅里叶变换 STFT | 测试集脉冲响应预测的定性可视化 | 泛化 | 均方误差 | 梅尔频率倒谱系数 MFCC
通过将场景中的声学传播建模为线性时不变系统,将所有发声器和听者位置对连续映射到神经脉冲响应函数,然后可以将其应用于任意声音。 其连续性使我们能够为任意位置的听众呈现空间声学,并且可以预测新位置的声音传播。
工具
Pytorch 1.9 (或更高版)
h5py
numpy
scipy
matplotlib
sklearn (用于线性探头和特征可视化)
librosa (用于训练数据解析)
ffmpeg 5.0 (仅适用于 AAC-LC 基线)
opus-tools 0.2 & libopus 1.3.1
在 Ubuntu 20.04 and 21.10 上测试
处理
音频场编码
3D 空间音频的编码方法有着悠久的历史。 这些方法主要分为两类。第一种方法通过从空间分布的源中捕获声音,在以用户为中心的位置对声场进行编码。第二种方法旨在模拟听众在场景中移动时听到的声音。
隐式表示
对场景的基础声学建模的方法依赖于使用神经隐式表示。 隐式表示已成为 3D 几何和场景外观的有前途的表示。
视听学习
与视觉和音频的联合建模密切相关。 通过利用视觉和音频之间的对应关系,完成了学习无监督视频和音频表示的工作,可定位发出声音的对象并联合使用视觉和音频进行导航。
数学方法
学习任意场景的通用声学表示,它可以捕获任意声源在场景中可见和不可见位置的潜在声音传播。
Python演示预训练网络推理、可视化脉冲响应并绘制响度图
建模
Last updated
Was this helpful?