深度学习论文: A YOLO-like Algorithm for Audio Segmentation and Sound Event Detection及其PyTorch实现
You Only Hear Once: A YOLO-like Algorithm for Audio Segmentation and Sound Event Detection
PDF: .00962.pdf
PyTorch代码:
PyTorch代码:
常见的声音分割(audio segmentation)方法可以分为两类:
You Only Hear Once (YOHO) 将声音边界的检测转化为一个基于帧的回归问题,即检测声音的类别以及它的开始和结束点。
YOHO的输入特征采用log-mel spectrograms,输入维数依赖于声音序列的长度和mel spectrogram的规格。这里 music-speech 检测的输入包含801 times steps 和 64 frequency bins。在每个time step,第一个神经元二分类来检测是一个声音类别的存在与否,第二和第三个神经元用来回归各自声音类别的开始和结束位置。
损失函数使用sum squared error
music-speech detection 输出 music 和 speech 两个示例,因此在每个time step有六个神经元,如长为6s的音频示例,每个输出的time step对应0.307s, 因为有26个分配。输出层的所有神经元后接sigmoid 激活函数,回归的输出归一化到0和1之间。
音频总时长8s, 音乐出现在0.2 to 4.3 s ,讲话出现在3.6 to 6.0 s。每一行对应一个 time step,为0.307s。此外回归的值归一化到了0和1之间,因此音乐的开始位置位于 0.2s / 0.307 = 0.65,即第一行。
Post-processing
后处理主要将升级网络的输出转换为人类可读信息。
median filtering 和 threshold-dependent smoothing用于消除虚假(spurious)音频事件的发生,如特别短的声音、相同类别声音中间小的停顿(if the duration of the audio event is too short or if the silence between consecutive events of the same acoustic class is too short, we remove the occurrence.)。
本文发布于:2024-01-29 04:29:55,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170647380012705.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |