深度学习论文: A YOLO

阅读: 评论:0

深度学习论文: A YOLO

深度学习论文: A YOLO

深度学习论文: A YOLO-like Algorithm for Audio Segmentation and Sound Event Detection及其PyTorch实现
You Only Hear Once: A YOLO-like Algorithm for Audio Segmentation and Sound Event Detection
PDF: .00962.pdf
PyTorch代码:
PyTorch代码:

1 概述

常见的声音分割(audio segmentation)方法可以分为两类:

  • distance-based segmentation:通过欧氏距离或者贝叶斯信息准则,通过声音变化的波峰将声音划分为不同的片段,然后检测每个片段的声音类别。
  • segmentation-by-classification:将声音划分为10-25ms的帧,然后对帧进行分类。

You Only Hear Once (YOHO) 将声音边界的检测转化为一个基于帧的回归问题,即检测声音的类别以及它的开始和结束点。

2 You Only Hear Once (YOHO)

2-1 网络结构

YOHO的输入特征采用log-mel spectrograms,输入维数依赖于声音序列的长度和mel spectrogram的规格。这里 music-speech 检测的输入包含801 times steps 和 64 frequency bins。在每个time step,第一个神经元二分类来检测是一个声音类别的存在与否,第二和第三个神经元用来回归各自声音类别的开始和结束位置。

损失函数使用sum squared error

2-2 music-speech detection 输出示例

music-speech detection 输出 music 和 speech 两个示例,因此在每个time step有六个神经元,如长为6s的音频示例,每个输出的time step对应0.307s, 因为有26个分配。输出层的所有神经元后接sigmoid 激活函数,回归的输出归一化到0和1之间。

2-3 标签示例

音频总时长8s, 音乐出现在0.2 to 4.3 s ,讲话出现在3.6 to 6.0 s。每一行对应一个 time step,为0.307s。此外回归的值归一化到了0和1之间,因此音乐的开始位置位于 0.2s / 0.307 = 0.65,即第一行。

Post-processing
后处理主要将升级网络的输出转换为人类可读信息。
median filtering 和 threshold-dependent smoothing用于消除虚假(spurious)音频事件的发生,如特别短的声音、相同类别声音中间小的停顿(if the duration of the audio event is too short or if the silence between consecutive events of the same acoustic class is too short, we remove the occurrence.)。

3 Datasets

3-1 Music-Speech Detection

3-2 TUT Sound Event Detection

3-3 Urban-SED

3-4 Speed of Prediction

本文发布于:2024-01-29 04:29:55,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170647380012705.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:深度   论文   YOLO
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23