具有明显层次结构,声学模型–词典–语言模型–解码器,70%性能都是由声学模型决定。
声学模型:从声音片段到发音单元的映射。具有实现HMM-GMM声学模型表示方法;混合高斯模型根据不同权重混合可以近似任何模型;
2010-至今,和深度学习联姻:一是硬件设施发展提供了基础,二是互联网音频数据越来越多,三是深度学习在语音识别上的应用。
DNN比GMM性能提高了20%,TDNN上下文,LSTM提高相对15%,
2017年nlp出现上下文建模Transformer模型,比LSTM再次提高10%,本质原因是引入注意力机制
门槛低、需要数据量大
CTC、LAS、RNN-T
encode-decode,输入第一字预测第二字,第二个字的embedding和前面的embedding一起预测
Hybrid 系统使用灵活,拟合力弱
端到端数据拟合力强,灵活度低
腾讯自主研发语音技术品牌
专注于语音识别,语音合成,声纹认证等语音人工智能技术的研发
一天请求量30亿次
C端
本文发布于:2024-01-28 11:34:15,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/17064128637124.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |