IBM自动为新闻播报生成字幕的AI开发成功发布

阅读: 评论:0

IBM自动为新闻播报生成字幕的AI开发成功发布

IBM自动为新闻播报生成字幕的AI开发成功发布

IBM研究院发布自动为新闻播报生成字幕的研究,利用长短期记忆(LSTM)网络和声学神经网络模型,搭配辅助的语言模型,研究团队与澳洲一家语音和搜寻科技公司Appen一同合作,在两项测试实验中,语音识别系统的错误率分别为6.5%和5.9%,而人类辨识的错误率分别为 3.6%和2.8%。IBM指出,在对话式电话语音领域中,语音识别系统必须处理失真、来自多个不同电话信道的随性语音录音,还包含多种说话风格,且对话式语音还会有多个对话者重迭、中断、重新开始和重复确认的语音。

而新闻广播的语音识别任务更具挑战,因为还需要处理多人说话风格、多种背景噪音,和广泛的新闻领域内容,甚至是多种题材的混合内容,像是现场采访、电视节目的剪辑内容等。为了能够成功地辨识复杂的语音内容,为新闻播报内容生成字幕,IBM研究团队透过语音识别技术,建立了一套深度神经网络,该深度神经网络整合了长短期记忆网络和深度残差网络(residual network,ResNet),以ResNet为基础打造的声学模型是含有多达25层卷积层的深度卷积式网络,用1,300个小时、多种不同的新闻内容资料,来训练生成字幕的模型。相关AI信息来源:sbf胜博发票务 

本文发布于:2024-02-04 18:22:42,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170713557758250.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:字幕   新闻   IBM   AI
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23