基于音频内容的篮球比赛精彩镜头检测

阅读: 评论:0

2024年10月12日发(作者:)

基于音频内容的篮球比赛精彩镜头检测

文章编号:1002—8692(2010)1 1-0090—04 

基于音频内容的篮球比赛精彩镜头检测带・实用设计・ 

曾春艳,窦维蓓 

(清华大学信息科学与技术国家实验室;清华大学电子工程系.北京100084) 

【摘 要】提出了基于音频内容的篮球比赛精彩镜头检测系统。由音频关键词检测和精彩镜头检测2个子系统组成 第1个子系 

统采用二叉树结构的多级支持向量机(SVM)分类器及SEFC—FDR方法检测5个关键词。第2个子系统提出事件的二级转换模型。 

对3场总时长约319 rain的NBA比赛进行测试,得分的平均准确率和回检率分别为64.89%和86.21%,犯规分别为64.60%和 

66.86%。 

【关键词】音频关键词;精彩镜头检测;SVM;二级转换模型 

【中图分类号】TN911.72 【文献标识码】A 

Highlight Detection in Basketball Video Based on Audio Content 

ZENG Chun—yah DOU Wei—bei 

(Tsinghua National Laboratoryfor Information Science and Technolog);Department ofElectronic En昏neering Tsinghua University,Bering 100084,China) 

【Abstract】In this paper,a highlight detection system based on audio content is proposed for basketball games.It includes two 

subsystems,audio key words detection and highlight event detection.Five audio key words are detected in the first subsystem.A multi— 

stage Support Vector Machine(SVM) classiifer with binary tree structure is combined with Simple Excellent Feature Combination 

method and Fisher S Discriminate Ratio(SEFC—FDR)to construct the first subsystem.In the second subsystem,a two—stage transition 

model of events is proposed.There are three NBA games about 319 minutes used to evaluate the proposed system.The testing results 

show that the average detection accuracy and recall rate for score event is 64.89%and 86.21%,respectively;and then for foul event is 

4.660%and 66.86%,respectively. 

【Key words】audio keywords;highlight detection;SVM;two—stage transition model 

1 引言 

篮球比赛深受大众的喜爱,对篮球比赛事件的检 

测具有重要的意义和广泛的应用前景。例如,点播业 

96.1%和94.5%-96.1%。 

已有的这些篮球比赛事件检测方法仍存在一些不 

足。Nepal提出的时域统计模型只采用少量的音视频信 

息,因此得到事件的准确率和回检率并不高。Xu和¨u 

采用了更多的音视频信息.因而准确率和回检率都有 

务、体育研究及视频编辑。 

目前.关于篮球比赛事件检测已取得了一些研究 

成果。Nepal等人…通过检测音频关键词(欢呼声)和视 

频关键词(得分板显示和镜头方向切换),并采用统计 

时域模型联合音视频关键词检测得分事件,得分的准 

了较大的提高。但Xu在音频关键词检测中采用的关键 

词样本序列时长为2 h,而事件检测中采用的测试序列只 

有80 min。Liu的音频关键词样本序列时长也有40 min, 

但未给出事件检测中测试序列时长.检测结果也只有 

确率为64.51%~88.23%,回检率为59.16%~88.23%。Xu 

等人『2_31通过检测音频关键词(短管哨声、篮球撞击篮板 

或者篮筐的声音、激烈的欢呼声和解说声及平和的欢 

组实验数据。Nepal虽没给 音频关键词样本序列时 

长,但其事件检测的实验数据有4组。同时,这些事件 

呼声和解说声)和视频关键词(罚球、扣篮、特写场景和 

全景),并联合音视频关键词检测5个事件(跳球、犯规、 

检测系统都是基于音视频关键词联合检测方案,如图 

1a所示。该方法的弱点在于系统的决策必须综合音视 

频关键词,两者缺一不可。笔者采用图1b所示的方案。 

该方案在只有音频关键词或只有视频关键词时都可做 

决策,在音视频关键词都有时则可获得更高的检测性 

能。因此,较图1a的方案更为灵活。 

罚球、投篮和得分),事件的准确率和回检率范围分别 

为88-37%~100%和93.75%~100%。Liu等人l I通过检测 

音频关键词(短管哨声、激烈的欢呼声和解说声及平和 

的欢呼声和解说声)和视频关键词(快攻、慢攻、罚球、 

特写场景和全景),并联合音视频关键词检测事件(犯 

基于以上分析,提出从2个方面解决现存的问题。 

是挖掘更多的音频信息,包括更多有益事件检测的 

规和投篮)。事件的准确率和回检率范围分别为89.15% 

女国家自然科学基金重点项目(60832002);中法先进研究计划(PRA

S104

02) 

电视技 磊 酉 

I音频I I视频I 

}关键词 I关键词I 

一 

蕊丽 

I检测事件I 

④ 

(a) ’ (b) 

图1 事件检测方案 

音频关键词并挖掘音频关键词之间的隐含关系,另一 

方面.采用图1b所示的方案,提高系统的灵活性。 

2 系统结构设计 

篮球比赛是一种结构性很强的体育比赛,其中包含 

很多音频信息。音频关键词是音频特征与精彩镜头之间 

的桥梁,包含人类可以理解的语义信息,也是机器可以 

通过训练得以识别的特征,因此也称为中级音频特征。 

通过分析NBA比赛视频.提出5类音频关键词。包括球 

鞋摩擦地板的声音(摩擦声)、背景噪声、欢呼声、长管哨 

声和短管哨声。这5类音频关键词与篮球比赛中的主要 

事件存在紧密的联系。进攻过程中常常伴随着摩擦声; 

背景噪声是指不包含音乐声、且无比赛事件发生时的场 

内声,一般出现在犯规和罚球之间:观众发出的欢呼声 

则一般出现在运动员得分或偷袭成功时;裁判吹长管哨 

声以示本节比赛结束:短管哨声响起则表示发球、犯规 

或者暂停。因此,检测5类音频关键词非常必要。同时, 

根据观赏性和体育分析性需求,系统定义了得分和犯规 

2个事件作为精彩镜头。 

设计系统结构如图2所示.主要包括2个子系统: 

音频关键词检测和精彩镜头检测,同时还可回放精彩镜 

头。该系统具有以下几个特点:它是一个完整的基于音 

频内容的精彩镜头检测系统,可独立做决策:挖掘了更 

多的音频关键词,如摩擦声、长管哨声等,并利用音频关 

键词之问的隐含关系;能方便地与视频检测系统融合以 

提高系统性能 

3 音频关键词检测 

在音频关键词检测子系统中需检测5类音频关键 

词,即摩擦声、背景噪声、欢呼声、长管哨声和短管哨声。 

下面通过分析各个关键词的时频特性和各类音频特征 

及特征选择方法,介绍关键词的检测方法 

3.1音频特征分析与选择 

在所有5类关键词中,短管哨声的特征非常明显,如 

I ̄deo app;!e.t!o. 一i.一 'o~je…e…t二 

音频流 

——

音频关健闻 

一 检测 

图2 系统结构设计框图 

图3a所示 短管哨声在3.3~4.4 kHz子带内包含3~4个 

能量峰 因此,首先采用子带能量峰指数(Sub Band En— 

ergy Peak Index,SBEPI)检出短管哨声。而长管哨声的特 

点是在全频带内包含多个谐波分量,如图3b所示。欢呼 

声相对于摩擦声和背景噪声的特点是:欢呼声的能量在整 

个频带内分布都较高.且呈现先增加再减小的趋势,如图 

3c所示。摩擦声的频谱分布则呈现波动趋势.如图3d所 

示。背景噪声的能量则相对较低,频谱分布类似于噪声。 

在众多音频特征【 I类别中,梅尔频率倒谱系数(Mel 

Frequency Cepstral Coefifcient.MFCC)考虑到人耳的听 

觉特性 1,线性预测系数(Linear Predication Coeffi cient. 

LPC)对含有较大谐波成分的信号具有良好的建模性 

能,线性预测熵(LPC Entropy,LPCE)则刻呵了I PC分 

布的随机程度,小波系数(Wavelet)是对信号的一种分 

解,可以利用这些系数获得子带能量及子带能量差等特 

征来描述信号能量的分布差异。 

结合上述关于关键词和各类音频特征的分析,采J}fj 

SBEPI,MFCC,LPC,LPCE和Wavelet 5类音频特征用于 

关键词的检测。其中,SBEPI特征维度为2,MFCC特征 

维度取为12,LPC的阶数为10,Wavelet采用daubechies 

小波基函数,分解级数为5,短时小波特征}{{信号的能 

量和第2,3,4各子带与第1子带的能量差组成..在特征 

提取过程中,信号的采样率为22.05 kHz,短时帧长为 

20 ms,步长为10 ms,长时帧长为1 S.长时帧帧间无重 

叠。长时特征为一个长时帧内所有短时特征的均值、方 

差和中值,得到所有音频特征的组合共87维。但实际不 

可能把所有特征都用于关键词的检测,[大1此必须采用特 

征选择算法选出最好的特征组合 

笔者采用简单最优特征组合法l7](Simple Excellent 

Feature Combination,SEFC),同时考虑费舍尔鉴别熵l 8l 

(Fisher S Diseriminant Ratio,FDR)能很好地反映不同类 

别的差异,因此选择FDR作为距离度量准则.其定义为 

/(d): 衅 

Orld q-O'2d 

N0.11 Vo1.342010(Sum No.3491 ̄,WDSOENGIN ̄:UNG 91 

加 H m 8 6 4

的SVM分类器都是一个两类的SVM『9】分类器。在第1 

级.采用SBEPI短时特征和MFCC短时特征检测出短 

管哨声,在第2,3,4级结合MFCC,LPC,LPCE和Wavelet 

4类音频特征以及SEFC—FDR方法依次检出长管哨声、 

0 l 2 3 4 5 6 7 8 9 lO 

频率/kHz 

(a)短管哨声 

魁 

O 2 4 6 8 lO 

频率/kHz 

赳 

鞋 

O 2 4 6 8 10 

频率/kHz 

(c)欢呼声 

魁 

馨 

频军/kHz 

(d)摩擦声 

图3 各类关键词频谱图 

式中:d为特征的维数标签, 。d, , 和 分别为第 

1类和第2类样本第d维特征的均值和标准方差。 d) 

越大,则该维特征越利于这2类样本的区分。 

3.2关键词检测 

基于3.1节的分析,设计了一个二叉树结构的多级 

SVM分类器检测5类音频关键词(如图4所示)。每级 

唾视技荫 0年第 卷第11期(总第349期) 

欢呼声、摩擦声和背景噪声。各级的决策窗长均为1 s。 

音频流 

, 

lSVM分类器1I 

————≮ 

其他 短管哨声 

壅 ’ 

摩擦声、背景噪声和欢呼声 长管哨声 

lSVM分类器3I 

——— 

摩擦声和背景噪声欢呼声 

+ 

lSVM分类器4I 

了7_—— 

; 

= 

, 

摩擦声 背景噪声 

图4音频关键词检测结构圈 

4 精彩镜头检测 

篮球比赛通常由4节组成,每节比赛中主要包含 

发球、进攻、犯规、罚球、得分和暂停等事件。而发球和 

暂停事件并不是非常关注的,因此主要分析进攻、犯规、 

罚球和得分4个事件的转换关系及其与前面检测出的5 

类音频关键词之间的关系。通过统计分析多场NBA比 

赛视频,采用如图5所示的事件的二级转换模型检测得 

分和犯规2个精彩镜头。在第1级中,采用有限状态机 

(Finite State Machine.FSM)方法检测进攻、犯规和罚球 

3个事件,在第2级中再结合欢呼声得到得分镜头,即 

将包含欢呼声的进攻事件和罚球事件作为得分事件。 

摩擦声或 

或 

欢呼声 

吉 

图5事件的二级转换模型 

5 实验结果分析 

为了验证系统的性能,首先从比赛Thu一1中截取 

关键词序列作为关键词检测所需的训练样本(如表1 

所示),再对3场NBA比赛(4个视频序列)进行测试, 

实验结果如表2所示。表3为Nepal得到的事件检测实 

验结果。因本实验与Nepal的实验采用的测试序列不 

同,笔者将各自的测试序列时长分别标记在表2和表3 

中 准确率和回检率定义为 

I 。 IJ=i 

表1 音频关键词训练序列 

 p'rojeet一 

比赛编号及时长 得分 犯规 

图6精彩镜头回放(截图) 

此,是否可以挖掘到与犯规相关的其他音频信息以提 

高其检测结果还有待分析。另外,本系统只完成了图lb 

方案中的一部分.还需建立一个基于视频内容的篮球 

比赛事件检测系统,将其与本系统融合提高系统性能。 

比赛编号及时长 

准确率 

得分 

回检率 

参考文献: 

[1】NEPAL S,SRINIVASAN U,REYNOLDS G.Automatic detection of 

“Goal”segments in basketball videos[CY/Proc.9th ACM International 

Conference on Multimedia.Ottawa,Canada:[s.n.],2001:261-569. 

[2]XU Min,DUAN Lingyu,XU Changsheng,et a1.Event detection in 

basketball video using multiple modalities【EB/OL].[2010—05—3 1]. 

f准确率: 至{2J; 茎 

l回检率= 甏 

× 00%

× O0% 

… 

blip://citeseerx.ist.psu.edtt/viewdoe/download?doi=lO.1.1.62.4842&rep 

=rep1&type=pdf. 

【3]XU Min,XU Changsheng,DUAN Lingyu,et a1.Audio keywords 

generation for sports video analysis【J].ACM Trans.Multimedia 

Computing,Communication and Applications,2008,4(2):1—23. 

如表2所示,本系统得分的平均准确率和回检率分 

别为64.89%和86.21%.犯规分别为64.60%和66.86%。 

比较表2和表3,本系统比Nepal系统得分事件的 

[4】LIU Song,XU Min,YI Haoren,et a1.Muhimodal semantic ananlysis 

and annotation for basketball video[EB/O L].[2010-06-01].http:// 

porta1.acm.org/citation.efm?id=1288263.1288425. 

最低和最高准确率低5.71%和19.94%,但本系统得分 

事件的最低和最高回检率要高16.02%和6.14%。因而, 

【5]张斌,窦维蓓.基于音频内容的体育节目精彩镜头检索[D].北京: 

清华大学,2o07. 

【6 张海越,杨庆涛.6]关键词识别在媒体资产管理中的应用Ⅲ.电声技 

术,2o08,32(3):59—60. 

从实验结果来看,两系统得分的检测结果相当.同时本 

系统还可检测犯规事件。从系统利用的信息来看,只用 

到了音频信息,而Nepal采用了音视频联合信息。将本 

系统与视频检测系统融合可获得更好的检测性能。另 

[7】边肇祺,张学工.模式识别【M].2版.北京:清华大学出版社,2000. 

[8]XIAO Zhongzhe,DELLANDREA E,DOU Weibei,et a1.Features 

extraction and selection for emotional speech classiifcation[C]//Proe. 

IEEE Conference on Advanced Video and Signal Based Surveillance. 

Ecully,France:IEEE Press,2005:411-416. 

外,本系统还提供了一个精彩镜头回放界面㈣(见图6)。 

用户可以选择观看比赛中的犯规或得分镜头。 

6 小结 

笔者提出的篮球比赛检测系统只需要音频信息即 

可检测得分和犯规2个精彩镜头,且得分的回检率较 

高,平均值为86.21%。可被应用于点播业务、体育研 

究、视频编辑等场合。 

[9]HSU C W,CHANG C C,LIN c J.A practical guide to support vector 

classiifcation.[EB/OL].[2010-06-01].http://eiteseerx.ist.psu.edu/ 

viewdoc/download?doi=10.1.1.6.3096&rep=rep1&type=pdf.http:// 

WWW.csie.ntu.edu.tw/ ̄cjlin【accessed at June 20091. 

[10]GUIqq'ON S.Software for showing extracts of sports videos based 

on highlights detection algorithm[R].Beijing:Tsinghua University, 

20o5. 

但是,本系统对于犯规的检测结果不理想.可能原 

因在于只考虑了短管哨声与犯规的紧密关系.而当短 

管哨声被其他声音淹没时相应的犯规也会被漏检。因 

责任编辑:丁 雪 收稿日期:2010—06—20 

No.11 Vo1.342010(Sum No.349)\VIDBoBtGINEBtlltG 93 

基于音频内容的篮球比赛精彩镜头检测

本文发布于:2024-10-12 03:10:07,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/1728673807464902.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:检测   关键词   音频   事件
留言与评论(共有 0 条评论)
   
验证码:
排行榜

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23