主题词是计算机自动提取,网络文本主题词的提取与组织研究

阅读: 评论:0

主题词是计算机自动提取,网络文本主题词的提取与组织研究

主题词是计算机自动提取,网络文本主题词的提取与组织研究

第 22 卷  第 3 期 中文信息学报 Vol . 22 , No . 3

2008 年 5 月 J OU RN AL O F C H IN ESE IN FO RMA T ION PROCESSIN G May , 2008

文章编号 : (2008)

网络文本主题词的提取与组织研究

1 ,2 1 1

曾依灵 , 许洪波 , 白 硕

( 1. 中国科学院 计算技术研究所 智能软件部 北京 100 190 ;

2 . 中国科学院 研究生院 北京 100 190)

摘  要 : 网络信息的指数爆炸给人们获取与掌控信息带来了困扰 ,为了挖掘海量信息中的关键因子并以恰当的方

式进行组织 ,本文设计了网络文本主题词提取和组织算法 。该算法基于多级滤噪的切分词拼接 ,利用特定的噪音

库与滤噪策略严格控制拼接过程 ,在合理收录策略的挑选下 ,算法提取出了能够准确反映海量网络数据中关键因

子的主题词串。为清晰地组织主题词 ,建立主题词与网络事件的有机联系 ,设计了新的词聚类策略对主题词提取

结果进行处理 ,使表达同一热点的主题词合理地组织在一起 ,共同描述同一事件 。在以实际网络文本为语料的实

验中 ,算法表现出令人满意的性能 。

关键词 : 计算机应用 ; 中文信息处理 ;主题词提取 ;未登录词识别 ;切分词拼接 ;主题词聚类

中图分类号 : TP39 1     文献标识码 : A

Research on the Extraction and Organization of Key Phrases in Web Texts

ZEN G Yiling1 ,2 ,XU Hongbo 1 , BA I Shuo 1

( 1. Dep art ment of Int elligent Software , In stit ut e of Comp uting Technology ,

Chinese Academy of Sciences , Beij ing 100 190 , China ;

2 . Graduat e U niver sit y of Chinese Academy of Sciences , Beij ing 100 190 , China)

Abstract : The exponential explo sion of Int ernet information comp licat es human access to t ho se u seful information .

To det ect t he mo st import ant a sp ect s of t he va st information and manage t he it accor dingly , a key p hrase ext raction

algorit hm i s p ropo sed on t he ba si s of a multilevel segment ed wor d concat enation . Support ed by a cu stomized noi se

library and filt ering st rat egies , t he algorit hm i s cap

本文发布于:2024-02-04 06:07:29,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170700666452946.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:主题词   文本   组织   计算机   网络
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23