基于词汇链的中文新闻网页关键词抽取方法

被引:22
作者
胡学钢 [1 ]
李星华 [1 ]
谢飞 [1 ,2 ]
吴信东 [1 ,3 ]
机构
[1] 合肥工业大学计算机与信息学院
[2] 合肥师范学院计算机科学与技术系
[3] Department of Computer Science,University of Vermont
关键词
词汇链; 关键词抽取; 歧义消解; 语义相似度;
D O I
10.16451/j.cnki.issn1003-6059.2010.01.019
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
词汇链是一种词语间语义关系引起的连贯性的外在表现,提供关于文本结构和主题的重要线索.文中在解决歧义消解问题的基础上提出利用词汇链,结合词频特征、位置特征和集聚特征抽取中文新闻网页关键词的方法.该方法根据词语在文档中语义联系将文档表示成词汇链形式,并在此基础上抽取关键词.对中文新闻网页和学术期刊文献两种语料进行实验,结果表明该方法可明显提高抽取的关键词质量.
引用
收藏
页码:45 / 51
页数:7
相关论文
共 10 条
[1]   一种基于复杂网络特征的中文文档关键词抽取算法 [J].
赵鹏 ;
蔡庆生 ;
王清毅 ;
耿焕同 .
模式识别与人工智能, 2007, 20 (06) :827-831
[2]   Keyword Extraction Based on tf/idf for Chinese News Document [J].
LI JuanziFAN QinaZHANG Kuo Department of Computer Science and TechnologyTsinghua UniversityBeijing China .
Wuhan University Journal of Natural Sciences, 2007, (05) :917-921
[3]   AUTOMATIC TEXT SUMMARIZATION BASED ON TEXTUAL COHESION [J].
Chen Yanmin Liu Bingquan Wang Xiaolong Dept of Computer Science and EngineeringHarbin Institute of TechnologyHarbin China .
Journal of Electronics(China), 2007, (03) :338-346
[4]   一种基于词汇链的关键词抽取方法 [J].
索红光 ;
刘玉树 ;
曹淑英 .
中文信息学报, 2006, (06) :25-30
[5]   基于机器学习的文本分类技术研究进展 [J].
苏金树 ;
张博锋 ;
徐昕 .
软件学报, 2006, (09) :1848-1859
[6]   关键词自动标引的最大熵模型应用研究 [J].
李素建 ;
王厚峰 ;
俞士汶 ;
辛乘胜 .
计算机学报, 2004, (09) :1192-1197
[7]   一种基于字同现频率的汉语文本主题抽取方法 [J].
马颖华 ;
王永成 ;
苏贵洋 ;
张宇萌 .
计算机研究与发展, 2003, (06) :874-878
[8]   Using lexical chains for keyword extraction [J].
Ercan, Gonenc ;
Cicekli, Ilyas .
INFORMATION PROCESSING & MANAGEMENT, 2007, 43 (06) :1705-1714
[9]   Learning algorithms for keyphrase extraction [J].
Turney P.D. .
Information Retrieval, 2000, 2 (4) :303-336
[10]  
Domain Specific KeyphraseExtraction .2 Frank E,Paynter G W,Witten IH. Proc of the 16th International Joint Conference onArtificial Intelligence . 1999