基于粗集理论的中文关键词短语构成规则挖掘

被引:17
作者
刘远超
王晓龙
徐志明
刘秉权
机构
[1] 哈尔滨工业大学计算机科学与技术学院
关键词
抽取; 关键词短语; 粗集理论; 规则挖掘;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
短语比词信息量更加丰富,更能够体现原文的主题,通常所说的关键词实际上多数为短语形式.然而目前的问题是关键词短语的自动标引缺乏统一的规则指导.本文利用粗集理论在数据泛化和知识约简方面的优势,对人工标注的人民日报关键词短语语料进行了挖掘,从而得到了中文关键词短语的若干构成规则.规则可以用于自动关键词抽取,也可以对手工关键词标引进行指导.实验结果表明获取的规则使关键词自动抽取的性能有较大改善.
引用
收藏
页码:371 / 374
页数:4
相关论文
共 6 条
[1]   统计词义消歧的研究进展 [J].
卢志茂 ;
刘挺 ;
李生 .
电子学报, 2006, (02) :333-343
[2]   关键词自动标引的最大熵模型应用研究 [J].
李素建 ;
王厚峰 ;
俞士汶 ;
辛乘胜 .
计算机学报, 2004, (09) :1192-1197
[3]   中文全文标引的主题词标引和主题概念标引方法 [J].
韩客松 ;
王永成 .
情报学报, 2001, (02) :212-216
[4]  
计算机自然语言处理[M]. 清华大学出版社 , 王晓龙, 2005
[5]   ROUGH SETS [J].
PAWLAK, Z .
INTERNATIONAL JOURNAL OF COMPUTER & INFORMATION SCIENCES, 1982, 11 (05) :341-356
[6]  
Rough set theory library .2 Michal,Jacek. http://www.pw.edu.pl/english . 1994