基于图模型的中文文档分类研究

被引:3
作者
邹加棋
陈国龙
郭文忠
机构
[1] 福州大学数学与计算机科学学院
关键词
文本分类; 图模型; 相似性; 向量空间模型;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
信息处理领域中,现有的各种文本分类算法大都基于向量空间模型,而向量空间模型却不能够有效地表达文档的结构信息,从而使得它还不能充分地表达文档的语义信息.为了更有效地表达文档的语义信息,本文首先提出了一种新的文档表示模型—图模型,即通过带权标号图表达文档的特征词条及其位置关联信息,在此基础上本文继而提出了一种新的文档相似性度量标准,并用于中文文本的分类.实验结果表明,基于图模型的这种文档表示方式是有效的和可行的.
引用
收藏
页码:754 / 757
页数:4
相关论文
共 5 条
[1]  
UNL:a gift for a millennium. Uchida H,Zhu M,Senta T Della. . 2000
[2]  
A vector space model for auto-matic indexing. Salton G,Wong A,Yang C S. Communications of the ACM . 1975
[3]  
Boolean query mapping across heterogeneous information sources. Chang C C,hector G M,Papcke A. IEEE Transac-tions on Knoledge and Data Engineering . 1996
[4]  
An applicable and efficient clustering algorithm. WANG Jian-hui,SHEN Zhan,HU Yun-fa. Journal of Software . 2004
[5]  
An example-based mapping method for text categorization and retrieval. Yang Y,Chute C G. ACM Transactions on Information Systems . 1994