基于图模型的中文文档分类研究

被引：3

作者：

邹加棋

陈国龙

郭文忠

机构：

[1] 福州大学数学与计算机科学学院

来源：

小型微型计算机系统 | 2006年 / 04期

关键词：

文本分类; 图模型; 相似性; 向量空间模型;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

信息处理领域中,现有的各种文本分类算法大都基于向量空间模型,而向量空间模型却不能够有效地表达文档的结构信息,从而使得它还不能充分地表达文档的语义信息.为了更有效地表达文档的语义信息,本文首先提出了一种新的文档表示模型—图模型,即通过带权标号图表达文档的特征词条及其位置关联信息,在此基础上本文继而提出了一种新的文档相似性度量标准,并用于中文文本的分类.实验结果表明,基于图模型的这种文档表示方式是有效的和可行的.

引用

页码：754 / 757

页数：4

共 5 条

[1]

UNL:a gift for a millennium. Uchida H,Zhu M,Senta T Della. . 2000

[2]

A vector space model for auto-matic indexing. Salton G,Wong A,Yang C S. Communications of the ACM . 1975

[3]

Boolean query mapping across heterogeneous information sources. Chang C C,hector G M,Papcke A. IEEE Transac-tions on Knoledge and Data Engineering . 1996

[4]

An applicable and efficient clustering algorithm. WANG Jian-hui,SHEN Zhan,HU Yun-fa. Journal of Software . 2004

[5]

An example-based mapping method for text categorization and retrieval. Yang Y,Chute C G. ACM Transactions on Information Systems . 1994

← 1 →