文本挖掘中的中文分词算法研究及实现

被引:16
作者
许高建 [1 ]
胡学钢 [2 ]
王庆人 [1 ]
机构
[1] 安徽农业大学信息与计算机学院
[2] 合肥工业大学计算机与信息学院
关键词
中文分词; 歧义消除; 最大匹配; 词语优化;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
文本挖掘是指使用数据挖掘技术,自动地从文本数据中发现和提取独立于用户信息需求的文档集中的隐含知识。而中文文本数据的获得是依靠中文信息处理技术来进行的,因而自动分词成为中文信息处理中的基础课题。对于海量信息处理的应用,分词的速度是极为重要的,对整个系统的效率有很大的影响。分析了几种常见的分词方法,设计了一个基于正向最大匹配法的中文自动分词系统。为了提高分词的精度,对加强歧义消除和词语优化的算法进行了研究处理。
引用
收藏
页码:122 / 124+172 +172
页数:4
相关论文
共 5 条
[1]   汉语自然语言检索中的词法分析处理 [J].
耿骞 ;
毛瑞 .
情报科学, 2004, (04) :466-469
[2]   基于汉语句模的中文分词算法 [J].
张滨 ;
晏蒲柳 ;
李文翔 ;
夏德麟 .
计算机工程, 2004, (01) :134-135+191
[3]   全二分最大匹配快速分词算法 [J].
李振星 ;
徐泽平 ;
唐卫清 ;
唐荣锡 .
计算机工程与应用, 2002, (11) :106-109
[4]   中英文WWW搜索引擎的信息处理 [J].
蒋澄 ;
马范援 ;
蒋思杰 .
计算机工程, 1999, (04) :37-38
[5]   基于规则的汉语自动分词系统 [J].
姚天顺 ;
张桂平 ;
吴映明 ;
不详 .
中文信息学报 , 1990, (01) :37-43