文本挖掘中的中文分词算法研究及实现

被引：16

作者：

许高建 ^{[1
]}

胡学钢 ^{[2
]}

王庆人 ^{[1
]}

机构：

[1] 安徽农业大学信息与计算机学院

[2] 合肥工业大学计算机与信息学院

来源：

计算机技术与发展 | 2007年 / 12期

关键词：

中文分词; 歧义消除; 最大匹配; 词语优化;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

文本挖掘是指使用数据挖掘技术,自动地从文本数据中发现和提取独立于用户信息需求的文档集中的隐含知识。而中文文本数据的获得是依靠中文信息处理技术来进行的,因而自动分词成为中文信息处理中的基础课题。对于海量信息处理的应用,分词的速度是极为重要的,对整个系统的效率有很大的影响。分析了几种常见的分词方法,设计了一个基于正向最大匹配法的中文自动分词系统。为了提高分词的精度,对加强歧义消除和词语优化的算法进行了研究处理。

引用

页码：122 / 124+172 +172

页数：4

共 5 条

[1] 汉语自然语言检索中的词法分析处理 [J].