中文分词算法在搜索引擎应用中的研究

被引:21
作者
欧振猛
余顺争
机构
[1] 中山大学电子系!广州
关键词
搜索引擎; 中文自动分词; 匹配; 马尔可夫过程;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
在Internet高速发展的信息时代,搜索引擎是人们获得有效信息的强有力手段之一。中文搜索引擎的重点在于中文关键信息提取,其中的难点就是中文自动分词。该文重点讨论中文自动分词算法。算法采用基于自动建立词库的最佳匹配方法来进行中文分词,同时采用基于改进型马尔可夫N元语言模型的统计处理方法来处理分词中出现的歧义问题,从而提高精度。
引用
收藏
页码:80 / 82+84 +84
页数:4
相关论文
共 3 条
[1]   汉语统计语言模型的N值分析 [J].
张树武 ;
黄泰翼 .
中文信息学报, 1998, (01) :36-42
[2]  
自然语言的计算机处理.[M].冯志伟著;.上海外语教育出版社.1996,
[3]  
信息论基础.[M].傅祖芸编;.电子工业出版社.1989,