学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
回溯正向匹配中文分词算法
被引:13
作者
:
张劲松
论文数:
0
引用数:
0
h-index:
0
机构:
上海理工大学计算机与电气工程学院
张劲松
论文数:
引用数:
h-index:
机构:
袁健
机构
:
[1]
上海理工大学计算机与电气工程学院
来源
:
计算机工程与应用
|
2009年
/ 22期
关键词
:
中文分词;
最大匹配法;
回溯匹配;
交集型歧义;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
在最大匹配法(The Maximum Matching Method)的基础上,提出了一种回溯正向匹配(The Backtracking Matching Method)的中文分词方法。该方法首先对待切文本进行预处理,将文本分割成长度较短的细粒度文本;利用正向匹配、回溯匹配和尾词匹配来有效发现歧义字段;利用长词优先兼顾2词簇的方式对交集型歧义字段进行切分。最后对该算法进行的定性分析说明了该方法的先进性,从随机抽取大量语料实验结果上证明了该方法的有效性。
引用
收藏
页码:132 / 134
页数:3
相关论文
共 9 条
[1]
基于反序词典的中文分词技术研究
[J].
论文数:
引用数:
h-index:
机构:
罗桂琼
;
费洪晓
论文数:
0
引用数:
0
h-index:
0
机构:
中南大学信息科学与工程学院
费洪晓
;
论文数:
引用数:
h-index:
机构:
戴弋
.
计算机技术与发展,
2008,
(01)
:80
-83
[2]
Web新闻语料分词和标注错误分析
[J].
论文数:
引用数:
h-index:
机构:
张永奎
;
论文数:
引用数:
h-index:
机构:
张彦
;
安增波
论文数:
0
引用数:
0
h-index:
0
机构:
中国人民解放军部队自动化工作站
山西大学计算机与信息技术学院
安增波
;
论文数:
引用数:
h-index:
机构:
刘睿
.
计算机工程与应用,
2007,
(15)
:166
-169
[3]
具有三级索引词库结构的中文分词方法研究
[J].
肖红
论文数:
0
引用数:
0
h-index:
0
机构:
大庆石油学院计算机科学系
肖红
;
许少华
论文数:
0
引用数:
0
h-index:
0
机构:
大庆石油学院计算机科学系
许少华
;
李欣
论文数:
0
引用数:
0
h-index:
0
机构:
大庆石油学院计算机科学系
李欣
.
计算机应用研究,
2006,
(08)
:49
-51
[4]
现代汉语通用分词系统中歧义切分的实用技术
[J].
论文数:
引用数:
h-index:
机构:
罗智勇
;
论文数:
引用数:
h-index:
机构:
宋柔
.
计算机研究与发展,
2006,
(06)
:1122
-1128
[5]
基于无指导学习策略的无词表条件下的汉语自动分词
[J].
论文数:
引用数:
h-index:
机构:
孙茂松
;
肖明
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学智能技术与系统国家重点实验室
肖明
;
邹嘉彦
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学智能技术与系统国家重点实验室
邹嘉彦
.
计算机学报,
2004,
(06)
:736
-742
[6]
交集型歧义字段切分方法研究
[J].
闫引堂
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学!太原
闫引堂
;
周晓强
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学!太原
周晓强
.
情报学报,
2000,
(06)
:637
-643
[7]
利用汉字二元语法关系解决汉语自动分词中的交集型歧义
[J].
孙茂松
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
孙茂松
;
论文数:
引用数:
h-index:
机构:
黄昌宁
;
邹嘉彦
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
邹嘉彦
;
陆方
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
陆方
;
沈达阳
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
沈达阳
.
计算机研究与发展 ,
1997,
(05)
:14
-21
[8]
论汉语自动分词方法
[J].
揭春雨
论文数:
0
引用数:
0
h-index:
0
揭春雨
;
刘源
论文数:
0
引用数:
0
h-index:
0
刘源
;
梁南元
论文数:
0
引用数:
0
h-index:
0
梁南元
.
中文信息学报,
1989,
(01)
:1
-9
[9]
知识发现[M]. 清华大学出版社 , 史忠植著, 2002
←
1
→
共 9 条
[1]
基于反序词典的中文分词技术研究
[J].
论文数:
引用数:
h-index:
机构:
罗桂琼
;
费洪晓
论文数:
0
引用数:
0
h-index:
0
机构:
中南大学信息科学与工程学院
费洪晓
;
论文数:
引用数:
h-index:
机构:
戴弋
.
计算机技术与发展,
2008,
(01)
:80
-83
[2]
Web新闻语料分词和标注错误分析
[J].
论文数:
引用数:
h-index:
机构:
张永奎
;
论文数:
引用数:
h-index:
机构:
张彦
;
安增波
论文数:
0
引用数:
0
h-index:
0
机构:
中国人民解放军部队自动化工作站
山西大学计算机与信息技术学院
安增波
;
论文数:
引用数:
h-index:
机构:
刘睿
.
计算机工程与应用,
2007,
(15)
:166
-169
[3]
具有三级索引词库结构的中文分词方法研究
[J].
肖红
论文数:
0
引用数:
0
h-index:
0
机构:
大庆石油学院计算机科学系
肖红
;
许少华
论文数:
0
引用数:
0
h-index:
0
机构:
大庆石油学院计算机科学系
许少华
;
李欣
论文数:
0
引用数:
0
h-index:
0
机构:
大庆石油学院计算机科学系
李欣
.
计算机应用研究,
2006,
(08)
:49
-51
[4]
现代汉语通用分词系统中歧义切分的实用技术
[J].
论文数:
引用数:
h-index:
机构:
罗智勇
;
论文数:
引用数:
h-index:
机构:
宋柔
.
计算机研究与发展,
2006,
(06)
:1122
-1128
[5]
基于无指导学习策略的无词表条件下的汉语自动分词
[J].
论文数:
引用数:
h-index:
机构:
孙茂松
;
肖明
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学智能技术与系统国家重点实验室
肖明
;
邹嘉彦
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学智能技术与系统国家重点实验室
邹嘉彦
.
计算机学报,
2004,
(06)
:736
-742
[6]
交集型歧义字段切分方法研究
[J].
闫引堂
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学!太原
闫引堂
;
周晓强
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学!太原
周晓强
.
情报学报,
2000,
(06)
:637
-643
[7]
利用汉字二元语法关系解决汉语自动分词中的交集型歧义
[J].
孙茂松
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
孙茂松
;
论文数:
引用数:
h-index:
机构:
黄昌宁
;
邹嘉彦
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
邹嘉彦
;
陆方
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
陆方
;
沈达阳
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
沈达阳
.
计算机研究与发展 ,
1997,
(05)
:14
-21
[8]
论汉语自动分词方法
[J].
揭春雨
论文数:
0
引用数:
0
h-index:
0
揭春雨
;
刘源
论文数:
0
引用数:
0
h-index:
0
刘源
;
梁南元
论文数:
0
引用数:
0
h-index:
0
梁南元
.
中文信息学报,
1989,
(01)
:1
-9
[9]
知识发现[M]. 清华大学出版社 , 史忠植著, 2002
←
1
→