学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于CRF的先秦汉语分词标注一体化研究
被引:70
作者
:
论文数:
引用数:
h-index:
机构:
石民
论文数:
引用数:
h-index:
机构:
李斌
陈小荷
论文数:
0
引用数:
0
h-index:
0
机构:
南京师范大学文学院
陈小荷
机构
:
[1]
南京师范大学文学院
来源
:
中文信息学报
|
2010年
/ 02期
关键词
:
计算机应用;
中文信息处理;
先秦汉语;
分词;
词性标注;
左传;
条件随机场模型;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
该文探索了古代汉语,特别是先秦文献的词切分及词性标注。首先对《左传》文本进行了词汇处理(分词和词性标注)和考察分析,然后采用条件随机场模型(CRF),进行自动分词、词性标注、分词标注一体化的对比实验。结果表明,一体化分词比单独分词的准确率和召回率均有明显提高,开放测试的F值达到了94.60%;一体化词性标注的F值达到了89.65%,比传统的先分词后标注的"两步走"方法有明显提高。该项研究可以服务于古代汉语词汇研究和语料库建设,以弥补人工标注的不足。
引用
收藏
页码:39 / 45
页数:7
相关论文
共 5 条
[1]
一种基于字词联合解码的中文分词方法
[J].
宋彦
论文数:
0
引用数:
0
h-index:
0
机构:
沈阳航空工业学院知识工程中心
沈阳航空工业学院知识工程中心
宋彦
;
蔡东风
论文数:
0
引用数:
0
h-index:
0
机构:
沈阳航空工业学院知识工程中心
沈阳航空工业学院知识工程中心
蔡东风
;
张桂平
论文数:
0
引用数:
0
h-index:
0
机构:
沈阳航空工业学院知识工程中心
沈阳航空工业学院知识工程中心
张桂平
;
赵海
论文数:
0
引用数:
0
h-index:
0
机构:
香港城市大学中文、翻译及语言学系
沈阳航空工业学院知识工程中心
赵海
.
软件学报,
2009,
20
(09)
:2366
-2375
[2]
基于中文信息处理的古代汉语分词研究
[J].
论文数:
引用数:
h-index:
机构:
邱冰
;
论文数:
引用数:
h-index:
机构:
皇甫娟
.
微计算机信息,
2008,
(24)
:100
-102
[3]
计算机技术和汉语史研究
[J].
尉迟治平
论文数:
0
引用数:
0
h-index:
0
机构:
华中理工大学中国语言研究所!湖北武汉
尉迟治平
.
古汉语研究,
2000,
(03)
:56
-60
[4]
左传详解词典[M]. 中州古籍出版社 , 陈克炯[编], 2004
[5]
春秋左传注[M]. 中华书局 , 杨伯峻编著, 1990
←
1
→
共 5 条
[1]
一种基于字词联合解码的中文分词方法
[J].
宋彦
论文数:
0
引用数:
0
h-index:
0
机构:
沈阳航空工业学院知识工程中心
沈阳航空工业学院知识工程中心
宋彦
;
蔡东风
论文数:
0
引用数:
0
h-index:
0
机构:
沈阳航空工业学院知识工程中心
沈阳航空工业学院知识工程中心
蔡东风
;
张桂平
论文数:
0
引用数:
0
h-index:
0
机构:
沈阳航空工业学院知识工程中心
沈阳航空工业学院知识工程中心
张桂平
;
赵海
论文数:
0
引用数:
0
h-index:
0
机构:
香港城市大学中文、翻译及语言学系
沈阳航空工业学院知识工程中心
赵海
.
软件学报,
2009,
20
(09)
:2366
-2375
[2]
基于中文信息处理的古代汉语分词研究
[J].
论文数:
引用数:
h-index:
机构:
邱冰
;
论文数:
引用数:
h-index:
机构:
皇甫娟
.
微计算机信息,
2008,
(24)
:100
-102
[3]
计算机技术和汉语史研究
[J].
尉迟治平
论文数:
0
引用数:
0
h-index:
0
机构:
华中理工大学中国语言研究所!湖北武汉
尉迟治平
.
古汉语研究,
2000,
(03)
:56
-60
[4]
左传详解词典[M]. 中州古籍出版社 , 陈克炯[编], 2004
[5]
春秋左传注[M]. 中华书局 , 杨伯峻编著, 1990
←
1
→