汉语句法树库标注体系

被引:90
作者
周强
机构
[1] 清华大学计算机系智能技术与系统国家重点实验室 北京
关键词
计算机应用; 中文信息处理; 句法树库; 标注规范; 语料库语言学;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
语料库的句法标注是语料库语言学研究的前沿课题。本文在研究和总结国内外句法树库标注实践的基础上 ,提出了一套汉语真实文本的句法树标注体系。它以完整的层次结构树为基础 ,对句法树上的每个非终结符节点都给出两个标记 :成分标记和关系标记 ,形成双标记集的句法信息描述体系。目前 ,这两个标记集分别包含了 1 6和 2 7个标记 ,对汉语句子的不同句法组合的外部功能分布和内部组合特点进行了详细描述。在此基础上 ,我们开发完成了 1 0 0万词规模的汉语句法树库TCT ,对其中各种复杂语言现象的标注实践显示了这套标注体系具有很好的信息覆盖率和语料适应性
引用
收藏
页码:1 / 8
页数:8
相关论文
共 4 条
[1]   概念结构与非自主性语法:汉语语法概念系统初探 [J].
戴浩一 .
当代语言学, 2002, (01) :1-12+77
[2]   汉语树库的构建 [J].
周强 ;
张伟 ;
俞士汶 .
中文信息学报, 1997, (04) :43-52
[3]  
汉语句法知识的自动获取研究[A]. 周强.辉煌二十年——中国中文信息学会二十周年学术会议论文集[C]. 2001
[4]  
语言计算与基于内容的文本处理[M]. 清华大学出版社 , 孙茂松, 2003