情感语料库的构建和分析

被引:108
作者
徐琳宏
林鸿飞
赵晶
机构
[1] 大连理工大学计算机科学与工程系
基金
教育部留学回国人员科研启动基金;
关键词
计算机应用; 中文信息处理; 情感语料库; 文本编码规范; 一致性检查; 情感迁移;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
本文介绍了情感语料库构建方面的一些经验,讨论了在设计和建设情感语料库中的几个基本问题:制定标注规范、选择标注集、设计标注工具以及标注过程中的质量监控。目前已经标注完成近4万句,100万字的语料。在完成这些已标注语料的基础上,进一步给出了语料库的情感分布,情感迁移规律等统计数据,分析了情感语料库的特点及应用。它的建成将为文本情感计算提供更加强大的资源支持。
引用
收藏
页码:116 / 122
页数:7
相关论文
共 7 条
[1]   基于语义理解的文本倾向性识别机制 [J].
徐琳宏 ;
林鸿飞 ;
杨志豪 .
中文信息学报, 2007, (01) :96-100
[2]   关于大规模真实文本语料库的几点理论思考 [J].
张普 .
语言文字应用, 1999, (01) :35-44
[3]   香港的语料库和相关研究概况 [J].
胡百华 ;
李行德 ;
汤志祥 .
语言文字应用, 1997, (02) :51-56
[4]   现代汉语语料库研制 [J].
刘连元 .
语言文字应用, 1996, (03) :3-9+114
[5]   面向语料库标注的汉语依存体系的探讨 [J].
周明,黄昌宁 .
中文信息学报, 1994, (03) :35-52
[6]  
统计自然语言处理基础[M]. 电子工业出版社 , (美)ChristopherD.Manning, 2005
[7]  
http://www.sinica.edu.tw/SinicaCorpus .