基于最大熵方法的中英文基本名词短语识别

被引:60
作者
周雅倩
郭以昆
黄萱菁
吴立德
机构
[1] 复旦大学计算机科学与工程系,复旦大学计算机科学与工程系,复旦大学计算机科学与工程系,复旦大学计算机科学与工程系上海,上海,上海,上海
关键词
最大熵; 基本名词短语; 自然语言处理;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
使用了基于最大熵的方法识别中文基本名词短语 在开放语料ChineseTreeBank上 ,只使用词性标注 ,达到了平均 87 4 3% / 88 0 9%的查全率 /准确率 由于 ,关于中文的基本名词短语识别的结果没有很好的可比性 ,又使用相同的算法 ,尝试了英文的基本名词短语识别 在英文标准语料TREEBANKⅡ上 ,开放测试达到了 93 31% / 93 0 4 %的查全率/准确率 ,极为接近国际最优水平 这既证明了此算法的行之有效 ,又表明该方法的语言无关性
引用
收藏
页码:440 / 446
页数:7
相关论文
共 6 条
[1]   基于统计的汉语组块分析 [J].
刘芳 ;
赵铁军 ;
于浩 ;
杨沐昀 ;
方高林 .
中文信息学报, 2000, (06) :28-32+39
[2]   汉语最长名词短语的自动识别 [J].
周强 ;
孙茂松 ;
黄昌宁 .
软件学报, 2000, (02) :195-201
[3]   汉语句子的组块分析体系 [J].
周强 ;
孙茂松 ;
黄昌宁 .
计算机学报, 1999, (11) :1158-1165
[4]   汉语短语结构定界歧义类型分析及分布统计 [J].
詹卫东 ;
常宝宝 ;
俞士汶 .
中文信息学报, 1999, (03) :10-18
[5]   基于转换的汉语基本名词短语识别模型 [J].
赵军 ;
黄昌宁 .
中文信息学报, 1999, (02) :2-8+40
[6]  
三个平面的语法观.[M].范晓著;.北京语言文化大学出版社.1996,