基于聚类的语料库分词评价方法研究

被引：4

作者：

宋礼鹏

郑家恒

机构：

[1] 山西大学计算机科学系

[2] 山西大学计算机科学系太原

来源：

计算机学报 | 2004年 / 02期

关键词：

分层抽样; 相似性因子; 样本聚类; 评价函数;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

对大规模汉语文本语料库分词正确率的评价提出了新的见解 ,即在分层抽样基础上对文本样本进行聚类 .通过聚类可提高检验精度或减少样本量 .该方法采用了一种新的样本相似性度量公式 ,该公式综合考虑了样本向量间的距离和样本向量各分量之间的线性相关性 .通过对聚类结果的动态评价 ,调整聚类的类别数和相似性因子 ,提高了聚类的效率和质量 .实验表明该方法在评价大规模语料库分词正确率时取得了很好的效果

引用

页码：192 / 196

页数：5

共 6 条

[1] 分层抽样技术在应收账款审计中的应用 [J].

杨俊龙 ;

金勇进 .

经济经纬, 2002, (05) :88-90

[2] 一种基于向量空间模型的多层次文本分类方法 [J].

刘少辉 ;

董明楷 ;

张海俊 ;

李蓉 ;

史忠植 .

中文信息学报, 2002, (03) :8-14+26

[3]

现代模式识别[M]. 国防科技大学出版社 , 孙即祥等编著, 2002

[4]

方差估计引论[M]. 中国统计出版社 , (美)[K.M.沃尔特]KirkM.Wolter著, 1998

[5]

抽样调查理论与方法[M]. 中国统计出版社 , 冯士雍等编著, 1998

[6]

调查中的非抽样误差[M]. 中国统计出版社 , (美)[J.T.莱斯勒]JudithT.Lessler, 1997

← 1 →