学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
中文文本分类中的特征选择算法研究
被引:46
作者
:
胡佳妮
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学
胡佳妮
徐蔚然
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学
徐蔚然
郭军
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学
郭军
邓伟洪
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学
邓伟洪
机构
:
[1]
北京邮电大学
[2]
北京邮电大学 北京
[3]
北京
来源
:
光通信研究
|
2005年
/ 03期
关键词
:
文本分类;
特征选择;
评价函数;
D O I
:
10.13756/j.gtxyj.2005.03.014
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
比较了文档频率、信息增益、互信息、X2统计量、期望交叉熵、文本证据权以及几率比等7种常用于文本分类的特征选择算法。实验采用国家"八六三计划"中文文本语料库和Rocchio分类器对以上的特征选择算法分别进行评估,测评结果表明,几率比法的性能优于其它特征选择算法。
引用
收藏
页码:44 / 46
页数:3
相关论文
共 7 条
[1]
一种新的基于统计的自动文本分类方法
[J].
刘斌
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所,中国科学院研究生院,中国科学院文献情报中心,中国科学院计算技术研究所北京,北京,北京,北京
刘斌
;
黄铁军
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所,中国科学院研究生院,中国科学院文献情报中心,中国科学院计算技术研究所北京,北京,北京,北京
黄铁军
;
论文数:
引用数:
h-index:
机构:
程军
;
高文
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所,中国科学院研究生院,中国科学院文献情报中心,中国科学院计算技术研究所北京,北京,北京,北京
高文
.
中文信息学报,
2002,
(06)
:18
-24
[2]
网络文本数据分类技术与实现算法
[J].
论文数:
引用数:
h-index:
机构:
李勇
;
论文数:
引用数:
h-index:
机构:
桑艳艳
.
情报学报,
2002,
(01)
:21
-26
[3]
基于向量空间模型的文本自动分类系统的研究与实现
[J].
论文数:
引用数:
h-index:
机构:
庞剑锋
;
论文数:
引用数:
h-index:
机构:
卜东波
;
白硕
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所!北京,中国科学院计算技术研究所!北京,中国科学院计算技术研究所!北京
白硕
.
计算机应用研究,
2001,
(09)
:23
-26
[4]
基于字频向量的中文文本自动分类系统
[J].
王梦云
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学成人教育学院!太原
王梦云
;
论文数:
引用数:
h-index:
机构:
曹素青
.
情报学报,
2000,
(06)
:644
-649
[5]
文档中词语权重计算方法的改进
[J].
论文数:
引用数:
h-index:
机构:
鲁松
;
论文数:
引用数:
h-index:
机构:
李晓黎
;
论文数:
引用数:
h-index:
机构:
白硕
;
论文数:
引用数:
h-index:
机构:
王实
.
中文信息学报,
2000,
(06)
:8
-13+20
[6]
模式识别.[M].边肇祺等编著;.清华大学出版社.2000,
[7]
模式识别应用.[M].傅京孙 主编.北京大学出版社.1990,
←
1
→
共 7 条
[1]
一种新的基于统计的自动文本分类方法
[J].
刘斌
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所,中国科学院研究生院,中国科学院文献情报中心,中国科学院计算技术研究所北京,北京,北京,北京
刘斌
;
黄铁军
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所,中国科学院研究生院,中国科学院文献情报中心,中国科学院计算技术研究所北京,北京,北京,北京
黄铁军
;
论文数:
引用数:
h-index:
机构:
程军
;
高文
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所,中国科学院研究生院,中国科学院文献情报中心,中国科学院计算技术研究所北京,北京,北京,北京
高文
.
中文信息学报,
2002,
(06)
:18
-24
[2]
网络文本数据分类技术与实现算法
[J].
论文数:
引用数:
h-index:
机构:
李勇
;
论文数:
引用数:
h-index:
机构:
桑艳艳
.
情报学报,
2002,
(01)
:21
-26
[3]
基于向量空间模型的文本自动分类系统的研究与实现
[J].
论文数:
引用数:
h-index:
机构:
庞剑锋
;
论文数:
引用数:
h-index:
机构:
卜东波
;
白硕
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所!北京,中国科学院计算技术研究所!北京,中国科学院计算技术研究所!北京
白硕
.
计算机应用研究,
2001,
(09)
:23
-26
[4]
基于字频向量的中文文本自动分类系统
[J].
王梦云
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学成人教育学院!太原
王梦云
;
论文数:
引用数:
h-index:
机构:
曹素青
.
情报学报,
2000,
(06)
:644
-649
[5]
文档中词语权重计算方法的改进
[J].
论文数:
引用数:
h-index:
机构:
鲁松
;
论文数:
引用数:
h-index:
机构:
李晓黎
;
论文数:
引用数:
h-index:
机构:
白硕
;
论文数:
引用数:
h-index:
机构:
王实
.
中文信息学报,
2000,
(06)
:8
-13+20
[6]
模式识别.[M].边肇祺等编著;.清华大学出版社.2000,
[7]
模式识别应用.[M].傅京孙 主编.北京大学出版社.1990,
←
1
→