一种基于加权LDA模型和多粒度的文本特征选择方法

被引:19
作者
李湘东 [1 ,2 ]
巴志超 [1 ]
黄莉 [3 ]
机构
[1] 武汉大学信息管理学院
[2] 武汉大学信息资源研究中心
[3] 武汉大学图书馆
关键词
书目信息; 加权LDA模型; 多粒度特征; 文本分类; 特征选择;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
【目的】为改善图书和期刊书目信息的分类性能,结合书目文本的体例结构特点,提出一种基于加权LDA模型和多粒度的文本特征选择方法。【方法】在点互信息(PMI)模型的基础上,结合词性、位置等要素修正特征词的权重并扩展至LDA的生成模型中,以抽取表意性较强的粗粒度特征;结合TF-IDF计算模型采用一定策略获取细粒度特征,基于多粒度特征作为核心特征词集表征书目文本;采用KNN、SVM等算法实现书目文本的分类。【结果】在自建图书、期刊材料上进行分类实验,与LDA方法以及传统特征选择方法相比,该方法分类准确率分别平均提高3.60%和4.79%。【局限】实验材料的数量以及丰富度有待进一步扩展;需探索更多的加权策略模型进行实验,以提高书目文本的分类效果。【结论】实验结果表明,该方法是有效的、可行的,能够提高特征选择后的特征词集对文本的表示能力,从而提高文本分类的准确率。
引用
收藏
页码:42 / 49
页数:8
相关论文
共 8 条
[1]   基于LDA-wSVM模型的文本分类研究 [J].
李锋刚 ;
梁钰 ;
GAO Xiaozhi ;
ZENGER Kai .
计算机应用研究, 2015, 32 (01) :21-25
[2]   基于加权隐含狄利克雷分配模型的新闻话题挖掘方法 [J].
李湘东 ;
巴志超 ;
黄莉 .
计算机应用, 2014, 34 (05) :1354-1359
[3]   基于LDA高频词扩展的中文短文本分类 [J].
胡勇军 ;
江嘉欣 ;
常会友 .
现代图书情报技术, 2013, (06) :42-48
[4]   基于LDA主题模型的软件缺陷分派方法 [J].
黄小亮 ;
郁抒思 ;
关佶红 .
计算机工程, 2011, 37 (21) :46-48
[5]   文本分类中互信息特征选择方法的研究 [J].
范小丽 ;
刘晓霞 .
计算机工程与应用 , 2010, (34) :123-125
[6]   一种改进的LDA主题模型 [J].
张小平 ;
周雪忠 ;
黄厚宽 ;
冯奇 ;
陈世波 ;
焦宏官 .
北京交通大学学报, 2010, (02) :111-114
[7]  
Web概念挖掘中标引源加权方案初探[J]. 侯汉清,章成志,郑红.情报学报. 2005 (01)
[8]  
An information-theoretic, vector-space-model approach to cross-language information retrieval *[J] . PETER A. CHEW,BRETT W. BADER,STEPHEN HELMREICH,AHMED ABDELALI,STEPHEN J. VERZI.Natural Language Engineering . 2011 (1)