中文社区问答中问题答案质量评价和预测

被引:25
作者
李晨
巢文涵
陈小明
李舟军
机构
[1] 北京航空航天大学计算机学院
关键词
社区问答; 社会网络; 机器学习; 问题答案质量评价和预测; 人工标注;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
知识共享型网站为自动问答系统带来了新的研究契机。但用户提供的问题及其答案质量参差不齐,在提供有用信息的同时可能包含各种无关甚至恶意的信息。对此类信息进行判别和过滤,并选取高质量的问题与答案对,有助于在基于社区的自动问答系统中重用相关问题的答案以提高问答系统的服务质量。首先从中文社区问答网站上抓取大量问题及答案,利用社会网络的方法对提问者和回答者的互动关系及特点进行了统计与分析。然后基于给定的问答质量判定标准,对3000多个问题及其答案进行了人工标注。并通过提取文本和非文本两类特征集,利用机器学习算法设计和实现了基于特征集的问答质量分类器。试验结果表明其精度和召回率均在70%以上。最后分析了影响社区网络中问答质量的主要因素。
引用
收藏
页码:230 / 236
页数:7
相关论文
共 10 条
[1]   基于规则与统计相结合的中文文本自动查错模型与算法 [J].
张仰森 ;
曹元大 ;
俞士汶 .
中文信息学报, 2006, (04) :1-7+55
[2]   面向中文问答系统的问句句法分析 [J].
张亮 ;
王树梅 ;
黄河燕 ;
张孝飞 .
山东大学学报(理学版), 2006, (03) :30-33
[3]   自动问答综述 [J].
郑实福 ;
刘挺 ;
秦兵 ;
李生 .
中文信息学报, 2002, (06) :46-52
[4]   Modeling Information-Seeker Satisfaction in Community Question Answering [J].
Agichtein, Eugene ;
Liu, Yandong ;
Bian, Jiang .
ACM TRANSACTIONS ON KNOWLEDGE DISCOVERY FROM DATA, 2009, 3 (02)
[5]  
Graph structure in the Web[J] . Andrei Broder,Ravi Kumar,Farzin Maghoul,Prabhakar Raghavan,Sridhar Rajagopalan,Raymie Stata,Andrew Tomkins,Janet Wiener.Computer Networks . 2000 (1)
[6]   Authoritative sources in a hyperlinked environment [J].
Kleinberg, JM .
JOURNAL OF THE ACM, 1999, 46 (05) :604-632
[7]  
The anatomy of a large-scale hypertextual Web search engine[J] . Sergey Brin,Lawrence Page.Computer Networks and ISDN Systems . 1998 (1)
[8]  
http:∥passport.baidu.com .
[9]  
Social Network Analysis: A Handbook .2 Scott J. Sage Publications . 2000
[10]  
Hits on Question Answer Portals:Exploration of Link Analysis for Author Ranking .2 Jurczyk P,Agichtein E. Proc of the30th Annual Int’l ACMSIGIR Conf Research and De-velopment in Information Retrieval . 2007