金融学文本大数据挖掘方法与研究进展

被引:44
作者
姚加权 [1 ]
张锟澎 [1 ]
罗平 [2 ,3 ,4 ]
机构
[1] 暨南大学管理学院
[2] 中国科学院智能信息处理重点实验室
[3] 中国科学院计算所
[4] 中国科学院大学
基金
国家重点研发计划;
关键词
文本大数据; 文本分析; 机器学习; 深度学习; 数据挖掘;
D O I
暂无
中图分类号
F830 [金融、银行理论]; TP391.1 [文字信息处理];
学科分类号
1201 ; 020204 ; 081203 ; 0835 ;
摘要
在金融学领域的传统实证研究中,所用数据多局限于财务报表和股票市场数据等结构化数据。而在大数据时代,计算机技术的进步使得数据类型不断丰富,研究者开始将非结构化的文本大数据引入到金融学领域的研究中,其主要包括上市公司披露文本、财经媒体报道、社交网络文本、网络搜索指数以及P2P网络借贷文本等,并对文本的可读性、语气语调、相似性以及语义特征展开研究。本文首先介绍了金融学领域文本大数据挖掘步骤和方法,描述了语料获取、预处理过程、文档表示以及文档的特征抽取;然后根据不同的文本信息来源,梳理了金融学文本大数据的研究进展;最后对未来金融学文本大数据的研究方法和研究内容进行了展望。
引用
收藏
页码:143 / 158
页数:16
相关论文
共 69 条
[1]   言之有物:网络借贷中语言有用吗?——来自人人贷借款描述的经验证据 [J].
彭红枫 ;
林川 .
金融研究, 2018, (11) :133-152
[2]   社会关系与企业信息披露质量——基于中国上市公司年报的文本分析 [J].
任宏达 ;
王琨 .
南开管理评论, 2018, 21 (05) :128-138
[3]   年报风险信息披露与审计费用——基于文本余弦相似度视角 [J].
王雄元 ;
高曦 ;
何捷 .
审计研究, 2018, (05) :98-104
[4]   年报语调与内部人交易:“表里如一”还是“口是心非”? [J].
曾庆生 ;
周波 ;
张程 ;
陈信元 .
管理世界, 2018, 34 (09) :143-160
[5]   金融科技媒体情绪的刻画与对网贷市场的影响 [J].
王靖一 ;
黄益平 .
经济学(季刊), 2018, 17 (04) :1623-1650
[6]   基于网络大数据挖掘的实证资产定价研究进展 [J].
张学勇 ;
吴雨玲 .
经济学动态, 2018, (06) :129-140
[7]   投资者关注和股市表现——基于雪球关注度的研究 [J].
孙书娜 ;
孙谦 .
管理科学学报, 2018, (06) :60-71
[8]   借款描述的可读性能够提高网络借款成功率吗 [J].
陈霄 ;
叶德珠 ;
邓洁 .
中国工业经济, 2018, (03) :174-192
[9]   金融市场文本情绪研究进展 [J].
唐国豪 ;
姜富伟 ;
张定胜 .
经济学动态, 2016, (11) :137-147
[10]   分析师能有效发挥专业解读信息的作用吗?——基于汉字年报复杂性指标的研究 [J].
丘心颖 ;
郑小翠 ;
邓可斌 .
经济学(季刊), 2016, 15 (04) :1483-1506