大数据、机器学习与统计学:挑战与机遇

被引:78
作者
洪永淼 [1 ]
汪寿阳 [2 ]
机构
[1] 中国科学院数学与系统科学研究院
[2] 中国科学院大学经济与管理学院
关键词
人工神经网络; 大数据; 维数灾难; 数据科学; LASSO; 机器学习; 统计学习; 数理统计学; 模型多样性; 模型不确定性; 非参数分析; 统计显著性; 充分性原则; 因果关系;
D O I
暂无
中图分类号
TP311.13 []; TP181 [自动推理、机器学习]; C8 [统计学];
学科分类号
1201 ; 081104 ; 0812 ; 0835 ; 1405 ; 020208 ; 0714 ;
摘要
随着数字经济时代的来临,基于互联网、移动互联网以及人工智能技术的经济活动每时每刻产生了海量大数据,这些海量大数据又反过来驱动各种经济活动.大数据来源不一,形式多样,种类繁杂,既有结构化数据,也有非结构化数据,如文本、图像、音频、视频等,即使是结构化数据,也有新型数据,如函数数据、区间数据与符号数据等.大数据大多拥有巨大的样本容量,也有潜在解释变量维数超过样本容量的高维大数据.大数据的产生以及基于大数据的机器学习的广泛使用,对统计学产生了深刻影响.本文从大数据的特点和机器学习的本质出发,讨论了大数据和机器学习对统计建模与统计推断的挑战与机遇,包括由抽样推断总体分布性质、充分性原则、数据归约、变量选择、模型设定、样本外预测、因果分析等重要方面,同时也探讨了机器学习的理论与方法论基础以及统计学和机器学习的交叉融合.
引用
收藏
页码:17 / 35
页数:19
相关论文
共 28 条
[1]  
A selective overview of feature screening for ultrahigh-dimensional data[J]. LIU JingYuan,ZHONG Wei,LI RunZe.Science China(Mathematics). 2015(10)
[2]   计量经济学的地位、作用和局限 [J].
洪永淼 .
经济研究, 2007, (05) :139-153
[3]  
Threshold autoregressive models for interval-valued time series data[J] . Yuying Sun,Ai Han,Yongmiao Hong,Shouyang Wang.Journal of Econometrics . 2018
[4]   Causal inference in economics and marketing [J].
Varian, Hal R. .
PROCEEDINGS OF THE NATIONAL ACADEMY OF SCIENCES OF THE UNITED STATES OF AMERICA, 2016, 113 (27) :7310-7315
[5]   Measuring Economic Policy Uncertainty [J].
Baker, Scott R. ;
Bloom, Nicholas ;
Davis, Steven J. .
QUARTERLY JOURNAL OF ECONOMICS, 2016, 131 (04) :1593-1636
[6]  
Big Data: New Tricks for Econometrics[J] . Hal R. Varian.The Journal of Economic Perspectives . 2014 (2)
[7]   Sparse Models and Methods for Optimal Instruments With an Application to Eminent Domain [J].
Belloni, A. ;
Chen, D. ;
Chernozhukov, V. ;
Hansen, C. .
ECONOMETRICA, 2012, 80 (06) :2369-2429
[8]  
Nowcasting: The real-time informational content of macroeconomic data[J] . Domenico Giannone,Lucrezia Reichlin,David Small.Journal of Monetary Economics . 2008 (4)
[9]  
Consistency of Random Forests and Other Averaging Classifiers[J] . Gérard Biau,Luc Devroye,Gábor Lugosi.Journal of Machine Learning Research . 2008
[10]  
Leats Squares Model Averaging[J] . Bruce E. Hansen.Econometrica . 2007 (4)