大数据的整合分析方法

被引:32
作者
马双鸽 [1 ,2 ]
王小燕 [3 ]
方匡南 [4 ]
机构
[1] 美国耶鲁大学生物统计系
[2] 厦门大学数据挖掘研究中心
[3] 湖南大学金融与统计学院
[4] 厦门大学经济学院
关键词
大数据; 整合分析; 变量选择; 医疗支出; 癌症基因;
D O I
10.19343/j.cnki.11-1302/c.2015.11.001
中图分类号
C81 [统计方法];
学科分类号
020208 ; 0714 ;
摘要
大数据具有数据来源差异性、高维性及稀疏性等特点,如何挖掘数据集间的异质性和共同性并降维去噪是大数据分析的目标与挑战之一。整合分析(Integrative Analysis)同时分析多个独立数据集,避免因地域、时间等因素造成的样本差异而引起模型不稳定,是研究大数据差异性的有效方法。它的特点是将每个解释变量在所有数据集中的系数视为一组,通过惩罚函数对系数组进行压缩,研究变量间的关联性并实现降维。本文从同构数据整合分析、异构数据整合分析以及考虑网络结构的整合分析三方面梳理了惩罚整合分析方法的原理、算法和研究现状。统计模拟发现,在弱相关、一般相关和强相关三种情形下,L1Group Bridge、L1Group MCP、Composite MCP都表现良好,其中L1Group Bridge的假阳数最低且最稳定。最后,将整合分析用于研究具有来源差异性的新农合家庭医疗支出,以及具有超高维、小样本等大数据典型特征的癌症基因数据,得到了一些有意义的结论。
引用
收藏
页码:3 / 11
页数:9
相关论文
共 11 条
[1]  
Challenges of Big Data analysis[J]. Jianqing Fan,Fang Han,Han Liu.National Science Review. 2014(02)
[2]   Bi-level variable selection via adaptive sparse group Lasso [J].
Fang, Kuangnan ;
Wang, Xiaoyan ;
Zhang, Shengwei ;
Zhu, Jianping ;
Ma, Shuangge .
JOURNAL OF STATISTICAL COMPUTATION AND SIMULATION, 2015, 85 (13) :2750-2760
[3]   Integrative analysis of '-omics' data using penalty functions [J].
Zhao, Qing ;
Shi, Xingjie ;
Huang, Jian ;
Liu, Jin ;
Li, Yang ;
Ma, Shuangge .
WILEY INTERDISCIPLINARY REVIEWS-COMPUTATIONAL STATISTICS, 2015, 7 (01) :99-108
[4]   Integrative Analysis of Cancer Diagnosis Studies with Composite Penalization [J].
Liu, Jin ;
Ma, Shuangge ;
Huang, Jian .
SCANDINAVIAN JOURNAL OF STATISTICS, 2014, 41 (01) :87-103
[5]   Integrative Analysis of High-throughput Cancer Studies With Contrasted Penalization [J].
Shi, Xingjie ;
Liu, Jin ;
Huang, Jian ;
Zhou, Yong ;
Shia, BenChang ;
Ma, Shuangge .
GENETIC EPIDEMIOLOGY, 2014, 38 (02) :144-151
[6]   A Sparse-Group Lasso [J].
Simon, Noah ;
Friedman, Jerome ;
Hastie, Trevor ;
Tibshirani, Robert .
JOURNAL OF COMPUTATIONAL AND GRAPHICAL STATISTICS, 2013, 22 (02) :231-245
[7]  
Incorporating Network Structure in Integrative Analysis of Cancer Prognosis Data[J] . Jin Liu,Jian Huang,Shuangge Ma.Genet. Epidemiol. . 2012 (2)
[8]   Identification of breast cancer prognosis markers via integrative analysis [J].
Ma, Shuangge ;
Dai, Ying ;
Huang, Jian ;
Xie, Yang .
COMPUTATIONAL STATISTICS & DATA ANALYSIS, 2012, 56 (09) :2718-2728
[9]   Integrative analysis of multiple cancer prognosis studies with gene expression measurements [J].
Ma, Shuangge ;
Huang, Jian ;
Wei, Fengrong ;
Xie, Yang ;
Fang, Kuangnan .
STATISTICS IN MEDICINE, 2011, 30 (28) :3361-3371
[10]   A group bridge approach for variable selection [J].
Huang, Jian ;
Ma, Shuange ;
Xie, Huiliang ;
Zhang, Cun-Hui .
BIOMETRIKA, 2009, 96 (02) :339-355