一种基于Hive日志分析的大数据存储优化方法

被引:22
作者
王正也
李书芳
机构
[1] 北京邮电大学通信与信息工程学院
关键词
大数据; Hive; 存储优化; 列式存储;
D O I
暂无
中图分类号
TP311.13 []; TP333 [存贮器];
学科分类号
1201 ; 081201 ;
摘要
从2002年起,某金融机构积累了大量的银行卡支付日志数据。随着业务的不断增长,数据集高速增长,原生的Hive的查询性能已经不能令人满意。文章研究了大数据及存储的现状,提出了一种基于存储日志的分析的Hive存储格式优化方法,通过该优化方法从查询时间和存储空间利用率两方面使系统性能得到提升,提升了查询效率。论文对该金融机构原有Hive存储系统通过基于存储日志分析的Hive存储格式优化方法进行改进,通过实际数据,充分证明了该方法的可行性。
引用
收藏
页码:94 / 100
页数:7
相关论文
共 2 条
[1]   服务器与集群系统节能技术研究 [J].
王军 ;
冯铃 ;
薛文伟 .
软件, 2011, 32 (02) :4-8
[2]  
基于Hadoop的海量交易记录查询系统研究[D]. 魏家宾.南京邮电大学. 2013