海量数据分析的One-size-fits-all OLAP技术

被引:32
作者
张延松 [1 ,2 ]
焦敏 [1 ,3 ]
王占伟 [1 ,3 ]
王珊 [1 ,3 ]
周烜 [1 ,3 ]
机构
[1] 数据工程与知识工程教育部重点实验室(中国人民大学)
[2] 中国人民大学中国调查与数据中心
[3] 中国人民大学信息学院
关键词
OLAP; 海量数据分析处理; 谓词向量; 星型模型;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
传统的OLAP被迅速膨胀的海量数据推动进入了大规模数据分析时代,其主要特点是存储密度大,计算强度大,需要大规模并行存储和处理能力.无论是传统的并行数据库技术还是热点的MapReduce技术都不得不面对海量数据在大规模并行处理环境下的性能和并行处理效率的问题.以星型模型上复杂多表连接为基础的OLAP算法的复杂度和并行处理过程中的数据网络传输代价都成为制约性能的重要因素.通过深入分析OLAP存储模型和查询负载特征,提出了对OLAP查询中最基础的SPJGA-OLAP子集在存储、查询处理、数据分布、网络传输和分布式缓存等方面面向海量数据大规模并行处理框架的优化策略和实现技术.通过对TPC-H和SSB两个工业界和学术界公认的测试标准的分析,评估了技术的可行性.提出了以内存predicate-vector DDTA-JOIN算法为核心的并行内存OLAP架构,以维表上规范化的谓词向量操作替代了多样的连接执行计划,实现以一种查询处理模型同时满足集中式处理和大规模并行OLAP处理的需求,充分利用现代计算机的硬件优势,最小化网络传输和OLAP查询处理代价.实验中分析了在1TB和100TB数据集中数据分布策略的存储代价和传输代价,通过并行OLAP代价模型和实际数据的实验测试验证了技术的可行性和并行处理效率.
引用
收藏
页码:1936 / 1946
页数:11
相关论文
共 2 条
[1]  
Parallel OLAP query processing in database clusters with data replication[J] . Alexandre A. B. Lima,Camille Furtado,Patrick Valduriez,Marta Mattoso.Distributed and Parallel Databases . 2009 (1)
[2]   Model and procedure for performance and availability-wise parallel warehouses [J].
Pedro Furtado .
Distributed and Parallel Databases, 2009, 25 :71-96