海量结构化数据存储检索系统

被引：30

作者：

吴广君 ^{[1
]}

王树鹏 ^{[1
]}

陈明 ^{[2
]}

李超 ^{[3
]}

机构：

[1] 中国科学院计算技术研究所

[2] 北京邮电大学

[3] 国家计算机网络应急技术处理协调中心

来源：

计算机研究与发展 | 2012年 / S1期

关键词：

大数据; Hadoop; 数据检索; No-SQL数据库; 海量数据存储;

D O I：

暂无

中图分类号：

TP333 [存贮器];

学科分类号：

081201 ;

摘要：

Big Data是近年在云计算领域中出现的一种新型数据,传统关系型数据库系统在数据存储规模、检索效率等方面不再适用.目前的分布式No-SQL数据库可以提供分布式数据存储环境,但是无法支持多列查询.设计并实现分布式海量结构化数据存储检索系统(MDSS).系统采用列存储结构,采用集中分布式B+Tree索引和局部索引相结合的方法提高检索效率.在此基础上讨论复杂查询条件的任务分解机制,支持大数据的多属性检索、模糊检索以及统计分析等查询功能.实验结果表明,提出的分布式结构化数据管理技术和查询任务分解机制可以显著提高分布式条件下大数据集的查询效率,适合应用在日志类数据、流记录数据等海量结构化数据的存储应用场合.

引用

页码：1 / 5

页数：5

共 4 条

[1] 基于Map-Reduce的海量数据高效Skyline查询处理 [J].

丁琳琳 ;

信俊昌 ;

王国仁 ;

黄山 .

计算机学报, 2011, 34 (10) :1785-1796

[2]

Cassandra[J] . Avinash Lakshman,Prashant Malik.ACM SIGOPS Operating Systems Review . 2010 (2)

[3]

Bigtable[J] . Fay Chang,Jeffrey Dean,Sanjay Ghemawat,Wilson C. Hsieh,Deborah A. Wallach,Mike Burrows,Tushar Chandra,Andrew Fikes,Robert E. Gruber.ACM Transactions on Computer Systems （TOCS） . 2008 (2)

[4] AN ALGORITHM FOR CONCURRENCY-CONTROL AND RECOVERY IN REPLICATED DISTRIBUTED DATABASES [J].

BERNSTEIN, PA ;

GOODMAN, N .

ACM TRANSACTIONS ON DATABASE SYSTEMS, 1984, 9 (04) :596-615

← 1 →