DNA序列数据挖掘技术

被引:36
作者
朱扬勇
熊赟
机构
[1] 复旦大学 计算机与信息技术系
[2] 复旦大学 计算机与信息技术系 上海 上海生物信息技术研究中心
[3] 上海
关键词
DNA序列; 数据挖掘; 生物信息学; 序列模式; 序列相似性;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
DNA序列数据是一类重要的生物数据.研究DNA序列数据解读其含义是后基因组时代的主要研究任务.数据挖掘是目前最有效的数据分析手段之一,用于发现大量数据所隐含的各种规律,也是生物信息学采用的主要数据分析技术.将数据挖掘技术用于DNA序列数据分析,已得到了广泛关注和快速发展,并取得了许多研究成果.综述了DNA序列数据挖掘领域的研究状况和进展,提出了3个研究阶段:基于统计的挖掘方法应用阶段、一般化挖掘方法应用阶段和专门的DNA序列数据挖掘方法设计阶段.阐述了DNA序列数据挖掘的基础是序列相似性,评述了DNA序列数据挖掘领域所采用的关键技术,包括DNA序列模式、关联、聚类、分类和异常挖掘等,分析讨论了其相应的生物应用背景和意义.最后给出DNA序列数据挖掘进一步研究的热点问题,包括DNA序列数据新的存储和索引机制的设计、根据生物领域知识的数据挖掘新模型和算法的设计等.
引用
收藏
页码:2766 / 2781
页数:16
相关论文
共 19 条
[1]   DNA序列中基于后继数组索引的SATR查找算法 [J].
王镝 ;
赵毅 ;
陈白尘 ;
王国仁 .
东北大学学报(自然科学版), 2007, (02) :184-188
[2]   A measure of semantic similarity between gene ontology terms based on semantic pathway covering [J].
LI Rong CAO Shunliang LI Yuanyuan TAN Hao ZHU Yangyong ZHONG Yang and LI Yixue Department of Computing and Information Technology Fudan University Shanghai China ;
Shanghai Center for Bioinformation Technology Shanghai China ;
School of Life Sciences Fudan University Shanghai China ;
Bioinforrnation Center of Shanghai Institute for Biological Sciences Chinese Academy of Sciences Shanghai China .
ProgressinNaturalScience, 2006, (07) :721-726
[3]   基于二分频率变换的序列相似性查询处理技术 [J].
王国仁 ;
葛健 ;
徐恒宇 ;
郑若石 .
软件学报, 2006, (02) :232-241
[4]   一种可用于生物序列分析的轻量级索引结构 [J].
王镝 ;
王国仁 ;
陈白尘 ;
吴青泉 ;
王斌 ;
韩冬红 .
华中科技大学学报(自然科学版), 2005, (S1) :209-212
[5]   一种有效的重复序列识别算法 [J].
李冬冬 ;
王正志 ;
倪青山 .
生物信息学, 2005, (04) :163-166+174
[6]   ReDE:一个基于正则表达式的生物数据抽取方法 [J].
邓绪斌 ;
朱扬勇 .
计算机研究与发展, 2005, (12) :2184-2191
[7]  
Semantic Search among Heterogeneous Biological Databases Based on Gene Ontology[J]. Shun-Liang CAO, Lei QIN1, Wei-Zhong HE1, Yang ZHONG2, Yang-Yong ZHU, and Yi-Xue LI1,3* Department of Computing and Information Technology, Fudan University, Shanghai 200433, China;Shanghai Center for Bioinformation 1 Technology, Shanghai 200235, China;School of Life Sciences, Fudan University, Shanghai 200433, China;Bioinformation Center of Shanghai Institutes for Biological Sciences, the Chinese Academy of Scien
[8]  
生物信息学中的智能计算理论与方法研究[M]. - 中国科学技术大学出版社 , 黄德双等, 2006
[9]  
L-Tree Match: A New Data Extraction Model and Algorithm for Huge Text Stream with Noises[J] . Xu-Bin Deng,Yang-Yong Zhu.Journal of Computer Science and Technology . 2005 (6)
[10]  
TSP: Mining top-k closed sequential patterns[J] . Petre Tzvetkov,Xifeng Yan,Jiawei Han.Knowledge and Information Systems . 2005 (4)