基于Web的生物信息挖掘系统的研究

来源 :上海大学 | 被引量 : 0次 | 上传用户:IT_Consultant
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
20世纪90年代以来,Internet得到飞速发展.作为最大的信息集散地,Web上具有海量的信息数据,成为人们工作与学习的平台之一.如何从数以亿计的Web网页中发现需要的知识,成为人们迫切希望解决的问题.与此同时,历经十年的人类基因组计划产出了海量的生物学数据,这些数据通常存放在位于不同国家和地区的Web服务器上,供科研工作者自由选用.由于生物学数据产出量的激增,使得这些生物学数据库除了占用大量的存储空间外,维护更新的代价也越来越高.如何从这些数据库中动态地获取数据,从中挖掘出有用的信息已成为生物信息学的一个重要研究方向之一.因此,作为从浩瀚的Web信息资源中发现潜在有价值知识的一种有效技术--基于Web的数据挖掘正受到越来越多的重视.本文首先对基于Web的数据挖掘的定义、分类和难点做了简要的概述,介绍了目前国内外在这方面的研究进展,阐明了将基于Web的数据挖掘应用在生物学上的意义.随后介绍了基于Web的数据采集和文档检索方法,我们针对NCBI上的三个数据库:GenBank、LocusLink和OMIM设计了数据采集方法,能自动地从这些数据库中采集需要的基因数据,然后利用改进的方法对采集得到的文档数据进行文档检索,找出有用的基因信息.为了方便生物学家的研究,我们设计了一个基于Web的生物信息挖掘系统:GenExtractor,该系统通过Web对NCBI上的生物学数据库中的生物序列数据和基因表达数据进行挖掘,在指定的人染色体区域内搜寻具有特定功能的目标基因作为候选基因.该系统可为分子生物学家寻找致病基因、采集相关信息等提供有效帮助.通过对人DNA修复基因的查寻,验证了该系统的实用效果.在此基础上,系统还整合了Web上的在线生物信息分析软件,对调控因子结合位点作了预测.
其他文献
本文通过模拟实验发现严格κ-最临近集的大小(SKNNκ)比一般的k-最临近集(KNNκ)更能反映数据集密度的变化,给出了两种基于严格κ-最临近集的聚类算法,实验证明这些算法可以很
在Albeverio-Zhao建立的联系p-adics 上Lévy过程与多维Poisson过程的等价定理基础上,此论文讨论了p-adics上支撑有界的Lévy过程跑遍其支撑球中所有小pn-球所需的时间问题.
在计算机辅助设计中,人们对图形外形有很多方面的要求,其中之一是曲面的光顺性。因此,曲面的光顺处理就成为CAD/CAM中非常重要的一个问题。 “光顺”是个工程上的概念,不同于
特征提取是高效视觉建模系统中的一个关键问题,目前特征提取方法已经广泛的用于降低计算复杂度和获得理想的分类效果。选取有效的目标特征是分类系统中很重要的组成部分。本文
1.设模n(n≥3)存在原根,A表示模n原根中不大于B的集合,其中n5/6logn≤B<n,以N表示同余方程x1x2≡x3x4(modn)在集合A中的解数。证明了以下定理:定理1.1同余方程x1x2≡x3x4(modn)在
该文详细讨论了椭圆型差分方程的一般校正过程与方法,同时给出了变系数Helmholtz方程的O(h)高精度校正方法.校正过程几乎不增加工作量,但校正后精度比未校正提高了四阶,并能