论文部分内容阅读
20世纪90年代以来,Internet得到飞速发展.作为最大的信息集散地,Web上具有海量的信息数据,成为人们工作与学习的平台之一.如何从数以亿计的Web网页中发现需要的知识,成为人们迫切希望解决的问题.与此同时,历经十年的人类基因组计划产出了海量的生物学数据,这些数据通常存放在位于不同国家和地区的Web服务器上,供科研工作者自由选用.由于生物学数据产出量的激增,使得这些生物学数据库除了占用大量的存储空间外,维护更新的代价也越来越高.如何从这些数据库中动态地获取数据,从中挖掘出有用的信息已成为生物信息学的一个重要研究方向之一.因此,作为从浩瀚的Web信息资源中发现潜在有价值知识的一种有效技术--基于Web的数据挖掘正受到越来越多的重视.本文首先对基于Web的数据挖掘的定义、分类和难点做了简要的概述,介绍了目前国内外在这方面的研究进展,阐明了将基于Web的数据挖掘应用在生物学上的意义.随后介绍了基于Web的数据采集和文档检索方法,我们针对NCBI上的三个数据库:GenBank、LocusLink和OMIM设计了数据采集方法,能自动地从这些数据库中采集需要的基因数据,然后利用改进的方法对采集得到的文档数据进行文档检索,找出有用的基因信息.为了方便生物学家的研究,我们设计了一个基于Web的生物信息挖掘系统:GenExtractor,该系统通过Web对NCBI上的生物学数据库中的生物序列数据和基因表达数据进行挖掘,在指定的人染色体区域内搜寻具有特定功能的目标基因作为候选基因.该系统可为分子生物学家寻找致病基因、采集相关信息等提供有效帮助.通过对人DNA修复基因的查寻,验证了该系统的实用效果.在此基础上,系统还整合了Web上的在线生物信息分析软件,对调控因子结合位点作了预测.