论文部分内容阅读
20世纪后期,生物科学技术迅猛发展,数据资源急剧膨胀。为了储存、加工和进一步利用这些数据的需要和以数据分析、处理为本质的计算机科学数据库技术和网络技术的迅猛发展产生了分子生物信息数据库。例如现在国际上的三大核酸数据库Genbank,欧洲分子生物学实验室(EMBL)的数据库和日本的DNA数据库(DDBJ)是被广泛使用的一级生物数据库。
这些数据库各自开发一套系统为用户提供数据查询和分析服务,这一定程度利于用户处理数据,但用户需要在多个网站间切换,并且不得不学习和适应不同的系统使用方法,这样对用户来说是极不方便的。
针对上面的问题,本文进行了如下的研究工作和贡献,主要贡献有四个方面:
1、定义一个统一的B_SQL查询语言,为用户提供一个统一的查询平台,避免了用户在多个数据库间切换还要学习使用不同系统的使用方法的麻烦。
2、在B_SQL查询语句的转换方面,构造了一个B_SQL查询语句转换算法,实现了从B_SQL到各个数据源查询语句的转换。
3、在查询结果处理方面提出了一种常用查询结果缓存机制,存储在一定时间段内查询次数较多的若干个查询的结果,减少用户的查询时间,提高了用户的效率。
4、为了进一步提高用户的工作效率,最后还提出了一种基于内容的关键字提取技术,对不同查询结果进行文摘和关键字提取,并且提出了相似度的概念来衡量不同结果之间相似性。