论文部分内容阅读
伴随着信息技术在地学中的应用和发展,矿产资源定量评价工作产生了大量的原始数据及文档,有各种物化探测试数据报告、区调报告以及各种图件(包括各种GIS图层数据),如何能在这些数据中快速提取出有用信息是一个急待解决的问题。为此本文实现了一个运行于局域网的全文搜索引擎(GeoSou),该系统索引了局域网上所有的共享文档,大大方便了实验室的地学数据共享,提高了工作效率。GeoSou在实现上共分为六个模块OS模块、系统级IO模块、Web服务器模块、索引模块、局域网遍历模块和查询模块,各个模块之间的配合由状态机来驱动。主要有如下特性:(1) GeoSou自行实现了基于地学词典的分词系统,该分词系统在总结Trie树结构复杂的基础上,提出将首字和尾种类词用哈希表管理,其余中间字串用Trie树来实现的“首位Hash-Trie树”结构来实现地学词典的高效率存取操作,简化了Trie树的深度,收到了良好的效果。(2) GeoSou为了加快查询模块的执行速度,定义了一个线性空间,该空间的数域由所有文档构成,对于每篇文档在与关键词进行相似度运算之前先在该空间内确定是否要进行相似度运算,决定取舍,然后才进行相似度运算,提取文档。(3)系统在文档的分类及相似性计算上采用了比较成熟的向量空间模型(VSM),该模型将文档抽象到一个多维向量空间上,文档的每个特征值对应于空间内的一个维,那么向量之间的关系就是文档间的关系,向量与点的关系就是文档与查询关键词的关系,简化了对比运算。系统用Bloom Filter算法来消除重复的文档路径,并建立轻量级的Http服务器来解析客户端跟服务器的交互信息。