地学文本信息提取技术研究

来源 :中国地质大学(北京) | 被引量 : 0次 | 上传用户:xingli1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着信息技术在地学中的应用和发展,矿产资源定量评价工作产生了大量的原始数据及文档,有各种物化探测试数据报告、区调报告以及各种图件(包括各种GIS图层数据),如何能在这些数据中快速提取出有用信息是一个急待解决的问题。为此本文实现了一个运行于局域网的全文搜索引擎(GeoSou),该系统索引了局域网上所有的共享文档,大大方便了实验室的地学数据共享,提高了工作效率。GeoSou在实现上共分为六个模块OS模块、系统级IO模块、Web服务器模块、索引模块、局域网遍历模块和查询模块,各个模块之间的配合由状态机来驱动。主要有如下特性:(1) GeoSou自行实现了基于地学词典的分词系统,该分词系统在总结Trie树结构复杂的基础上,提出将首字和尾种类词用哈希表管理,其余中间字串用Trie树来实现的“首位Hash-Trie树”结构来实现地学词典的高效率存取操作,简化了Trie树的深度,收到了良好的效果。(2) GeoSou为了加快查询模块的执行速度,定义了一个线性空间,该空间的数域由所有文档构成,对于每篇文档在与关键词进行相似度运算之前先在该空间内确定是否要进行相似度运算,决定取舍,然后才进行相似度运算,提取文档。(3)系统在文档的分类及相似性计算上采用了比较成熟的向量空间模型(VSM),该模型将文档抽象到一个多维向量空间上,文档的每个特征值对应于空间内的一个维,那么向量之间的关系就是文档间的关系,向量与点的关系就是文档与查询关键词的关系,简化了对比运算。系统用Bloom Filter算法来消除重复的文档路径,并建立轻量级的Http服务器来解析客户端跟服务器的交互信息。
其他文献
本文所研究的JPM-1型接触疲劳磨损试验机智能测试系统,将计算机技术、自动化技术以及测试技术与摩擦磨损试验机有机地结合起来,实现了试验过程的智能化连续测试。文章首先在分析了JPM-1型接触疲劳试验机结构和性能的基础上对原有试验系统的载荷和加速度进行了改造,增加了测量摩擦力矩的扭矩传感器,给出了该试验机的总体模型,建立了有关参数的数学模型。结合振动加速度信号的特点,利用它和特征参数峭度对其大小加以评
水力压裂工艺作为一种重要的增透技术,已经在地面煤层气的开发中得到了广泛的应用。将地面水力压裂技术移植到井下,可以增大抽采钻孔间距、提高瓦斯抽采浓度,达到安全、高效开采
草地蝗虫吸捕机采用物理方法防治草原蝗虫,针对草地蝗虫吸捕机吸捕率低的问题,结合蝗虫在吸捕时的跳跃躲避特性以及吸头处流场分布的研究,对吸头工况进行优化设计。首先在对
本文简要分析了CAPP的发展和特点,提出当前CAPP系统中存在的主要问题和发展方向。对零件信息、工艺规程以及工艺参数等信息进行了必要的数据抽象和建模,在此基础之上设计了完善
本文通过对荣华二采区10
期刊