百科知识的快速检索方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:ywanywhere
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展,社会已经进入了信息化时代,查询资料的方式逐渐由图书馆或资料库进行检索这种简单直接的方式转变为通过电子和网络媒体来获取。随着时间的推移,互联网用户以及数据量变的庞大,对于信息检索技术的要求也越来越高,因此如何快速准确的返回与用户查询相关的数据显得至关重要。快速索引方法主要致力于仿生百科这一领域来进行探索,研究如何高效、准确的返回用户的查询结果。结合仿生百科的知识特点,构建基于百科的快速索引方法。整个方法主要由四个部分组成。首先,针对仿生领域词汇生僻的特点,进行数据预处理工作,使用以中文精确分词算法和N-gram模型为核心、以词内聚集度和词间组合度为量化指标的中文专业词汇发现方法。第二个部分为查询扩展,主要用于查询过短的情况,在用户输入的有效信息不足时使用TF-IDF算法和K-means算法对其进行扩充。第三个部分为标签提取,该部分采用Text Rank算法和LDA主题模型相结合的方法,对每个百科词条进行标签提取,获取到每个词条所对应的标签。第四个部分为内容排序,该部分目的在于准确的返回信息的重要程度。通过将内容的热门程度、相关程度添加到计算公式中,进行权重调试,保障热门以及用户所关心的内容均能出现在搜索结果的前列。在模型分析与验证部分中,使用中文维基百科语料库,从中抽取动植物相关文档来构成词条信息。通过设计对比实验,证明专业词汇提取可以提高词条分割的准确率,查询扩展可以提高结果的准确率,标签提取可以提高查询速度。
其他文献
学位
学位
学位
学位
化工工业是当今社会许多产业的支柱,在我国工业体系中占有举足轻重的地位,在社会经济飞速发展的今天,保障化工工业的良好发展具有十分重要的意义。然而,化工过程涉及复杂的工艺,仪器设备数量繁多,为技术人员的研究分析带来了不便。为了帮助化工从业者高效地完成化工过程的分析,攻克技术难题,本文提出通过构建化工过程知识图谱,提供一种有效全面的信息获取手段。并针对化工过程的复杂性和实时性等要求,提出了基于设计结构矩
解决我国可持续发展进程中遇到的保护、发展与福祉目标难以协调的问题,通常需要一定的政策工具创新,追求多维目标的实现。但现有围绕该问题的研究多从单一学科视角出发,难以对政策作用的机制和效果作出全面科学的评价。本研究基于新的研究理念与思路试图提出一个跨学科、多层次、多尺度的研究框架,建立政策分析、学术研究与治理干预之间互动融合的过程,并以一个研究案例为例介绍研究框架的具体应用过程。本研究所提出的研究框架
财务审计重要性水平作为注册会计师开展审计工作前应考虑的必要因素,其高低将对错报的识别及审计意见的出具产生重要影响。文章围绕薪酬水平影响财务审计重要性水平这一主题,结合股权性质所起的调节作用,以2016—2019年沪深A股上市公司为样本,从绝对和相对层面实证检验了薪酬水平与财务审计重要性水平之间的相互关系。实证结果显示,高薪酬水平往往伴随着较严格的财务审计重要性水平。进一步研究发现,不同股权性质下,
随着万物互联时代的到来,大规模的工业设备接入边缘网络,这些设备时时刻刻又在产生海量的数据,不仅使得数据采集和设备管控的规模日益庞大,还对任务处理带来挑战。网关系统融合了互联网和工业网络,完成了不同类型协议的转换,为数据采集和设备监控提供了平台。在此基础上引入边缘计算又能充分利用网络边缘端的资源进行及时的任务的处理。同时,OPC UA技术作为一种网络应用层协议栈,以其功能全面、传输安全和可跨平台的特
学位
图的规模越来越大,使得图数据存储以及高效执行图计算变得非常具有挑战性。无损压缩技术就是一种为减少图数据大小来适应内存的常用办法。压缩方式对于降低大规模图数据计算的成本至关重要。但是现有图数据压缩技术依旧存在压缩比低,解压开销大的问题。针对压缩比低的问题,能通过对图节点进行排序的方法挖掘图数据的局部性提升压缩率;针对计算时解压开销大的问题,选择一种新型编码方式在保证压缩效果的同时可以减少解压开销。但