健康领域的垂直搜索引擎的研究与实现

来源 :电子科技大学 | 被引量 : 4次 | 上传用户:anglecap
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生活水平和知识水平的日益提高,人们对自身的健康越来越关注。而传统的医疗服务方式,由于受到时空的限制,仅能为身处医院的人群提供服务。随着当今时代网络技术的发展,越来越多的人选择通过互联网来获取医疗健康类资讯以及相关服务。但是,由于网络上海量的数据信息,以信息覆盖面广为特点的通用搜索引擎在针对某一特定领域的信息查询时,会出现搜索结果准确率低或相关性低的问题。而能针对某一特定领域提供特定检索服务的垂直搜索引擎,就成了现在信息检索的热点研究方向。为了给用户提供可靠、精准、快速的健康类信息的查询服务,本文深入学习和研究了垂直搜索引擎的关键技术,并结合健康领域信息特点,设计实现了一个健康领域的垂直搜索引擎。主要研究内容分为以下五点:首先,通过垂直搜索引擎相关技术的学习和研究以及健康领域信息检索的特点,完成了健康领域的垂直搜索引擎的整体结构设计。其次,为保证健康类信息的可靠性,本文确定了使用人工预选的方式来进行网页采集。同时,为了解决人工预选的网页采集策略带来的数据局限性问题,提出了基于内容相关度判定的,对于人工预选的种子站点的推荐策略。第三,为了解决中文分词中未登录词识别的问题。提出了一种以词典分词为基础,同时结合规则和统计的分词算法对未登录词进行预选和判定的健康领域未登录词的识别算法,并基于开源分词器Jcseg实现了本文的中文分词模块。其中关键是,利用MMSeg词典分词算法对文本信息进行初步划分,而后根据指定的规则,以及提取出的健康领域词词素,来进行健康领域未登录词的预选提取,最后,利用边界熵来对预选词进行最后判定。第四,结合数据表实现了Lucene索引的批量更新。通过对不同域设置不同权重来改进了Lucene的文档评分。并且,除了全文检索外,还提供了按标题、内容检索的功能,以及指定来源网站的功能。最后,对中文分词效果以及搜索结果做了测试,证明了本文研究内容的可行性。
其他文献
在计算机世界,尤其是图形学的动画制作中,渲染过程是最后一项非常重要的步骤,可以实现人们想要实现的、逼真的视觉效果。随着人们对视觉效果的要求越来越高,基于物理的流体渲
在数据网格环境中一个文件可能有多个副本,这些副本通常数量级大并且是分布存储的,因此当计算结点在远程调用某个文件时需要对该文件的众多副本进行优化选择。本文在深入研究
大容量存储设备和数字化设备的出现和广泛使用,以及多媒体技术和网络技术的迅速普及,导致互联网上的图像数据海量增加。如何迅速、准确地从浩瀚的图像库中检索到所需要的图像
在软件工程中,软件成本估算与需求分析并列,是软件开发成功最重要的两个因素。软件成本估算是将用户需求和软件项目开发联系起来的重要桥梁。软件成本估算是软件成本管理和制定
早期基于文本的视频检索需要耗费大量的人力,而且由于人的因素,对视频的描述信息及其提取的关键词都具有很强的主观性。因此,基于内容的视频检索技术成为了近年来视频检索的
随着当今互联网应用地迅速崛起,广大用户很方便地接收到来自各种应用渠道的大量信息,对信息的需求得到了极大地满足。互联网信息数量激增随之带来的信息过载问题使得互联网信
随着医学图像采集设备(如X光、CT和MRI)的普及,医学图像依然成为了记录和保存病人生理疾病信息的重要载体。一方面,医学图像日复一日的增加,给医生工作者带来了额外的负担,并
根据摩尔定律,传统计算机中的晶体管电路逐渐接近性能极限,再加上电子计算机在计算能力等方面存在的局限性,科学家期待并开始寻找新的计算模型来代替传统的电子计算,其中生物
近年来,随着互联网的发展和企业信息化正日益加剧,使得企业内部的各种应用系统得到了广泛地应用。但由于其开发时间和开发部门的不同,使得这些数据源往往呈现出异构现象,并且
车辆牌照识别系统(LPR)作为一个专用的计算机视觉系统,能够自动地摄取车辆图像并识别出车牌。LPR系统的研究涉及数字图像处理、计算机视觉、模式识别与人工智能等多个技术领