论文部分内容阅读
随着生活水平和知识水平的日益提高,人们对自身的健康越来越关注。而传统的医疗服务方式,由于受到时空的限制,仅能为身处医院的人群提供服务。随着当今时代网络技术的发展,越来越多的人选择通过互联网来获取医疗健康类资讯以及相关服务。但是,由于网络上海量的数据信息,以信息覆盖面广为特点的通用搜索引擎在针对某一特定领域的信息查询时,会出现搜索结果准确率低或相关性低的问题。而能针对某一特定领域提供特定检索服务的垂直搜索引擎,就成了现在信息检索的热点研究方向。为了给用户提供可靠、精准、快速的健康类信息的查询服务,本文深入学习和研究了垂直搜索引擎的关键技术,并结合健康领域信息特点,设计实现了一个健康领域的垂直搜索引擎。主要研究内容分为以下五点:首先,通过垂直搜索引擎相关技术的学习和研究以及健康领域信息检索的特点,完成了健康领域的垂直搜索引擎的整体结构设计。其次,为保证健康类信息的可靠性,本文确定了使用人工预选的方式来进行网页采集。同时,为了解决人工预选的网页采集策略带来的数据局限性问题,提出了基于内容相关度判定的,对于人工预选的种子站点的推荐策略。第三,为了解决中文分词中未登录词识别的问题。提出了一种以词典分词为基础,同时结合规则和统计的分词算法对未登录词进行预选和判定的健康领域未登录词的识别算法,并基于开源分词器Jcseg实现了本文的中文分词模块。其中关键是,利用MMSeg词典分词算法对文本信息进行初步划分,而后根据指定的规则,以及提取出的健康领域词词素,来进行健康领域未登录词的预选提取,最后,利用边界熵来对预选词进行最后判定。第四,结合数据表实现了Lucene索引的批量更新。通过对不同域设置不同权重来改进了Lucene的文档评分。并且,除了全文检索外,还提供了按标题、内容检索的功能,以及指定来源网站的功能。最后,对中文分词效果以及搜索结果做了测试,证明了本文研究内容的可行性。