基于Lucene的垂直搜索引擎关键技术研究

被引量 : 18次 | 上传用户:puweiaipk1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息的迅速增长,通用搜索引擎的搜索范围为整个互联网的所有信息,从而信息更新的时效性差,导致了通用搜索引擎的搜索结果多而杂的情况,不能满足特定用户对搜索结果的精确化、深入化的要求。于是,针对特定领域用户的特定需求而产生垂直搜索引擎。垂直搜索引擎专注于获取针对特定领域的信息并且提供相应信息的检索服务。本文首先介绍垂直搜索引擎的结构,工作流程和特点,并叙述垂直搜索引擎相关技术的研究现状。进而分析并研究垂直搜索引擎的一些关键性技术如主题爬虫的工作流程及主题爬行策略、网页主题信息提取算法和网页排序算法。在探讨网页主题信息提取算法中,根据现有的HTML网页的结构特点,把HTML文件中的文本内容划分成若干块,统计各个文本块内的文字数,从而找出文本分布密集的区域,把此区域作为网页正文区域,从而提取网页的主题信息,通过实验与数据分析本文提出的基于文本块的网页主题信息提取算法有较大的准确度。本文通过对现有的词频位置加权算法、HITS算法和PageRank算法进行分析,得到改进的PageRank算法,该算法利用余弦相似度算法对相链接的网页的相似度进行分析,还在算法中加入时间因子,反映了网页的年龄。改进的PageRank算法同时利用了网页的链接结构和网页之间的内容相关性,避免了原PageRank算法的主题漂移和偏向于旧网页的缺点,通过实验证明改进的PageRank算法在很大程度上改进了排序的效果。最后本文对全文检索工具包Lucene的相关技术进行分析和研究,包括Lucene的系统架构,索引机制、搜索机制和评分机制。在此基础上,利用Lucene全文检索工具包设计并实现了一个面向校园网内教学学习资源的小型垂直搜索引擎原型。该垂直搜索引擎原型利用Heritrix实现信息的搜集,并且利用Lucene实现搜索引擎的索引模块和搜索模块。针对该垂直搜索引擎原型的实际需求,利用Paoding分词器扩展Lucene的中文分词功能,利用Apache POI实现Office文档的解析,包括Word文档、PowerPoint文档、Excel文档,并且利用Xpdf实现对PDF文档的解析,还实现了对txt文档和Html文档的解析。同时,该垂直搜索引擎原型对Lucene的评分机制进行扩展,利用改进的PageRank算法改进网页排序的效果。通过测试运行,该垂直搜索引擎原型达到了预期的目标。
其他文献
本文以江苏全省金融统计数据为基础,对江苏小微企业和"三农"贷款统计数据中涉及的统计口径、贷款结构等相关问题作了深入细致的分析,并在此基础上对"两个不低于"作为监管考核
随着可编程逻辑器件(FPGA)越来越广泛的应用,市场的需求也日益增大。但FPGA本身也有其局限性——每次系统上电芯片需重新配置数据。本文提出了一种新的解决方案。本文介绍FPG
本文对红外探测器光谱响应率的定标方法进行了研究。选定待测探测器为TS-76,红外光谱波长范围为1μm~3μm。定标过程是利用两种参考探测器在两套定标系统上实现的。第一步,在
各种通信系统之中,滤波器都不可或缺。通过对平行耦合线底部开槽的方式得到的超宽带滤波器结构简单、易于加工、便于系统集成,适合不同系统需要。改良了基于经典哑铃型DGS结
痛经指行经前后或月经期出现下腹部疼痛,坠胀,伴有腰酸或其他不适,症状严重影响生活质量者。陈莹教授认为该病多数患者以肾阳虚为本,瘀血阻滞冲任为标,治疗主以温肾助阳,佐以
随着社会的发展,我国的科技也在逐渐的进步,信息化和网络的应用变得越来越广泛。其中,现代会计工作日益受到严峻的挑战,因为当前会计工作量大,操作复杂,使用传统的会计模式和
课程资源俯首可拾,教育无处不在,而教师自身就是可开发的最重要的课程资源。
期刊
<正> 0023777 血浆肿瘤坏死因子-α在进行性衰老和胰岛素耐受性中的作用/PaolissoG//Am J Physiol.-1998,275(2 Pt 1).-E294~299 医科情
<正> 随着社会主义市场经济的发展,无形资产正被日益重视。由于我国的历史原因和多年来经济体制的影响,对无形资产评估方法的研究起步较晚,还未形成一套科学、合理、完善的评
农民是建设新农村的主体,也是构建和谐农村的主力军,农民素质高低在全面建设小康社会和解决"三农"问题上起主导性作用。因此,在社会转型时期,大力发展农民教育,构建农民教育