基于文本分类的WEB信息检索技术的研究

被引量 : 0次 | 上传用户:delicioussmoke
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅猛发展,搜索引擎已经成为人们处理Web信息、获取信息资源的必备工具。传统的搜索引擎,即通用搜索引擎不能满足人们对个性化信息检索服务日益增长的需要。近年来,基于文本分类技术的面向专题的搜索引擎应运而生,以提供分类更细致精确的Web信息检索服务。文本自动分类是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。近年来,文本分类技术已经逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量。文本自动分类技术能够有效地将文本信息组织管理起来,帮助人们准确高效的定位文本信息,为用户获取所需信息提供有力的支持。文本分类的关键技术主要包括向文本表示模型、特征项赋权、特征选取、分类器构建等,本文对这些技术作了详细介绍和深入分析。本文在向量空间模型基础上,通过针对常用的特征权重计算方法TF-IDF的分析,提出了一种新的权值计算方法。该权值计算方法将特征评估函数包含到特征权值计算中,按照特征对文本分类的辨别能力调整其在权重计算中的贡献。网页是一种超文本文档,其中含有文本信息和许多超文本标记等结构信息。本文通过分析HTML标记对特征值权重的影响,在特征赋权方面,提出了结合TF-IDF与HTML标记分布信息的权重计算法。实验结果表明改进的权重计算法对分类精度有所提高。本文介绍了Lucene搜索架构以及Lucene各个模块的组成和使用,利用开源的Lucene引擎架构设计一个搜索测试系统。
其他文献
张景中院士结合自身多年的教学实践和科研探索提出了初等数学新体系,广州市海珠实验中学的"院士数学教育创新实验班"在张景中团队的指导下认真实施初等数学新体系与现有初中
对课堂视频的实录和统计发现,优秀教师具有较强的课堂提问能力,并具有如下的课堂教学提问特点:(1)在数学课堂教学过程中,优秀教师在不同的教学环节所采用的提问数量和提问类
利用数学教学认识信念二维结构量表,研究职业院校不同教龄段数学教师数学教学认识信念各个维度的情态及认识信念之间的差异性,并分析认识信念的倾向性.不同教龄段教师对13个
元杂剧形象系列研究中目前做群像研究的较少,大部分都是就某突出人物做个别研究,即使做群像研究,很少有人去关注仆人这一群体,由于仆人本身较低的社会地位以及传统的戏剧审美
20世纪80年代的教学指导思想是“启发式”,“讲深讲透”成为追求的手段,在客观上占据了学生可以主动发挥的时间和空间.在20世纪90年代,大家比较推崇能力培养,“教师主导”有
大部分的传染病在感染易感者后都具有复杂的传播阶段,建立合适的数学模型可以研究如何控制疾病传播。本文包括两个模型,第一个模型是关于梅毒的分组模型,主要研究不同的人群
作为思维能力形成的关键时期,对幼儿的创新能力培养显得尤为关键,本文对此展开初步探讨,在介绍幼儿游戏概念内涵的基础上,从对幼儿思维能力、创新能力和实践能力的培养三方面
自2007年以来,从国家、社会到高校,都不断加大对贫困生的资助力度,高校辅导员把资助工作当作自己工作的重要组成部分,但大多将工作重心放在资助的公正公平上,而忽视或轻视了
六甲山花岗岩类位于日本西南部神户市北部,形成于晚白垩世,其中的土桥石英闪长岩是作为捕虏体出现于六甲花岗岩体中。本文通过对土桥石英闪长岩中角闪石和黑云母采用精确的40
本课题讨论了目前在图书馆服务质量评价领域得到广泛重视和逐步应用的LibQUAL+TM服务质量评价方法。从高校图书馆的角度,围绕LibQUAL+TM的产生发展、现有缺陷、改进方案、具