面向智能信息检索的Web挖掘关键技术研究

被引量 : 17次 | 上传用户:speedieke
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
WWW自从1991年问世以来得到了非常迅速的发展,为人们获取各种信息提供了方便。随着Internet技术的不断发展和完善,WWW将会逐步成为人们获取信息的一个重要渠道。如果说,在信息量相对较少的时候,Internet为人们获取信息提供了方便的话,随着Internet上信息量的急剧增加,人们却感觉到查找所需要的信息越来越困难了,其原因就在于传统的信息检索方式已越来越不适应网上的海量信息,人们希望有更加智能化的信息检索方式出现,以应对海量信息的检索。 本文对面向智能信息检索的Web挖掘的若干关键技术进行研究,重点研究了数据预处理、Web页面分类/聚类及Web用户分类/聚类、概念检索、个性化服务等问题,提出或改进了一些应用于智能信息检索的Web挖掘算法,应用研究成果实现了一个小型智能化信息检索的系统原型。 数据预处理包括基于PDF文件的信息抽取、中文文本分词和Web日志预处理。对于PDF文件信息抽取,提出了基于格式注入的规则抽取和基于树模型的信息抽取算法,在人工标注指导下学习信息抽取规则,取得了较高的信息抽取准确率。对于中文文本分词,提出了基于固定词典和统计相结合的渐进式丰富词典的中文文本分词方法,较好地解决了新词识别问题,相对于单纯的词典方法或统计方法,具有更好的分词效果。Web日志预处理包括数据清洗、用户识别、会话识别和路径补充等工作,在分析已有工作的基础上,重点讨论了路径补充问题并提出了新的路径补充算法,使Web日志预处理工作更加完善。 在中文页面分类研究中,讨论了用于文本分类的各种方法,重点讨论了对文本分类具有较高分类准确率的k-近邻方法。针对k-近邻方法分类效率不高的问题,提出了基于密度的训练样本集约减、渐进式分类等算法。通过计算训练样本集中各类别的类别密度及整个训练集的平均密度,去掉高密度类别中的部分样本;渐进式分类模式模拟人工分类文本的智能化形式,分为按标题分类、按关键段落分类和按全文分类三个层次,尽量减少分析全文的比例。实验表明,这两个方面的改进,不仅提高了k-近邻方法的分类效率,而且对其分类准确率也有一定程度的提高,这说明训练样本集的约减使其具有更好的代表性,渐进式文本分
其他文献
论文主要包括文献综述和临床研究两部分。 文献综述共三篇。第一篇讨论动脉粥样硬化(AS)、急性冠脉综合征(ACS)的发病机制,介绍国内外近十年来的研究成果。由于 ACS 是在 AS
永磁同步电机(permanent magnet synchronous motor,PMSM)具有功率密度高、效率高、结构简单、可靠性高等优点,是无人潜航器推进系统的核心。水下推进电机系统对低频和高频振
目的:通过应用Octopus-101全自动视野计检测年龄相关性白内障患者的视野指标,试图了解不同时期的年龄相关性白内障的视野变化特点,并根据视野检查结果预测白内障术后视力,对影响
腰椎间盘突出是导致腰腿痛的常见原因,严重影响患者的健康状况和生活质量,且其发病率呈逐年上升趋势。国内外流行病学调查显示成人发病率约2%,男女无明显差异,且发病年轻化。
在社会主义市场经济条件下,企业逐步成为独立承担职业危害的实体及安全生产责任和义务的主体。因此,在建立合理的安全生产管理责任的同时,应研究和运用好员工激励机制的作用,
目的: 1 复制出亚急性衰老小鼠模型,通过检测相关指标来观察补肾活血化痰方延缓衰老的治疗效果。 2 探讨衰老机制和补肾活血化痰法抗衰老作用。 方法: 1 分组:选用健
<正>把战斗文化基因植入兵之初兵之初,既是军营生活的序曲,也是新战士世界观、人生观、价值观的重塑期。人们常讲:播种什么行为,收获什么习惯:形成什么习惯,养成什么作风。培
期刊
近年来,互联网上每天都产生海量的财经资讯信息,伴随着大数据、人工智能技术的蓬勃发展,财经新媒体行业不断出现新的商业模式,产品形态也不断推陈出新。各大移动端个性化财经服务类终端以及各类财经自媒体新面孔开始不断涌现,更多投资者习惯使用手机获取财经资讯服务,传统财经资讯媒体虽然拥有庞大的用户基础,但面临着如此激烈的市场竞争,必须借鉴新兴财经资讯平台的发展经验,借助先进的人工智能技术实现财经媒体平台服务再
随着网络技术的发展,大数据被应用到学校的班级管理当中。在此背景下,班级管理的实践得到了创新和发展,使得管理模式更加科学规范。本文将从教师对大数据的掌握、利用大数据
集体行动作为一种社会建构,基于诸多因素的考量,行动困境似乎成为了常态。而有关走出这一困境的学术思考却存在着多种视角的解读,但显然,以制度建构为核心的逻辑进路成为最为