论文部分内容阅读
面对Internet上的信息海洋,人们利用搜索引擎往往难于找到自己真正所需的信息和知识。Web信息挖掘技术可以有效地解决如何在异质、分布的Web上快速、有效地发现资源和知识,可以弥补搜索引擎的不足。 本文的研究目标是帮助人们在网上进行领域信息搜集和挖掘。本文在研究Web信息挖掘技术和智能Agent技术的基础上提出了一个面向领域的网上信息挖掘模型,围绕该模型的构建和软件实现,本文的主要工作和创新有: 首先,所提出的模型系统采用多Agent体系结构,面向实际领域。作者在该系统模型中同时表达了文档、领域和用户三种信息描述模型。文档是信息处理的对象,文档模型的建立是特征提取、文档过滤等智能信息处理的基础;利用主题概念及其关键词表达领域模型,使得信息服务突出了面向领域的特征,可以更好地实现信息服务的个性化、智能化;用户模型则体现用户的兴趣和意图,用于用户兴趣的表达和挖掘。 其次,在信息搜索Agent中,作者研究了文本特征选取和特征匹配问题。系统首先对领域训练样本进行学习,利用领域词典对训练文本进行词条切分和词频统计,并根据词频分布,提取代表采集目标的特征项集和相应的权重,生成特征矢量,形成初始领域模型和用户模型。然后,由搜集、监测Agent根据领域模型在Internet上搜集文档和信息。分析、过滤Agent对所搜集到的网页进行分析,抽取文档特征,形成文档的结构化表示。 再次,作者研究了基于内容和基于社会相结合的文档推荐方法。基于内容的推荐方法中,选择、推荐Agent通过比较结构化的文档属性与用户模型,寻找相似度最大的用户,并将其选择的文档推荐给用户;而采用社会的方法中,用户可以主动向系统提供其自行收集到的URL或其他文档,选择、推荐Agent通过比较用户间的相似性,从而可向相似用户推荐相应URL或其他文档。 第四,作者研究了学习Agent使用强化学习、遗传算法自适应地调整领域模型和用户模型。学习Agent的学习过程,既是用户相关性反馈过程,也是用户兴趣挖掘过程。系统通过记录用户浏览行为、获取用户对文档的反馈,以及从网上搜集到的文档作为学习的“原始强化信号”,通过用户模型、文档模型和领域模型的相互作用将强化信号传播到领域模型、用户模型中,从而实现自适应调整。同时系统利用遗传算法对用户模型进行主动调整。 最后,本文设计并编程实现了WMS网上农业信息挖掘原型系统。