【摘 要】
:
随着Web信息技术的迅速发展,用户可以越来越方便快捷地获取各种信息,与此同时,也面临着如何从大量Web信息中获取相关及有用信息的问题。虽然,通过使用传统的Google、百度、Ly
论文部分内容阅读
随着Web信息技术的迅速发展,用户可以越来越方便快捷地获取各种信息,与此同时,也面临着如何从大量Web信息中获取相关及有用信息的问题。虽然,通过使用传统的Google、百度、Lycos等搜索引擎,可以大大减少无用信息的干扰,但这些搜索引擎搜索的结果有时也不完整或不相关,很难完全满足用户的需求。值得庆幸的是,目前Web数据挖掘技术的研究可以解决Web上过量信息的问题,通过对Web超链接结构进行分析,为用户提供更精确、更相关的数据。因此,Web数据挖掘逐渐成为目前研究的热点。本文从Web结构挖掘入手,在对Web结构挖掘中典型算法PageRank深入研究的基础上,针对PageRank算法只考虑Web页面之间的链接关系而忽略Web页面本身的文本内容,对权威性高的网页随着时间的推移赋予很高的权威值,而对新出现的网页赋予很低的权威值,从而导致搜索结果出现“主题漂移”和种种缺陷的问题,提出了一种基于超链接网页之间的距离及强化学习相结合的改进算法——DisRank。该算法把网页之间的距离作为“处罚”因子,以此来计算Web网页的等级值及对其进行排序。我们首先通过网页爬行算法抓取基于某个主题的、一定数量的网页作为训练样本,然后存储到数据库中,最后分别调用PageRank算法和改进算法DisRank进行实验,以证明改进算法的有效性。这其中包括改进算法DisRank抓取相关网页的吞吐量、不同β取值算法的吞吐量、精确度、收敛速度及算法时间复杂度等。最后,对本文所做的工作进行了总结,并提出改进算法需要进一步完善的地方及下一步研究工作的方向。
其他文献
目的观察腹针治疗糖尿病胃轻瘫的临床疗效。方法将70例糖尿病胃轻瘫患者随机分为治疗组和对照组,每组35例。两组均给予糖尿病常规治疗,治疗组采用腹针治疗,对照组口服莫沙必
自2005年以来,中国商业银行流动性过剩问题越来越严重。我国的外汇储备余额增速不断加快,到2008年底已到达19460.3亿美元,是2004年年底的3倍多,不断增加的外汇储备给银行体系
学校课程质量监控与保障将学校及其成员作为承担质量活动的主体,将学校课程质量的输入——过程——输出这一整个过程作为监控与保障的对象,对学校开展课程质量监控与保障的基
本文从外商直接投资对中国产业发展的作用分析入手,采用横向和纵向比较分析方法,分析了山西利用外商直接投资的现状及其在中部六省中的地位,分析了外商直接投资在山西当前产
山东乡村建设运动述评余科杰30年代中国农村曾掀起过一场以“救济乡村、建设乡村、乡村自治”为内容,以达到“复兴农村,复兴民族”为目标的乡村建设运动。在这场社会改良运动中,山
微时代的到来,时下最热门的移动端通信应用,微博、微信集合了即时通信、线上社交群落、网络自媒体、互联网金融等功能和角色,逐渐发展成为大学生在生活和学习等方面不可或缺
构建社会主义和谐社会是党和国家现阶段的重要任务。实现社会和谐,既需要雄厚的物质基础和可靠的政治保障,也需要有力的精神支撑和良好的文化条件。党的十六届六中全会提出要
少数民族体育项目中的舞蹈类项目在艺术性方面有着极高的欣赏价值,对于激发审美思维非常有帮助.本文分析少数民族体育舞蹈类项目与少数民族舞蹈的区别、少数民族体育项目舞蹈
真空断路器是输配电系统中的重要保护部件。断路器的性能直接关系到整个系统的可靠性,因此研究如何提高断路器的性能具有重要的实际应用意义。真空断路器最重要的性能指标是
随着我国国民经济的快速发展,化学品的使用量也大幅度增加,相应的突发性环境污染事故不断上升,已经成为当今社会普遍关注的环境和安全问题。通常这类事故发生时不仅会导致巨