Web挖掘中的链接分析与话题检测研究

被引量 : 3次 | 上传用户:qq147662
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web已经成为人类存储和共享信息的主要平台。对于这个庞大的信息源,如何检索有用的信息是个十分具有挑战性的课题。由于Web的特性,如大量的非结构或半结构化的文档以及多媒体信息、参差不齐的网页质量等,使传统的用于结构化数据的信息检索技术很难有效地应用。Web上的信息检索已经形成一门独立学科,研究内容非常广泛。本文针对Web上的信息检索的研究热点,在以下几个方面展开深入研究。首先,本文研究了现代搜索引擎的重要组成部分——网页排名算法。针对现在主流的主题相关网页排名算法HITS的不足,本文提出了基于引力模型的排名算法G-HITS。该模型将网页看作质点,将涉及网页排名的各种因素描述成网页的质量或距离,用万有引力描述网页的关系,从而克服纯粹基于链接的排名算法的不足。其次,针对日益猖獗的网页排名作弊现象,本文研究了反基于链接的网页排名作弊问题。本文首先分析了著名的TrustRank算法和Anti-TrustRank算法只能传播信任或非信任的问题,提出了同时传播信任和非信任的综合框架。该算法克服了TrustRank算法和Anti-TrustRank算法的不足,提高了反网页排名作弊的效率。第三,本文研究了Web上社区识别问题。社区是Web上的重要现象,反映了Web上话题的分布。社区识别可以通过挖掘Web图的稠密子图发现这种话题分布。现有社区识别算法都是以网页为基本单位的。但每个网页都包含多个主题。本文提出了基于网页分块的社区识别算法,解决了网页的多主题问题,使社区识别的精确度得到明显提高。最后,本文研究了Web上的话题检测问题。为了更有效地检测话题,本文首先研究了谱聚类算法,对现有谱聚类算法进行了改进,并用改进的谱聚类算法进行话题检测。接下来,本文提出基于超图划分的话题检测算法。该算法对Web特征进行了二次提取,并使用超图划分算法进行话题检测,使话题检测的精度得到明显提高。
其他文献
工程总承包安全管理是对工程项目所有安全因素及安全事项进行全面策划和控制的过程,涵盖设计、施工、调试及运行等建设阶段。通过对工程项目全过程和全方位的安全管理,使得工程
随着全球范围内信息化进程的不断推进,信息资源和信息技术作为新型的生产要素进入再生产的全过程。这种环境下的再生产过程不仅给生产方式、生活方式以及社会的发展带来了深刻
杨氏模量测定是物理实验教学中的一个重要实验,针对实验中存在的误差来源及减少误差的办法进行深入分析.通过理论分析和实验验证,测定的杨氏模量实验数据精度明显改善.
<正>墨尔本,维多利亚州首府,澳大利亚第二大城市。从2011年起,连续3年摘得"世界宜居城市"桂冠。这里美妙的自然环境、轻松的生活氛围、科学的教育体系、较多的工作机会,吸引
2007年美国次贷危机爆发并迅速扩散开来成为全球性金融危机,以美元为核心的国际货币体系的弊端越发明显。近年来,人民币稳步升值,非居民已经开始持有人民币和人民币资产,人民币国
<正> 各国建造的档案馆形形色色,五花八门,或好或坏。档案馆建筑是各国档案界经常研究的重要课题。由于各个国家兴建的档案馆各有短长,每个国家都可以从其它国家的档案馆建筑
实现基层计生协会工作的新突破,必须加强组织建设和队伍建设,建立健全利益导向、宣传和教育培训等长效机制,同时要拓展计生协会的服务领域。
“绿色饭店”比其它类型饭店能够节约10%能源,减少废弃物的排放和对生态环境的破坏,有利于实现饭店业的“绿色”发展,促进资源节约型与环境友好型社会的建设。自2007年沈阳市
本文研究的目的是针对老年人群体最为关切的健康医疗问题,设计、构建社区健康养老信息系统,应用于社区养老服务工作的综合信息系统之中,为社区养老服务信息化的深入研究和不
2010年4月16日,中国金融期货交易所推出沪深300股指期货正式进行交易,标志着股指期货登上了中国证券市场的舞台。两年多的发展,沪深300股指期货的成交量和成交额不断扩大,对证券