Web挖掘中的链接分析与话题检测研究

被引量 : 3次 | 上传用户：qq147662

【摘要】

：

Web已经成为人类存储和共享信息的主要平台。对于这个庞大的信息源,如何检索有用的信息是个十分具有挑战性的课题。由于Web的特性,如大量的非结构或半结构化的文档以及多媒体

【作者】

：

刘馨月

【发表日期】

：

2012年01期

【关键词】

：

Web信息检索 Web挖掘链接分析社区识别话题检测

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Web已经成为人类存储和共享信息的主要平台。对于这个庞大的信息源,如何检索有用的信息是个十分具有挑战性的课题。由于Web的特性,如大量的非结构或半结构化的文档以及多媒体信息、参差不齐的网页质量等,使传统的用于结构化数据的信息检索技术很难有效地应用。Web上的信息检索已经形成一门独立学科,研究内容非常广泛。本文针对Web上的信息检索的研究热点,在以下几个方面展开深入研究。首先,本文研究了现代搜索引擎的重要组成部分——网页排名算法。针对现在主流的主题相关网页排名算法HITS的不足,本文提出了基于引力模型的排名算法G-HITS。该模型将网页看作质点,将涉及网页排名的各种因素描述成网页的质量或距离,用万有引力描述网页的关系,从而克服纯粹基于链接的排名算法的不足。其次,针对日益猖獗的网页排名作弊现象,本文研究了反基于链接的网页排名作弊问题。本文首先分析了著名的TrustRank算法和Anti-TrustRank算法只能传播信任或非信任的问题,提出了同时传播信任和非信任的综合框架。该算法克服了TrustRank算法和Anti-TrustRank算法的不足,提高了反网页排名作弊的效率。第三,本文研究了Web上社区识别问题。社区是Web上的重要现象,反映了Web上话题的分布。社区识别可以通过挖掘Web图的稠密子图发现这种话题分布。现有社区识别算法都是以网页为基本单位的。但每个网页都包含多个主题。本文提出了基于网页分块的社区识别算法,解决了网页的多主题问题,使社区识别的精确度得到明显提高。最后,本文研究了Web上的话题检测问题。为了更有效地检测话题,本文首先研究了谱聚类算法,对现有谱聚类算法进行了改进,并用改进的谱聚类算法进行话题检测。接下来,本文提出基于超图划分的话题检测算法。该算法对Web特征进行了二次提取,并使用超图划分算法进行话题检测,使话题检测的精度得到明显提高。

其他文献

电力工程总承包模式下的安全管理

工程总承包安全管理是对工程项目所有安全因素及安全事项进行全面策划和控制的过程，涵盖设计、施工、调试及运行等建设阶段。通过对工程项目全过程和全方位的安全管理，使得工程

期刊

现场安全管理强制性条文本质安全设计危险有害因素监督检查事故预警应急处置

山西省企业环境行为信息管理系统的设计与实现

随着全球范围内信息化进程的不断推进，信息资源和信息技术作为新型的生产要素进入再生产的全过程。这种环境下的再生产过程不仅给生产方式、生活方式以及社会的发展带来了深刻

学位

管理系统企业环境行为信息Visual Studio2010Microsoft SQL Sever2008

杨氏模量测定实验误差分析与研究

杨氏模量测定是物理实验教学中的一个重要实验,针对实验中存在的误差来源及减少误差的办法进行深入分析.通过理论分析和实验验证,测定的杨氏模量实验数据精度明显改善.

期刊

杨氏模量光杠杆误差数据

雨洪管理的领军城市——维多利亚州首府墨尔本

<正>墨尔本,维多利亚州首府,澳大利亚第二大城市。从2011年起,连续3年摘得"世界宜居城市"桂冠。这里美妙的自然环境、轻松的生活氛围、科学的教育体系、较多的工作机会,吸引

期刊

雨洪管理水务局墨尔本维多利亚州

香港人民币离岸金融市场建设研究

2007年美国次贷危机爆发并迅速扩散开来成为全球性金融危机，以美元为核心的国际货币体系的弊端越发明显。近年来，人民币稳步升值，非居民已经开始持有人民币和人民币资产，人民币国

学位

香港人民币离岸金融市场风险

世界各国档案馆建筑的比较研究

<正> 各国建造的档案馆形形色色,五花八门,或好或坏。档案馆建筑是各国档案界经常研究的重要课题。由于各个国家兴建的档案馆各有短长,每个国家都可以从其它国家的档案馆建筑

期刊

档案馆建筑档案库房档案工作者比较研究

要实现基层计生协会工作的新突破

实现基层计生协会工作的新突破,必须加强组织建设和队伍建设,建立健全利益导向、宣传和教育培训等长效机制,同时要拓展计生协会的服务领域。

期刊

计生协会计划生育

沈阳“绿色饭店”业发展对策研究

“绿色饭店”比其它类型饭店能够节约10%能源,减少废弃物的排放和对生态环境的破坏,有利于实现饭店业的“绿色”发展,促进资源节约型与环境友好型社会的建设。自2007年沈阳市

学位

沈阳市绿色饭店公共管理制度绿色发展

社区健康养老信息系统的设计与实现

本文研究的目的是针对老年人群体最为关切的健康医疗问题,设计、构建社区健康养老信息系统,应用于社区养老服务工作的综合信息系统之中,为社区养老服务信息化的深入研究和不

学位

社区健康养老信息化软件系统

我国股指期货市场有效性研究

2010年4月16日，中国金融期货交易所推出沪深300股指期货正式进行交易，标志着股指期货登上了中国证券市场的舞台。两年多的发展，沪深300股指期货的成交量和成交额不断扩大，对证券

学位

股指期货市场市场有效性弱式有效性

Web挖掘中的链接分析与话题检测研究

其他学术论文