基于内容与链接分析的重要Blog信息源发现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jql
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Blog是一种基于RSS技术的信息交互平台,它是一种作者与读者以日志风格进行交互的中介,是一种崭新的信息传播和交互方式。与传统的网络信息相比,Blog领域链接关系更加丰富,Blog信息源间交互更加频繁,为用户在互联网上发布信息和进行交互提供了方便。随着Blog的迅速发展,信息量的膨胀和信息源的无限增加也带来了严重的问题,非法广告和含有不健康内容的危害信息等层出不穷,并通过博客方便快捷的渠道快速传播。另一方面,信息量的膨胀和信息源的无限增加给互联网用户查找自己所关心的信息带来了不便。本文的研究目的在于识别Blog领域的危害信息,并发现重要的Blog信息源,为用户查找相关信息提供方便。研究中采用基于内容的方法,运用文本相似度计算的相关技术识别并过滤Blog领域的危害信息,并取得了较好的效果。为了给用户阅读和查找信息提供方便,本文还提出了一种基于链接分析的对Blog信息源进行量化评估的方法,在此基础之上发现重要Blog信息源,既体现了Blog信息的特点,又在一定程度上减小了作弊链接对链接分析结果的影响,能为用户阅读信息提供方便,并可望为Blog信息检索提供一种新的思路。为了证明该评估方法的有效性,本文还提出了Blog信息源重要性的评价指标,对比了233个Blog信息源量化评估方法和评价指标的评分结果,通过相关性分析证明了此方法和评价指标存在高度的一致性。此外,模拟了多种作弊链接的情况,并在此基础上依据新的链接关系重新计算重要性值,对比了作弊链接前后1057个Blog信息源的重要性值,相关性分析的结果显示作弊链接前后的重要性值相关系数均大于0.9,表明作弊链接对本文提出的方法影响较小。
其他文献
随着互联网和物联网技术的不断发展,3G和GPRS等无线传输技术与计算机技术相结合的应用层出不穷,基于以上的条件,设备远程监测技术也得到了非常大的发展。尤其是在安全生产越来越
随着Internet迅猛发展,出现了访问延迟过长、服务器过载等一系列问题。代理缓存技术能很好的解决上述问题,并得到了广泛应用。然而由于用户的增多和Web流量的迅速增加,单个代
软件复用是软件业界为解决日益严重的“软件危机”和日趋复杂的软件需求而提出的一种对策。软件复用技术随着面向对象技术和分布式对象技术的应用而得到迅猛的发展,在当前的
随着计算机网络技术地快速发展,网络上的信息量与日俱增,用户往往会感觉不知所措,在大量的学习资料中找到自己的需求也越来越难,这也引起许多学者和专家们对这个网络问题的研
近年来,嵌入式系统应用范围越来越广阔,功能不断增强,其需要处理的数据量也越来越大。如何有效地组织和管理这些数据成为嵌入式系统开发者必须要考虑的一个重要问题。于是,嵌
入侵检测技术是在传统的安全策略无法满足日益苛刻的安全需求的情形下产生的,它的出现给计算机安全领域的研究带来新的活力。在入侵检测技术中,对网络数据包有效载荷进行攻击
因特网技术和移动通信技术的不断发展和进步,使移动计算成为当前计算机科学领域一个十分活跃的研究课题。Ad hoc网络,作为一种特殊形式的移动计算机网络,可广泛应用于战场指挥、
水位测试系统是为了动态跟踪高精度测量河流模型中的水位变化而设计的实时测控系统,河流模型是为了研究河道再造河床过程、不同时期的洪水演进过程、江湖关系变化及防洪对策而
Internet在世界范围内的迅猛发展使得网络上聚集了越来越多的信息,而这些信息90%以上是以文本的形式表现的,这极大地推动了自然语言处理技术的发展。目前,自然语言的处理技术
大规模定制生产模式被誉为21世纪企业竞争的新前沿,对个性化的客户订单实施有效的大规模生产,是成功实施大规模定制生产模式的关键。目前,各国学者对大规模定制生产方法已经开展