【摘 要】
:
Blog是一种基于RSS技术的信息交互平台,它是一种作者与读者以日志风格进行交互的中介,是一种崭新的信息传播和交互方式。与传统的网络信息相比,Blog具有动态性、交互性以及共
论文部分内容阅读
Blog是一种基于RSS技术的信息交互平台,它是一种作者与读者以日志风格进行交互的中介,是一种崭新的信息传播和交互方式。与传统的网络信息相比,Blog具有动态性、交互性以及共享性等特点。为用户在互联网上发布信息和进行交互提供了方便。随着Blog的迅速发展,信息量的膨胀和信息源的无限增加使得互联网用户很难找到高质量的Blog。另一方面在Blog信息源中存在着大量的垃圾Blog,即使在一个高评价的Blog中也存在着大量的垃圾评论信息。给互联网用户的阅读与交流带来了不便。如何对Blog信息进行分析评定Blog的质量成为一个亟待解决并且及具有意义的问题。本文对基于评论分析的Blog观点提取技术进行了研究,目标是对Blog信息源进行评价得到读者对Blog的支持度。由于是从评论的角度分析Blog观点,发现在Blog中存在着大量的垃圾评论,因此本文的研究内容包括垃圾评论的识别过滤以及Blog观点提取。在对评论信息进行深入研究之后,发现垃圾评论具有评论内容高度重复性、垃圾评论者集合性、垃圾链接集合性以及垃圾评论发布时间的局部密集性等特征。本文针对垃圾评论的特征分别从内容角度、链接角度和发布时间角度对评论信息分析打分,通过得分与指定阈值的比较识别垃圾评论。对Blog结构进行深入研究之后,发现可以从评论数目、评论内容和评论中包含的情感词汇来分析。本文在垃圾评论识别过滤的基础上对评论信息进行分析,分别从上述三个角度分析对Blog打分,通过平衡因子得到Blog支持度。基于以上的研究成果,本文设计并实现了一个Blog观点提取的实验原型系统,包括了数据解析、垃圾评论过滤、情感词提取、观点提取等模块,为进行相关的算法实验和研究提供了一个基础平台。
其他文献
汉字识别系统是将图像数据中的文字信息提取出来的一种系统。根据图像数据的种类,汉字识别系统有着各种各样广泛的应用。比如银行单据识别,电子图书馆,邮政编码自动分类,手写
传统上,发现药物过程主要包括三个阶段:发现、临床前阶段和临床开发。整个过程费时昂贵,却往往效率低下。药物重定位正是在这种情况下提出来的,其目标是通过识别和使用已知的药物,来治疗目标疾病以外的其他疾病。以往的药物重定位方法主要是基于药物基因疾病的关系,而丢弃了许多重要的信息,为了解决这个问题,本文集成各种数据,从多角度推断药物作用,提出了两种新的方法,来解决药物重定位问题。第一种方法关注表型数据,提
关联挖掘作为数据挖掘的一个重要研究分支,其主要研究目的就是从大型数据集中发现隐藏的、有趣的、属性间的规律,即关联规则。由于形式简单、易于理解,且是从大型数据库中提取知
当前多媒体已经成为信息传递的主要方式,多媒体广泛地应用于各行各业,如广告、教育、医学、商业、娱乐等方面。同时随着计算机和网络技术的快速发展,信息的传递变得越来越方
随着数据库技术的成熟和数据应用的普及,人类积累的数据量正在以指数速度增长。当数据量极度增长时,如果没有有效的方法,由计算机及信息技术来提取有用信息和知识,人们也会感到面
自“信息高速公路”提出以来,网络在全世界以惊人的速度发展着。Internet将全世界联系起来,LAN、WAN等局域网技术使局域网内资源、信息得以传播和共享。视频会议系统正是在这
当今Internet技术的飞速发展和网络主机数量的大量增加给网络带宽和服务器带来巨大的挑战。从网络技术的发展来看,网络带宽的增长远高于处理器速度和内存访问速度的增长,所以
基因拷贝数是指某一种基因或某一段DNA序列在某一生物基因组中的个数。基因拷贝数变异是指和参考基因组相比,DNA片段在1Kb至1Mb范围内的缺失或增加的一种结构变异现象。基因
鱼的年龄知识是鱼类资源评估和管理的一个重要考核指标,传统年龄估计方法就是鱼类科学家根据耳石内钙化形成的结构来判断鱼的年龄,但由于耳石的形成、发育受许多因素的影响,
随着网络技术的发展和持续完善,为使用户获得更好的用户体验,诸多个性化推荐系统不断涌现。协同过滤技术是传统个性化推荐系统中发展较为完善、应用较为广泛的一种推荐技术,