【摘 要】
:
随着社区化搜索技术的不断发展,博客以极快的速度融入社会生活中,成为当前互联网上较重要的一种社会媒体,并随之带来博客文章数量的指数级增长,如何在数量众多的文章中准确找到与
论文部分内容阅读
随着社区化搜索技术的不断发展,博客以极快的速度融入社会生活中,成为当前互联网上较重要的一种社会媒体,并随之带来博客文章数量的指数级增长,如何在数量众多的文章中准确找到与用户查询相关的文章以及如何从海量的文章中快速查询到用户所需要的信息变得至关重要,即博客文章的排序和分类成为当前一项重要而紧迫的研究课题。为了提高博客文章排序的性能,本文在融合文章自身结构特征基础上,针对PageRank算法在博文排序中的主题漂移和轻视新博文,重视旧博文的不足进行改进。并且为了改善博客文章分类的性能,本文在传统贝叶斯分类算法的基础上,结合博客文章特有的结构和内容特性,展开研究。主要研究工作包含以下几个方面:(1)博文排序算法:本文重点研究传统的PageRank排序算法,针对其在博文排序中有主题漂移,轻视新博文,重视旧博文的不足,且存在与用户查询相关的博文并不靠前的问题,提出一种改进的博文排序算法。该方法在分析博客自身结构特征的基础上,通过两篇相互链接的博文的内容相似度以及博主的受欢迎程度和博文的时间新鲜度,得到新的博文分数。(2)博文分类算法:普通文本分类算法直接应用于博客文章效果不理想的主要原因是:博客文章在结构上,有不同于文本的标签;在内容上,包含多个主题,类别归属不明显,多为博主自己的主观意见。针对该问题,本文提出一种在内容上,通过融合两种不同特征选择方法,提高特征集代表性的前提下,利用正文,标题两个方面分类。结构上,利用博客文章特有的标签分类,并将三个方面融合。实验结果证明,改进的博文排序算法略好于传统的博文排序算法,且改进的分类算法也在一定程度上提高了博客文章的分类性能。
其他文献
对于处理多目标优化问题,本文着重对不同的多目标优化算法进行研究,例如传统多目标优化算法、 MOGA(Mulit-Objective Genetic Algorithm)、NSGA(Non-Dominated Sorting Genetic
近年来,互联网和软件应用技术的普及和迅猛发展,使得软件的发展逐步趋向网络化、平台化和服务化。SaaS (Software as a Service)具有按需租用、无需用户维护、便于扩展等特征
学术论文的剽窃现象屡见不鲜,如何通过有效的手段预防并遏制学术剽窃行为,已经成为各科研机构单位所关注的问题。作者所在课题组自2005起,在学术论文的剽窃检查与识别方面进
随着互联网的迅速发展,文件共享、视频直播、远程教育等大量的多用户大规模网络应用应运而生,在给用户带来丰富应用的同时也产生了庞大的数据传输问题。P2P技术通过采用分布
立体匹配是移动机器人视觉导航领域的关键技术之一,是由二维图像获取三维物体结构信息的主要技术手段。近几年来,立体匹配取得了重大进展,每年都有新的算法提出,并且一些性能
随着社会信息化的不断加快,从海量信息中快速获取所需要的信息变得越来越重要。人物检索是最常见的检索之一,而通用搜索引擎的返回结果往往是同名的不同人物实体相关网页的混
企业级应用是指那些为商业组织、企业而创建并部署的解决方案及应用。一个理想的企业级应用系统平台应该具备良好的安全性。J2EE(Java 2 Platform Enterprise Edition)是一个
近年来,数字图书馆的建设受到世界各国高度重视,并已迅速发展为人们获取知识和信息的重要途径之一。但随着数字图书馆信息的快速增长,如何从海量的数字资源中获取用户需要的
伴随着数字媒体技术的迅猛发展,加之各类社交平台的盛行,数字图像的种类和数量呈爆炸式增长。基于内容的图像检索(Content-Based Image Retrieval,CBIR)作为一种能够从海量图
TCP稳定状态的性能会受到网络拥塞的影响,如何为可获得的网络容量(瓶颈链路)选择合适的数据是一个开放性问题。网络拥塞主要是由于发送大量的数据流(如FTP数据)而导致的。本文