面向金融领域BBS的话题发现和热度评价

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:kingerfly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的出现与发展,使信息资源从贫乏时代进入到极度丰富的时代。伴随着互联网的迅速发展,BBS早已成为人们发表言论,交流信息的重要场所。当今世界经济的飞速发展,人们开始热衷于股票、债券、基金等金融领域的投资,如何能及时准确地获得当前人们最关心,最热门的金融话题是每一个网民都十分关注的。通过设计并实现面向金融领域BBS的热点发现和热度评价系统可以有效解决上述问题。本文在充分考虑了金融BBS的文本组织结构和文本的预处理方法的基础上,主要研究了面向金融BBS热点话题发现方法和热度评价方法。本文的主要内容有:(1)对BBS数据进行抽取以及进行相关预处理:通过研究传统的信息抽取方法,结合金融BBS帖子页面的结构特性,提出了基于最大重复DOM树的BBS数据抽取方法。实验结果表明,该算法能够有效地提取金融BBS帖子的有效信息。(2)提出一种针对金融BBS文本特性的特征选择方法。考虑到金融BBS既有BBS文本的特征又有金融词汇主题相关性的特征,提出了BTF*IDF算法以满足对金融BBS的特征选择。实验结果表明,相对于传统的特征提取方法,本文的方法能够更好的完成特征选择的任务。(3)提出一种基于时间演化理论的增量聚类算法。与传统的聚类算法相比,该算法在文本聚类的过程中结合了话题演化的生命周期。实验结果表明,该算法能够有效地优化话题发现的结果集,提高话题发现的质量。(4)采用基于用户关注度和话题时效性的热度评价算法。通过在热度评分算法中融入了用户关注度、话题时效性的计算,有效地与文本聚类算法进行结合。实验结果表明,该算法能够综合评估话题热度,形成热点话题排序。基于以上研究成果,本文设计了金融BBS话题发现和热度评价系统,能够有效地为广大网民提供最新、最热的金融BBS热点话题,使网民可以在浩瀚的网络信息中快速掌握民众所关心的金融类BBS热点话题。
其他文献
在序列CT图像中提取目标轮廓是医生进行下一步的医学检查、分析、诊断、治疗以及评估等研究的基础步骤。随着计算机技术在医学图像领域的应用,特别是通过计算机处理CT图像的
任务调度和虚拟机迁移是云计算环境下资源调度与管理的重要问题,本文在三四章节重点研究基于改进遗传算法的任务调度策略,即研究如何将计算任务调度到最适合的虚拟机上执行,
车辆行驶信息记录及车道偏离报警系统是用于监测、记录、存储汽车在行驶过程中各种状态和数据的车载智能装置。为交通事故纠纷提供可靠的科学依据,同时系统在运行时还可以有
在科技进步技术爆炸的年代,数字设备的使用率激增,与此同时,信息犯罪活动也日益猖獗,为解决此问题,出现了数字取证技术。数字取证技术主要针对文字、声音、图像和视频文件进
随着新型技术云计算的提出,对于传统的IT应用和服务模式都产生了巨大的影响,云计算已经成为学者和企业研究的热点问题,云计算的服务模式已经逐渐商业化,随之出现越来越多的云
望面色是望诊的重要内容之一,指医生通过观察患者颜面五官的色泽变化,来判断整体及各相应内脏的健康状况,从而为我们的诊断和治疗提供依据。中医认为:“色为气血所荣,面为气
支持向量机作为基于统计学习理论的新的机器学习技术,采用了结构风险最小化原则和核函数的思想,能够较好的解决小样本、高维数、非线性等问题。因此,近年来支持向量机理论得
随着移动通信业务类型的增多和移动终端复杂度的提高,终端的软硬件故障率越来越多。为了解决此类问题,国际通信标准化组织OMA (Open Mobile Alliance,开放移动联盟)提出了DM
人脸在人类情感交流中起着决定性作用。随着数字化技术应用的普及和硬件技术的飞速发展,迫切要求能够更快速、更逼真的创建三维人脸模型。本文结合人脸结构生理学基础,定义人
随着计算机技术的发展与广泛应用,许多企业在其建设的过程中需要将一些分布的、异构的数据根据应用需求集成起来,以实现数据共享。传统的数据集成方法常常忽略了对数据的形式