短文本挖掘和排序系统的设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:yangzhaodsg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,在网络上产生了大量的短文本数据,这些数据涉及了人们生活的方方面面,并且这些数据包含着大量有价值的知识。但是一方面由于短文本数据的文本短小、文本内容不规范和数据量大的特点;另一方面在目前所使用的主题模型中,由于不能精确的确定主题的数目和没有对所挖掘的主题根据其重要性进行区分,使得主题挖掘的结果不能很好地被使用。因此在本文中设计并实现了一个对短文本数据进行主题挖掘和排序的系统。本文实现的短文本主题挖掘和排序系统包括数据采集模块、数据预处理模块、主题挖掘模块和主题排序模块。在数据采集模块中设计并实现了一个数据爬虫工具,用来以话题为单位爬取短文本数据;在数据预处理模块中,将数据处理成主题模型所需的形式,并为了主题挖掘的效果,对数据进行数据清洗、新词发现、文本分词和去停用词的处理;在短文主题挖掘模块中,使用了BTM(Biterm Topic Model)主题模型的思想来对短文本数据进行主题挖掘,并为了主题挖掘的效果设计并实现了词典的建立、去除稀有词汇、词对的生成和参数估计算法;在短文本主题排序模块,为了更好的对主题挖掘的知识加以利用,设计并实现了主题过滤和主题重要性排序两部分来完成对所挖掘主题的排序。为了测试该系统的有效性,对该系统的各个模块进行了功能测试和实验分析。首先分析了数据采集模块所爬取的数据和预处理部分的数据输出,验证了它们的有效性;然后在短文本主题挖掘模块,通过对比实验验证了该模块的准确性,最后通过分析主题排序的结果,验证了该方法的有效性和准确性。
其他文献
抠图就是把任意形状的前景物体从图像中抽取出来的一种技术。在虚拟现实领域,数字抠图技术的研究具有重要的意义。通过对数字抠图技术的研究,可以提取高质量细节丰富的图像前景
随着无线通讯技术、卫星全球定位系统和地理信息系统的快速发展,方便的获取并记录移动对象的位置信息成为可能。如何有效地对移动对象位置信息进行管理、查询及追溯是目前基于
随着自动化程度和系统集成程度的提高,实时内存数据库已经成为企业软件系统中的核心系统,而且也成为生产过程实时监控、生产信息实时管理与决策支持的基础,是进行数据分析与
本课题来源于国家“十一五”863计划重点项目——“面向流程管理的软件生产线”的子项目“表单设计工具”。   表单是工作流系统中传递信息的载体,是实现业务功能的基本单
激光雷达原始回波数据是激光雷达获取大气参数数据的原始资料,反映了大气运动的情况,是研究大气动态变化的珍贵资料。由于研究大气变化是一个大范围、广区域的活动,建立大气活动
移动Adhoc网络做为一种新型的移动无线网络,以其独有的网络特性,广泛应用到军事战场、地震救灾等特殊领域中。但是随着技术的不断发展,对网络性能的要求在逐步提高,尤其是对
计算机支持的协同工作(CSCW)是指借助计算机及网络技术,由多个分散的群体共同协调、协作完成一项任务。企业过程运作的核心技术是企业过程的协同运作机制,它决定了业务过程的
现代网络和多媒体技术给人们带来资源共享的同时,色情、暴力等不良信息极大危害青少年的健康成长。因此,如何快速有效的监测和过滤网络不良图像已经成为当前迫切需要解决的实际
近年来,无线射频识别技术(RFID,RadioFrequencyIdentification)逐渐兴起,已经被广泛应用于生产生活的各个领域。现有的RFID设备和应用系统在资产管理、目标追踪等诸多领域,具有极
在数据库操作过程中,长事务越来越多,结构也越来越复杂,传统事务处理模型无法高效的应用于长事务执行过程中,而且目前对长事务模型的研究与实现过于困难,所以研究一种能够应