【摘 要】
:
随着社交媒体的广泛兴起,微博等一系列应用产品火速发展。到2018年据微博官方统计其日活跃用户达到1.6亿以上,每日访问量达到百亿级别。如何从从这些数据中提取重要信息以及如何更快、更准确提供给消费者想要看到的东西成为了重中之重。本文以微博新闻数据为基础对中文短文本分类进行了两方面的研究。一是基于词向量的微博短文本分类,在词向量微博短文本分类上,基于k近邻算法(KNN),FastText,卷积神经网络
论文部分内容阅读
随着社交媒体的广泛兴起,微博等一系列应用产品火速发展。到2018年据微博官方统计其日活跃用户达到1.6亿以上,每日访问量达到百亿级别。如何从从这些数据中提取重要信息以及如何更快、更准确提供给消费者想要看到的东西成为了重中之重。本文以微博新闻数据为基础对中文短文本分类进行了两方面的研究。一是基于词向量的微博短文本分类,在词向量微博短文本分类上,基于k近邻算法(KNN),FastText,卷积神经网络(CNN)作为模型的选择,词向量的构建阶段已Word2vec为基础。二是基于特征扩展的微博短文本分类。在微博短文本特征扩展分类上,基于支持向量机(SVM),KNN进行模型构建,在特征扩展方面对主题模型、知识库、词向量进行扩展展开了研究,以及对词语的权重表示进行了研究。(1)本文在基于微博词向量分类方面,提出基于词语重要性的词向量文本生成模型(TFIWF-WES)。对KNN模型进行改进提出基于相似度的KNN算法(CS-KNN)。用CNN模型对微博短文本进行分类与传统的机器学习算法进行比较。(2)接下来,在微博短文本特征扩展分类上,提出了基于语义与相似度共同作用的特征扩展模型(SSE-BOW),为研究模型好坏,将其与基础模型和不同粒度文本扩展的短文本分类模型进行对比。(3)最后通过精确率(P)、召回率(R)、F1值(F1)等评价指标,对两个方面的研究分别进行对比实验,提出的SSE-BOW模型各评价指标分别为69.3%,69.1%,69.0%,与BOW模型对比提高了4.5%,5.7%,5.3%。提出的TFIWF-WES模型各评价指标分别为68.8%,68.4%,68.4%,与D-WES模型对比提高了2.7%,2.4%,2.5%。
其他文献
电影是一门年轻的综合艺术,同时也是科学进步与工业革命的产物,深深地打上了商业文明的烙印。它本身兼具了艺术性与商品性的双重属性,是一种特殊的商品。本文力图从美学理论
基于DMD(数字微镜器件)的动态红外景象投影技术在国外已经开发并应用于红外成像制导仿真系统,该技术的核心器件是美国德州仪器(TI)公司生产的数字微镜器件DMD。该技术采用二
自美国经济学家普拉哈拉德(C.K.Prahalad)和哈默尔(Gary Hamel)1990年在《哈佛商界评论》首次刊登他们合著的《公司核心竞争力》一文以来,企业核心竞争力(核心能力)就在企业界
BACnet协议是一种专门为建筑自动控制网络制定的一种数据通信协议,并以其开放、简单、实用、且易于与其他网络集成的特点成为建筑自动控制网络的国际标准。BACnet定义了一种控
本文通过研究积极经济管理和消极经济管理的成因、目的、实现途径,阐述了积极经济管理和消极经济管理之间的关系,旨在促进我国市场经济的快速、健康发展。
本文通过对隋唐时期居室空间的研究,提炼出蕴藏于其中的深刻文化内涵和人们对其产生的观念,并从建筑文化、装饰文化、美学、心理学等多方面探讨隋唐时期居室环境中文化与观念的
针对港口功能的拓展和规模的扩大以及自然灾害的影响,港口水域安全面临较为严峻形势的特点,系统分析现有的港口水域突发事件应急预案在应急指挥机制、应急运行机制和应急保障
为提高ABS塑料镍-磷镀层的表面质量,研究了以次亚磷酸钠为还原剂的室温碱性化学镀工艺,并对工艺进行了优化,对优化工艺制备的镀层性能进行了表征。结果表明:优化的镀液配方为
从人体工效学角度出发,对女性下体特征进行研究,分析了女裤结构的影响因子,然后结合女裤结构影响因子,如总裆宽、挺缝线、下档垂直倾斜角和臀围等部位的结构变化来对女裤结构
莫言是二十世纪中国当代文坛的一个奇迹般的存在。他对“民间”独特而新鲜的书写,给文坛带来新的惊奇。本文依据“民间的生命内容”和“民间叙事立场”两个层面,来分析莫言的作