【摘 要】
:
互联网信息技术的快速发展使得传统纸质媒体逐渐向数字媒体转型。新闻媒体往往需要新闻内容进行分类,方便不同读者群对新闻内容的需求,传统的做法是采取人工划分类别,耗时,高成本,分类效率低,且周期长,难以满足实时性。本文改进FastText文本分类模型,为新闻媒体构建一个自动文本分类模型,降低分类成本和提高分类效率,满足新闻的实时性要求,实现新闻媒体分类智能化,达到低成本高收益的目标。具体做法是:首先采集
论文部分内容阅读
互联网信息技术的快速发展使得传统纸质媒体逐渐向数字媒体转型。新闻媒体往往需要新闻内容进行分类,方便不同读者群对新闻内容的需求,传统的做法是采取人工划分类别,耗时,高成本,分类效率低,且周期长,难以满足实时性。本文改进FastText文本分类模型,为新闻媒体构建一个自动文本分类模型,降低分类成本和提高分类效率,满足新闻的实时性要求,实现新闻媒体分类智能化,达到低成本高收益的目标。具体做法是:首先采集2005年至2011年新浪新闻数据,对文本新闻样本进行“分词”、去“停用词”、“词”独热编码等预处理,作为训练数据集;然后对训练数据集进行多轮有放回抽样,在每轮抽样得到样本集上学习一个FastText弱分类器,共计150个弱分类器,最后把这150个弱分类器组成一个强分类器。对输入的新文本样本,用这150个弱分类器中多数分类器划分的结果作为文本样本的最终分类结果。论文实验表明:当弱分类器的个数小于或者等于30的时候,这些弱分类器组成的强分类器的分类精度有较大的波动,弱分类器个数大于30且小于150时,分类精度呈现明显的上升趋势,弱分类器的个数大于或者等于150的时候,模型的精度高且稳定;论文所构建的强分类器的分类精度高于目前流行的支持向量机、K近邻、梯度提升树三种分类模型的分类精度。
其他文献
非晶氧化物半导体(Amorphous Oxide Semiconductors,AOS)被广泛认为是可以取代传统的非晶硅作为新一代显示技术的薄膜晶体管(Thin Film Transistors,TFTS)的有源层材料。目前
芳香内酯是一类重要的有机化合物,也是各种天然产物,药剂和功能性材料中的关键结构。近年来,使用C-H活化策略合成芳香内酯受到了众多关注。但由于已发展的方法中有许多不足之
氧化钨是一种在常温常压下呈六角形或立方对称结构的半导体。由于拥有许多潜在的奇异特性,氧化钨已经引起当今人们的广泛关注。氧化钨在具备光致变色与电致变色等特性的同时,
聚磷腈材料是一类具有独特P=N结构单元和活性P-Cl基团的新型高分子材料,可以通过官能团的亲核取代来调节它们的物理和化学性质。六氯环三磷腈为一类环状的磷腈化合物,它上面含有六个活性较高的P-Cl键,其可与多元醇或多元胺等化合物发生亲核取代反应得到环状的聚磷腈材料。该课题合成的环交联型聚磷腈微球是以六氯环三磷腈(HCCP)与含有多官能度的有机单体通过沉淀聚合法合成一类新型高分子材料。因其优异的物理和
二氧化碳是引发“温室效应”的主要气体,其造成的全球变暖及生态问题严重威胁着人类的生存环境。因此,如何将大气中的CO_2高效转化为高附加值的燃料和化学品已经成为目前研究的热点。在CO_2转化利用中,半导体材料与CO_2分子之间的电子转移是其关键步骤。由于CO_2分子的最低未占有分子轨道(LUMO)能级远大于常见的半导体的导带能级,导致绝大多数半导体导带的电子都很难转移到CO_2分子上,从而引起CO_
近年来,由于债务人无法按时清偿债务,债务人与债权人往往通过达成以物抵债协议来作为债权债务纠纷解决的一种途径,同时也是债的履行方式之一。但由于现行立法没有明确规定以物抵债协议的相关内容,使得学界对以物抵债协议的性质与效力、以物抵债协议能否引起物权变动等问题的认识存在争议,司法实践中也存在着一些同案不同判的情形。本文拟通过对因以物抵债协议而引发的张某某诉甲公司房屋买卖合同典型纠纷一案的分析,以其就以物
光电催化还原CO_2技术以其反应条件在实际生产中较为温和并符合绿色化学的要求,其中TiO_2 NTs以其独特且规整的结构广泛应用于光电催化还原技术,但由于其选择性和产率低的缺陷,使得TiO_2 NTs的改性和形貌控制逐渐成为研究热点。因此,本文主要以TiO_2 NTs阵列为研究对象,采用原位二次氧化法改变不同制备条件合成出了TiO_2 NTs阵列,再以光电沉积技术将镍氧化物进一步复合到阵列表面,继
在自然界中,许多现象可以用偏微分方程或偏微分方程组进行研究,而且很多动力学现象中受一个或多个变量的过去历史的影响,可以用带有记忆项的偏微分方程进行研究,因而研究有记忆项的偏微分方程的控制问题有重要的科学意义和应用价值.本文主要研究带记忆项的偏微分方程的精确能控性.首先,研究有记忆项的耦合波方程的精确能控性,定义相应对偶系统的能量,利用乘子方法和紧性唯一性,得到对偶系统的一些重要的估计式和正则性,特
用于测量位移或速度的无磁电感传感器技术,是计量测试技术领域的重要组成部分,可以被广泛应用于各类计量测试仪器仪表中。在国内,该类传感器技术还不够成熟,市面上大多为有磁类型的传感器,本项目旨在研究设计一种市面上没有的,具有优良特性的无磁电感传感器,因此该项目的研究具有广阔的市场前景,在理论上也具有重要的意义。本文介绍了一种无磁电感传感器电路,主要用于测量金属物体的平动位移或转动位移、平动速度或转动速度
本篇论文中,我们采用基于密度泛函理论的第一性原理计算方法,分别对含In、Pd和Pt的二维材料合金结构进行了详细的理论研究。第一部分,在关于含In元素的二维材料合金结构研究中,以实验上制备出的InSe的结构为基础,通过原子替代法将原胞中的Se原子替换为S、Te、N原子,得到InSe、InS、InTe以及InN这四种合金结构。我们从热力学、动力学以及力学等方面来验证这四种结构的稳定性。之后研究了这四种