【摘 要】
:
随着社交媒体和电子商务的发展,互联网上产生了大量的非结构化文本数据,因此,需要开发一个智能模型对其进行处理并从中提取有用的信息。文本分类在许多自然语言处理(NLP)应用
论文部分内容阅读
随着社交媒体和电子商务的发展,互联网上产生了大量的非结构化文本数据,因此,需要开发一个智能模型对其进行处理并从中提取有用的信息。文本分类在许多自然语言处理(NLP)应用中扮演着重要的角色,如情感分析、web搜索、垃圾邮件过滤和信息检索,在这些应用中,需要为一个文本序列指定一个或多个预定义的类别。对于文本分类问题,传统的分类方法如基于统计和基于规则的方法需要人工设计特征和或标记词性,非常耗费时间和人工。在神经网络语言模型中,由于梯度消失问题,学习具有梯度下降的长期依赖关系是困难的。为了克服现有技术的局限性,近年来研究者开始增加网络的深度。然而,增加网络的深度意味着增加网络参数的数量,这使得网络的计算代价高昂。近年来,卷积神经网络(CNN)和循环神经网络(RNN)等深度学习模型被应用于语言建模,取得了比较显著的效果,但也存在各自网络的缺点和不足。本文提出了一个结合CNN,RNN与注意力机制的模型,以克服现有深度学习模型中存在的问题。使用一个无监督的神经语言模型word2vec来训练初始单词嵌入,然后由本文提出的深度学习网络进一步训练,使用卷积层提取文本的局部特征后输入双向长短期记忆层(BiLSTM)学习的文本的长期相关性即全局特征,最后经过注意力层为不同的特征分配权重以获得更重要的文本信息。实验结果表明,本文提出的方法在IMDB电影评论数据集和中文酒店评论数据集上与其他几种分类方法相比具有更好的效果。
其他文献
我国地质环境南北差异巨大,为我国岩土工程勘察工作带来不小的挑战,现阶段工程建设行业正处于蓬勃发展时期,但由于受各种复杂地质条件影响,工程建设的难度和复杂性大大提高,
目的探讨单纯应用空气压力波治疗和服用加味补阳还五汤联合空气压力波治疗乳腺癌术后上肢水肿的临床效果和安全性。为今后治疗和研究乳腺癌术后相关淋巴水肿提供参考性依据及
喷气涡流纺是目前纺纱领域的一项新技术。通过对浙江20多家喷气涡流纺纱生产企业进行实地了解,与企业领导及相关人员进行交流与探讨后,提出了我国在喷气涡流纺发展中几个值得
灭火一直是大规模火灾和石油和天然气行业十分感兴趣的研究方向,本文的研究重点是在良好通风的条件下,对大型正庚烷池火(D=14.2m)开展灭火模拟研究。近年来,用水作为溶剂与各
结肠造瘘由于要改变正常的生理结构,将排便口暂时或者永久移到腹壁,给病人的生理和心理带来很大影响。手术可以延长病人的生命,但是对于肿瘤病人更重要的是生活质量。全面精心的
由于重金属离子有毒且不可生物降解,若通过食物链过度富集将对环境安全和人类健康造成极大危害。目前,由其造成的水污染已经成为世界上亟待解决的环境和健康问题。因此,控制
<正>姚玲Yao Ling安徽寿县人。现为安徽省美术家协会会员、寿县政协第十六届常委、寿县文联常委、寿县青少年书画大赛评委、寿州书画院画家、寿县美术家协会副主席。师从著名
提高科学素养成为新时代学前教育改革的新的议题,而科学素养的提高依赖于前科学概念和经验的获得。科学素养发展的连续性和领域特殊性充分表明:科学教育的关键在于科学素养的
分布式电源(DR)的产生和发展,已经慢慢渗透到配电网里,这给传统配电维护和管控带来了极大的难题,因此研究了一种以高端馈线终端模块(AFTU)的维护管控技术。依照分布式电源电
肺癌(Lung Cancer)是世界上严重威胁人们健康和生命的恶性肿瘤之一,据统计,2012年全球大约159,000,000人死于肺癌,在我国肺癌已跃居癌症死因第一位。胸腔积液通常由肺部病变