【摘 要】
:
随着互联网移动技术的迅速发展和普及,文本信息已经成为人们日常生活、工作和社交的重要组成部分,这些来源于互联网的文本信息大都为短文本。短文本的来源很多,例如各种聊天
论文部分内容阅读
随着互联网移动技术的迅速发展和普及,文本信息已经成为人们日常生活、工作和社交的重要组成部分,这些来源于互联网的文本信息大都为短文本。短文本的来源很多,例如各种聊天系统,社交软件,问答系统等。短文本数量的急速上升也对人们快速获取其中主要信息造成了不小的阻碍,尤其在问答系统这样的要求迅速给出反馈的系统中,首先需要分析出用户咨询的核心问题,其次要在短时间内给出回复,这些要求都是及其具有挑战性的。因此利用计算机技术来对短文本进行挖掘和分析显得意义重大,聚类技术是一种可对文本信息进行有效地组织、摘要和导航的重要手段,同时也可以挖掘出不同文本之间的关系,有助于对这些文本进行进一步的处理。短文本字数有限,信息量有限,噪声影响大,上下文信息不足,因此特征较为稀疏。这些特性导致短文本无法利用普通长文本的建模方法进行建模,给短文本研究带来了很多挑战。目前短文本聚类技术面临的问题有:如何降低无关信息带来的影响?如何表示短文本稀疏的特征?如何提高短文本聚类的质量?如何提升短文聚类的效率?针对上述问题,本文提出了一种应用于用户咨询短文本的短文本聚类方法。主要工作如下:1.本文通过二阶隐马尔科夫模型建模识别短文本中的无关信息,建立无关语词典,在语料预处理阶段对语料中的无关语进行过滤。2.为了缓解短文本特征稀疏问题,本文通过分析短文本的特点并利用词向量对短文本进行表示,同时利用选择性的加权方法实现文本向量构造,通过词向量的相似度来表示短文本间的相似度。3.本文为使聚类算法能够适应增量式的数据集,同时提升聚类算法效率,将聚类过程分为离线聚类和在线聚类两个步骤。采用用户咨询短文本进行聚类实验,最终结果证明了本文采用的相似度计算方法的有效性,实验取得的聚类准确率为82%,召回率为73%。对增量式数据集进行的聚类实验证明了离线聚类和在线聚类的结合确实能够大幅度提升短文本聚类效率。
其他文献
随着空间技术和核技术的发展,辐照效应对电子器件和电路系统造成损伤的问题日益凸显。辐照环境下,电子器件会发生性能退化甚至功能失效从而引发电路系统的故障,带来巨大的损
本课题的研究内容是围绕国家自然科学基金项目“面向核电RCV的机器人自适应机理与高效作业方法研究”(61473113)展开的。高效高可靠性是决定核电站机器人性能的直接因素。本
在“走出去”战略以及“一带一路”建设等发展策略的带动下,中国企业的海外投资日益增长,而国有企业作为中国海外投资的主力军,更是在投资规模、频率上屡创新高。但是,因为国
2018年11月5日,国家主席习近平宣布在上海证券交易所设立科创板。区别于现有主板、中小板的审核制,科创板实行注册制,这也从一定程度上表现出国家对于企业上市逐渐放宽的态度,市场和投资者对企业未来的发展有了更大的决定权和参与感。然而政府监管力度的减少,虽然可以充分发挥市场的作用,使资源得到更充分的利用,但也让会计师事务所等中介机构的责任更重了一些。2019年7月22日,科创板开市,首批25家公司在上
在自然界中,水分子通常以氢键等分子间相互作用连接在一起形成巨大网状团簇结构。利用多体展开法可以将水团簇的总能量分解成多个子体系能量的代数和的形式,进而能够快速获得
J集团公司经过长久发展,已初步成为有一定影响力和实力的地方龙头企业。集团下设热电公司现已发展成为唐山第一大热电企业,J房地产公司已经成长为唐山市高新区知名房企,但是
随着武器系统与科学技术发展,空域中目标威胁性能不断提升,对增强空域控制能力的防空导弹而言,其性能高低成为决定胜负的重要因素。为提高现代复杂战场环境下精确制导武器系
电动执行器是自动化工厂中用来操作阀门和挡板,从而对流量、温度、压力等过程参数实现自动化控制的机器,它被广泛应用于电厂,化工,冶金,建材,水务等工业领域。历史上国外电动
目前,机器类型的通信(Machine Type Communications,MTC)作为新兴的物联网的关键性组成部分之一,拥有良好的应用前景,它和传统的通信相比具有低移动性,低设备成本,小数据等特
超级电容器,作为一种新型能源存储设备,同时具有传统电容器高功率密度和电池高能量密度的特点。因其充放电速度快、环境友好、可靠性高、适应温度范围广等优点而被广泛应用于