【摘 要】
:
文本在人类已产生的数据中占有极为重要的地位,如何从文本中自动发现知识是一个有着长久历史的经典问题。随着人工智能和数据科学的进步,机器学习与数据挖掘技术成为文本知识挖掘的主流。但是,已有模型通常只能表达数据的部分结构特征,缺乏捕获复杂场景下文本数据特征的能力。目前的文本挖掘模型与现实世界的文本挖掘任务之间仍然存在着差距。本文聚焦于多层次、动态、多源、异构等复杂场景下的文本挖掘任务。与传统的仅针对文本
论文部分内容阅读
文本在人类已产生的数据中占有极为重要的地位,如何从文本中自动发现知识是一个有着长久历史的经典问题。随着人工智能和数据科学的进步,机器学习与数据挖掘技术成为文本知识挖掘的主流。但是,已有模型通常只能表达数据的部分结构特征,缺乏捕获复杂场景下文本数据特征的能力。目前的文本挖掘模型与现实世界的文本挖掘任务之间仍然存在着差距。本文聚焦于多层次、动态、多源、异构等复杂场景下的文本挖掘任务。与传统的仅针对文本—单词结构的文本挖掘任务相比,这些问题中的文本数据之间或者数据的内部有着复杂而隐秘的交互结构。融合多样的结构特征能够更全面地表达文本之间的潜在关系,同时可以发现文本没有显著表达的知识结构。本文提出了特征融合的新思路:将特征表达为其邻域特征的线性组合。基于这个思想,本文详细研究了多层学科主题演化、主题分类体系构建、多源文本比较挖掘、引文影响力建模等问题。本文的主要贡献如下:(1)设计了分层的学科主题演化模型,将传统的单层主题演化分析扩展为多层次结构的演化分析。该研究将多层的主题结构视为树形结构中的词特征融合。模型通过学习上下层主题之间的特征融合因子,将下层主题合成为上层主题,自下而上地生成多层次的主题结构。与传统的分层主题模型相比,该模型能够确定子主题与父类主题之间的权重,这极大地促进了结构演化分析的准确性,能够有效地观察演化的细节,发现主题之间的交互形态以及学科的演化模式。(2)提出了基于深度结构的主题分类体系学习方法,实现了交叉结构的主题树生成,即一个子主题可以归属于多个父类主题。这是一种更符合现实知识组织形态的结构。该方法基于不同尺寸的主题特征空间转换发现不同抽象级别的主题以及它们之间的交叉隶属关系。模型借助深度学习结构,在两个正则项的交替作用下,筛选适当的下层主题构成上层主题,诱导同一父类的子主题之间的融合。这种算法架构可以自动确定主题的树形结构宽度,提高模型稳健性。(3)为解决多源文本比较挖掘问题,本文开发了基于矩阵分解的比较文本挖掘模型。这项研究基于一个两阶段的算法方案,能够区分两个文本数据集相同和不同的主题,同时自动确定相同主题与不同主题的主题数目。模型将不同文本集的特征关系识别为相关特征和不相关特征,对于相关特征强制逼近,对于不相关特征则引入希尔伯特—施密特独立性准则保持其独立性。该模型不仅可以发现不同数据集知识的异同,也可以有效排除不兼容特征的干扰,提高兼容特征之间融合的互补性。(4)本文将引文影响力引入引文网络的学习模型中,对引文关系进行动态的编码,替代了原始引文网络的二值结构,提高了模型在文本聚类、影响力预测等任务中的性能。该研究将引文影响力矩阵集成在矩阵分解框架中,学习单词特征与文档特征的同时,学习引文影响力的权重。模型通过引文提供的权重融合文档特征与引文特征,将文档表示为引文特征与自身特征的组合,同时引入引文稀疏性的概念,发现高价值的核心引文,抑制和删除低价值引文。上述4种模型将不同形态的文本结构动态地解构为不同的特征关系,不仅提高了特征融合的准确性和合理性,也发现了文本中隐藏的丰富而有价值的知识。这些模型在实验中表现了良好的性能,证实了多模态文本特征的融合是解决复杂文本挖掘问题的有效方法。本文的研究有助于特征融合与文本挖掘的理论发展,为复杂场景中的文本数据建模提供了新的途径。
其他文献
随着先进制造加工技术、生物医学工程、微机电系统、光机电一体化等领域的快速发展,高精度的运动系统成为了其中的重要组成部分与关键技术,特别是以压电陶瓷为基础设计的压电驱动系统对微纳尺度领域下的研究与应用发挥着关键作用。然而,在实际应用的位置跟踪过程中,压电驱动系统中压电陶瓷驱动器的迟滞、蠕变现象以及机械结构带来的振动、摩擦等严重影响着系统的输出精度;此外,压电驱动系统与外界环境灵活、安全的接触交互也为
人类可以通过协调身体姿态实现在多种场景下(不平地面、狭窄空间等)的稳定行走。当受到外界干扰时,往往也需要调整步态参数以保持平衡。受此启发,考虑仿人机器人的冗余自由度设计,可以利用多种步行策略,比如踝关节策略、迈步策略(步行周期和步行落脚位置调整)、髋关节策略(躯干倾斜角度/自旋角动量变化)和变高度策略(质心高度调整),来提高真实环境下双足步行的稳定性和适应性。考虑机器人的结构尺寸、驱动能力、双足支
氢能源由于清洁、可再生、能量密度大、反应产物无污染等优点,被认为是取代化石能源的理想能量载体。而利用太阳能生产氢能源为进一步解决能源危机以及环境污染等问题带来了新的曙光。目前,光伏-电催化水分解以及光电化学水分解系统在太阳能转化为氢能的应用中均展现出了极大的应用前景以及发展潜力。但是由于水分解反应过程中产氧半反应具有大的能量势垒以及较慢的反应动力学,导致光伏-电催化水分解体系中的析氧电极以及光电化
合金材料因同时具有其组成成分金属的特性,且表现出很多不同于成分金属的特殊物理化学性能和机械性能,如低沸点、高硬度、耐酸碱性等,被广泛应用于电化学储能、催化、航空航天、运输等各大领域。传统制备合金材料的方法主要包括:高温煅烧法、溶胶注塑法等,但这些方法经常涉及到繁琐的反应步骤,从而使生产工艺复杂,增加了生产成本,同时能源消耗高。到目前为止,合成合金纳米颗粒的方法还比较少,而且,传统的加热方法很难制备
第一部分:CUMS诱导LRP1改变与大鼠抑郁样行为目的:探讨LRP1表达与抑郁样行为的关系。方法:将30只成年雄性SD大鼠(200-250g)分为control(CTRL,n=15)和CUMS(CUMS,n=15)两组,CUMS组大鼠适应性饲养1周后予以4周慢性不可预计温和应激(CUMS,chronic unpredictable mild stress),CTRL组大鼠正常饲养。在应激前一天称取
通过一系列的小分子、金属团簇有序地排列组装形成三维空间中无限延伸的网络,框架化学已成为当今材料科学领域中的重要组成部分。它所包含的晶态材料有金属有机框架(MOFs)、共价有机框架(COFs)、沸石咪唑框架(ZIFs)等。其中COF是由有机小分子通过可逆的共价键反应连接而形成的晶态材料,而MOF则是通过配位键连接有机小分子和金属离子或团簇而结晶。这类材料具有晶态、空间无限延伸、多孔性的特点,在气体吸
巴西地大物博、物产丰富,巴西生产的咖啡、蜂胶和马黛茶都是外国游客送礼的上好选择。不过如今特产又要加上一项了,那就是果冻鞋。说到近几年流行起来的果冻鞋,很多时尚潮人都会想到Melissa、Ipanema、Havaianas等等这些牌子,其实这些都是巴西Grendene鞋业集团旗下品牌。如果数胶鞋元祖,首推巴西出品的Melissa,胶花、
目前日益严重的能源危机和环境污染使人们对发展可再生的新能源技术更加关注,其中热电材料能够实现热能与电能的直接转换,是解决上述问题的理想选择之一。热电材料的能量转换效率可以由一个无量纲的热电优值ZT=S2σT/κ决定,其中T、S、σ以及κ分别代表绝对温度、塞贝克系数、电导率以及热导率(包括电子和声子的贡献)。然而,由于上述输运系数之间的竞争关系,材料的热电优值难以得到大幅度的提升。本文基于第一性原理
目标跟踪是指给定一段连续的图像序列和初始帧中人们感兴趣目标的位置,利用算法自主在后续帧中连续地对目标物体进行定位的过程.目标跟踪因其实时定位物体的天然要求,在自动驾驶、智能安防、无人机应用、卫星遥感等诸多国民经济中的重要应用领域中有着非常重要的作用.近几十年以来,目标跟踪研究已经引起了科研人员广泛的兴趣,尽管现有的目标跟踪方法已经克服了该领域内的一些难题,并且取得了较大突破,但是在复杂环境下,目标
对地球和月球的地球动力学理解主要取决于地球物理数据,以了解形成其外层的形成过程。尽管有公认的研究地球和月球的方法,但对部分区域而言仍缺少必要的的地球物理约束。例如,由于无法到达和经济原因,在某些地区安装地震仪的困难,使得地震台网难以完全覆盖地球。对月球存在同样对情况,1960年代阿波罗任务仅在一个非常小的区域内获得了可用的数据。尽管世界某些地区密集的地震网络数量有所增加,但非洲,中国大陆部分区域和