【摘 要】
:
随着信息技术、数据存储和采集技术的迅猛发展,现实应用中大量存在具有混合属性的结构化数据,如医疗诊断、信贷审批、股票市场分析等。由于混合属性数据中的分类属性和数值属性之间具有不同的数据特征和空间结构,因此这种数据不能直接使用单一属性数据的机器学习算法。为了在混合属性数据中能应用上述这类机器学习算法,数据处理是连接它们的重要纽带和桥梁。目前,对于具有复杂关系的混合属性数据,传统的数据处理方法难以取得令
论文部分内容阅读
随着信息技术、数据存储和采集技术的迅猛发展,现实应用中大量存在具有混合属性的结构化数据,如医疗诊断、信贷审批、股票市场分析等。由于混合属性数据中的分类属性和数值属性之间具有不同的数据特征和空间结构,因此这种数据不能直接使用单一属性数据的机器学习算法。为了在混合属性数据中能应用上述这类机器学习算法,数据处理是连接它们的重要纽带和桥梁。目前,对于具有复杂关系的混合属性数据,传统的数据处理方法难以取得令人满意的效果。因此,如何为混合属性数据进行有效的数据处理是一项挑战的任务。本文聚焦于混合属性数据的数据处理问题,围绕分类属性数值化、距离度量学习、模型学习和数据流应用等方面展开研究,以提高分类性能和效率为目标,提出了有针对性的可行算法,并通过实验验证了所提算法的有效性。本文的主要研究内容和取得的成果如下:(1)针对条件概率转换法的条件概率是以“属性条件独立假设”为前提而导致转换性能受限的问题,探索了提高条件概率准确性的途径,借鉴微调法的思路——微调导致错误分类的那些标称值的条件概率,提出了一种微调的条件概率转换方法(简称FTCP),提高了分类属性数据的数值化质量水平。此外,为缓解FTCP方法对高维分类属性(或类标签数多)的数据集所导致的属性维度剧增问题,提供了两个应对方案:1)先使用改进的MIC特征选择法进行属性选择,再用FTCP方法数值化;2)替换为由微调条件概率改进的不增加维度的可分性分离值转换法。实验结果表明:FTCP能改善数据转换的质量,它的两个应对方案是可行的。(2)针对具有复杂耦合关系的混合属性数据在距离度量问题上的改进,研究如何从属性内、属性间和属性对类三个耦合视图中分别捕获较高质量的基本耦合信息,设计一个可融合这三个异构耦合视图信息的多核度量学习方法,从而提出了一个基于多视图异构融合(简称MVHF)的度量学习模型,实现可度量混合属性数据之间的本质距离。在此基础上,利用流形学习方法对分类值进行嵌入表示学习,增添了MVHF模型的嵌入表示能力,从而拓广了它在数值输入模型中的应用。因此,MVHF具有距离度量和嵌入表示两个功能。实验结果表明:MVHF的度量性能和嵌入性能均得到显著提高,两个功能中嵌入表示的应用性更广、更助于分类。(3)针对如何设计一个可直接高效地处理混合属性数据的分类算法,分析了快速分类算法RBF-ELM(Radial Basis Function-Extreme Learning Machine)的网络结构和参数学习,设计一个轻便型的混合属性数据度量取代在RBF-ELM的隐藏层(即RBF层)中的数值属性数据度量,并利用改进的密度峰值聚类法自适应地选择适量训练样本作为RBF中心,从而构建了一个混合属性数据的RBF-ELM网络(简称MD-RBF-ELM),实现了可直接处理混合属性数据的快速高效分类。实验结果表明:MD-RBF-ELM在分类性能和计算效率的综合权衡下能取得令人满意的效果。(4)针对在混合属性数据流中分类属性数据的有效性编码,探讨了One Hot编码应用于数据流环境的特点,为了避免当混合属性数据流中出现新的分类值时One Hot需要重新编码的问题,基于“固定One Hot的编码维度不变,用相似性大小替换它的编码值”的构想提出了一个软One Hot编码方法,可避免频繁重新编码。在此基础上,构建了一个以软One Hot编码为混合属性数据处理的数据流分类模型。实验结果表明,软One Hot编码方法在静态数据环境和数据流环境中均具有理想的表示性能,从而有助于提高分类模型的性能。
其他文献
时域弹性波在科学和工程领域中有非常广泛的应用,比如医学成像、石油探测、地震学等。本论文研究了两个问题:时域声波-弹性波耦合问题和波在多孔弹性介质中的传播问题。时域声波-弹性波耦合问题又被称为时域流固耦合问题,描述了入射的声波碰到浸入在齐次、可压、无粘液体中的有界弹性体而发生散射的过程,数学上可以用依赖时间的传输方程来描述。波在多孔弹性介质中的传播数学上可以用无滑动界面条件的斯托克斯(Stokes)
偏微分方程形式的数学模型是数学、科学和工程界里面极为有用的工具,发展稳健、高效和高精度的数值方法来模拟它们的解仍然是一项具有挑战性的任务。近几十年以来,双曲型偏微分方程的高阶数值方法,例如间断伽辽金(DG)方法和加权本质无振荡(WENO)重构方法得到了广泛的发展。这些高阶数值方法进一步发展的一个重要并具有挑战性的方向是确保结构保持特性,即发展高阶数值方法,它可以精确地保持底层模型的某些结构或其它基
目的探究养金护肺汤结合经皮穴位电刺激对晚期肺癌患者疗效、肿瘤标志物及免疫功能影响。方法研究合计纳入180例晚期肺癌患者,均由我院2018年2月~2020年4月收治,采取随机数字表法将其分为两组,予以对照组患者(90例)常规治疗,观察组患者(90例)在对照组治疗基础上结合养金护肺汤及经皮穴位电刺激治疗,比较两组患者临床疗效、治疗前后中医症状(咳嗽咯血、自汗盗汗、心烦失眠、头晕目眩、面色苍白/萎黄等)
科学工程领域中很多数学模型的解都具有激烈的振荡性。由于这一特性的存在,设计它们的高精度逼近算法常常具有一定的挑战性。太粗的离散网格不能准确刻画问题解的性态,而太细的离散网格又会带来很大的计算量。本文以奇异摄动方程、非线性Helmholtz方程和薛定谔-泊松方程为研究对象,设计了一类能有效处理具有振荡解问题的高精度有限差分方法。使用经典差分方法对微分方程进行求解时,常常需要假设方程的解在网格点的某个
本论文主要研究等离子物理中流体力学相关模型的适定性及其极限理论。众所周知,Navier-Stokes方程是通过物理守恒定律推导出的经典流体力学模型,其反映了粘性流体运动的基本规律。随着数学理论研究的不断深入,物理学家提出了更精细的模型。近二十年来,量子流体力学方程及相关模型也引起了人们极大的兴趣。本篇论文我们将从理论分析的角度严格证明量子磁流力学模型整体解的存在性及衰减速率,全的量子流体力学模型整
主减速器是直升机关键核心部件之一,其性能优劣直接关系到直升机整体性能水平高低。掌握具有自主知识产权的高性能直升机主减速器设计技术,对推动我国直升机产业发展具有极其重要的意义。直升机主减速器耦合关系复杂多样,结构异型化、大柔性等特点突出,需要寻求与之相适应的建模策略,实现模型精度与计算效率的平衡。另外,主减速器随直升机做空间运动,以往研究中固定于地面的假设与实际运行环境不符,基础运动衍生附加效应的影
工业机器人出现的半个多世纪以来,机器人技术已经从最初的自动化萌芽发展到现在的增强智能阶段,在制造业、服务业、国防以及航空航天等领域扮演着越来越重要的角色,代表了一个国家的核心竞争力。为了让机器人成为人类有效的合作者,机器人必须能够在为人类设计的非结构化动态环境中可靠地执行复杂的交互任务。然而,到目前为止,即使是最先进的机器人在执行此类受约束的操作任务时,比人类更慢,甚至十分不可靠,这一科学问题引起
能源危机和环境污染促使着研究者开发利用新型可再生的能源,而热电转换技术相比于现有的能源技术,具备特有的一些优点,如全固态转化过程、无机械传动部件、体积小、可靠性高、环保无污染、无噪音、无排放物等;并且,只要存在温度梯度,热电材料就能实现热与电的可逆转换,不受地域的局限。因此,热电转换为弥补现有能源的不足提供了一种独特的绿色能源技术。热电能源转换技术可直接将各种形式的废热以及来自太阳的热量直接转换为
计算机病毒攻击是典型的网络安全事件,其本质为一段恶意代码。它不仅能破坏计算机软硬件设施,还能加密文件、篡改数据和盗取机密等,因而给人类社会带来了巨大的经济损失。近年来,随着互联网及物联网的普及,病毒的破坏力也与日俱增,有些病毒甚至可威胁人的性命。为有效遏制病毒蔓延,降低经济损失,人类需掌握病毒的传播及控制规律。因此,对计算机病毒传播控制策略的研究极具现实意义和商业价值。计算机病毒传播动力学是一门新
经济的不断发展演变,时代的变化,世界反法西斯战争的历史硝烟已经消散75年,但在艺术创作的表达中从未远去。历史有着浓厚的艺术情感,战争的艺术情感往往悲壮而严肃。从反法西斯战争初期至今,相关题材的美术创作作品不断推陈出新,各艺术家们用他们对这场战争的感悟以及对悲怆历史独特的篇章共鸣,用艺术的方式传递着这份情感。如今,世界反法西斯战争胜利的号角已经吹了七十五周年,在庆祝世界反法西斯战争胜利七十五周