有约束的高斯混合模型及其应用研究

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:anqiiqna
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析作为数据挖掘中一种重要的方法,它能够根据数据对象之间的相似性对数据集中所有对象进行分组,使得被分配到同一个组(簇)中的数据对象之间具有较高的相似性,而分配到不同组(簇)中的数据对象之间具有较大的差异性。从机器学习的角度来看,聚类分析是一种无监督的学习方法,它按照一定的规则,从样本本身的内在关系出发,并在不知道与样本相关的任何背景知识的情况下,自动地根据数据之间的相似性进行分组或聚类。但在实际应用中,并不是所有机器学习过程都可以归为有监督学习或无监督学习中的一种,通常我们对数据对象的相关信息并不是一无所知,并且我们发现可以通过这些少量的相关信息推导出关于数据对象的类标签或者数据对象之间相互约束的信息。半监督聚类就是一种通过利用这些少量的监督信息与传统的无监督聚类算法结合来指导聚类过程,从而提高聚类结果精度,改善聚类算法性能的机器学习方法。
  本文首先利用文献研究法对目前国内外学术界关于高斯混合模型聚类、半监督聚类以及基于高斯混合模型的半监督聚类的研究现状进行了归纳总结。然后通过比较学者之前的研究内容和研究方法,并结合本文的研究任务,从一个全新的角度提出了一个基于高斯混合模型的半监督聚类算法CGMM(ConstrainedGaussianMixtureModel)。该算法引入数据类标签和成对约束两种监督信息作为先验知识来协助指导聚类过程,基本思想是根据样本实例属于混合高斯成分的概率γ(Zki)和成对约束的组合来分配数据点。最后,本文将提出的CGMM算法同传统无监督的高斯混合模型聚类算法GMM(GaussianMixtureModel)、半监督学习算法Boostcluster(BoostingClustering)以及有监督的分类算法LR(LogisticRegression)进行对比实验,采用聚类结果的准确率作为实验结果的评价指标,考察了监督信息量的多少对聚类性能的影响,并探索了本文算法的聚类性能,得到该算法具有可行性和有效性的结论。
  由于在之前的一项研究工作中,我们需要分析Yelp.com这个网站上的那些对社交敏感的用户具有哪些显著特征。我们所获得的用户数据集中只有部分数据被贴上了用户是否社交敏感的标签,而大部分的数据是没有被标记的,于是使用本文提出的CGMM算法成功地为Yelp数据集中未标记的用户数据全部贴上标签,且在该标注好的数据集上实施LR算法,发现训练好的模型和数据能较好地拟合,最终根据LR模型的系数为具有社交影响力的Yelp.com网站用户建立了用户画像。通过该应用实验,发现CGMM算法能够成功的为有部分标签的数据集进行标注,证明了该算法的实用性和有效性。
其他文献
信息物理系统(Cyber-Physical Systems)是具有高效能网络化的智能信息系统,它通过一系列计算单元和物理对象,在网络环境下的高度集成与交互,来提高系统在信息处理、实时通信、远程精准控制以及组件自主协调等方面的能力,是时空多维异构的混杂自治系统,具有实时、安全、可靠、高性能等特点。由于其自身的分布式结构及其复杂性,导致CPS容易受到网络攻击,网络攻击会造成不可估量的损失,因此必须在C
矿产资源是工业生产的重要原料,广泛应用于如建筑、通讯、运输、航空等许多行业。虽然我国铁矿石总储量较高,但由于矿石类型复杂,氧化矿、多金属共生矿石及难选矿石多,因此几乎所有的矿石都需要经过选矿处理。选矿生产过程是典型的流程工业,具有多工序、设备复杂、生产线长的特点,选矿的主体生产设备在选矿企业可持续发展战略中起着越来越重要的作用。此外,随着信息化与工业化的深度融合,减弱了控制系统及SCADA系统等与
学位
目前为止,人类依然无法摆脱对自然资源的依赖,石油、煤浆,天然气等自然资源的运输大部分是采用管道运输。管道的安全运输对一个国家的经济发展起着重要的作用,在战时还是十分重要的战略通道。然而管道一旦发生泄漏,若未及时的发现并加以修复,泄漏不仅会造成经济损失、环境污染,而且可能危及人民生命安全,甚至造成灾难性事故。现在应用于管道泄漏检测的系统大多存在体积大、成本高的问题,故设计出一套体积小、成本低的泄漏检
物流运输在资源型企业生产中所占成本较高,尤其在典型资源型企业中,车辆调度作为主要的物流运输方式,更是具有运输任务多、车辆少、运输要求严格、成本高等特点。合理规划车辆使用数量和行驶路径是提高典型资源型企业经济利润、降低生产成本的重要手段之一。  本文以典型资源型企业中露天矿生产和成品油配送为例,针对其中的车辆调度问题展开研究工作。在针对实际问题分析的基础上,建立优化车辆调度的数学模型,并设计改进算法
人工神经网络由于其广泛的应用前景得到了众多学者的青睐,同时也取得了非常重要的研究成果。但是由于人工神经网络的运算速度普遍偏慢(例如:BP神经网络),限制了其在工程上的应用。在2006年,极限学习机(ELM)神经网络的提出对前馈神经网络的发展起到了很大的影响,减少了前馈神经网络的运算时间。然而由于极限学习机在处理带有复杂噪声信号或者带有高维度信息的输入数据时,极限学习机也体现出了自己的疲软之处,使得
学位
随着工业生产过程大型化和复杂化,工业生产过程监测作为保障过程安全和产品质量的重要措施受到人们越来越多的关注。实际的故障检测与诊断问题即为分类问题,继而提出各种不同的监测方法,利用过程监测方法对实际工业过程故障进行分类。随着计算机技术与仪表技术的迅猛发展,在工业过程中大量的生产数据被存储下来,由此基于数据驱动的过程监测方法得到了广泛的研究与应用。然而,基于数据驱动的方法通常要求训练数据与测试数据满足
在铁矿行业不景气的情况下,大多数企业为了能够稳定发展,大规模的展开自动化改造工作。铁矿落后的运输设备需要人工操作才能完成运输任务,在降低运输效率的同时也增加了人力成本的投入。自动化程度低、工作环境恶劣、生产安全隐患等问题制约着企业的发展。  本文针对鞍钢集团矿业弓长岭铁矿侧卸式矿车需要人工卸载、效率低且存在安全隐患等问题,设计了机电装置代替人工操作的自动卸矿系统,完成了在不改变原有设备的基础上自动
该文研究线性切换系统的H∞控制问题.具体工作归纳如下:提出并研究了一类线性切换系统在任意切换下H∞可解性问题,给出了任意切换策略下H∞可解的条件.针对系统可能存在不确定性,讨论了一类线性系统混杂状态反馈H∞鲁棒控制问题.给出了切换律和控制器的设计方案.在此基础之上,分别研究了具有线性不确定项和非线性不确定项的时滞系统混杂状态反馈H∞鲁棒控制问题.分别利用单Lyapunov函数技术和多Lyapuno
学位
随着信息化时代的加速发展,信息化技术越来越多的使用于我们生产生活中。随着商业银行金融IC卡的推广,银行IC卡逐步切入各行业应用,由于银行卡具备很多优点,因此使用银行卡来替代原有模式的校园卡,可满足学校的更多需求;绵阳医科学校数字化校园一卡通系统建设完成将实现金融服务功能(含收费、缴费,款项发放,校园内金融消费,现金存、取款和电子现金圈存等)以及校园综合管理功能(含师生信息管理、校园水、电消费等)。
学位
随着信息时代的到来,文献资料的数字化越来越普遍,电子文献数量不断剧增而带来的信息过载现象同人们对知识的获取之间产生了矛盾。通告、图书文献、科技成果、函件、政策解读、法例、工作报告等未经过人工加工整理的文献占支配地位,导致资源太过分散。在大数据背景下,给知识的精准获取带来了难度。因此,研究如何有效的共享知识、检索知识和获取知识,对现代化的政府部门具有重要意义。  针对以上问题,结合政府知识库的特点,
学位