【摘 要】
:
随着科技的发展,数据挖掘成为一种从大量的数据中提取出有效信息的手段,并且衍生出了很多分支,比如K-means聚类算法:将相似的东西分到一组,不相似的尽量远离,即是一种无监督的问题。它具有快速、简单的特点,但是也存在很多的问题,比如选点的随机性和离群点的影响,但是即使存在上述问题,并不影响它被广泛地应用在各个领域。K-means算法通常都是在独立同分布下进行的研究,但是这种考量是不完备的,完整的考量
论文部分内容阅读
随着科技的发展,数据挖掘成为一种从大量的数据中提取出有效信息的手段,并且衍生出了很多分支,比如K-means聚类算法:将相似的东西分到一组,不相似的尽量远离,即是一种无监督的问题。它具有快速、简单的特点,但是也存在很多的问题,比如选点的随机性和离群点的影响,但是即使存在上述问题,并不影响它被广泛地应用在各个领域。K-means算法通常都是在独立同分布下进行的研究,但是这种考量是不完备的,完整的考量是非独立同分布(Non-Independent and Identically Distribution,简写Non-IID)下进行的,如果忽略了它们之间的潜在关系,就会影响聚类效果,本文将在非独立同分布下提出针对两种数据类型的K-means算法研究,一种其列全部为数值属性组成的,一种其列由类别属性和数值属性(即具有多个异构属性)组成。本文主要的工作如下:由于传统K-means算法选取初始中心点的敏感性问题,提出一种基于密度的K-means聚类迭代选取中心点的方法(Method for selecting center point iteratively based on density-based K-means clustering,简称DCK)基于密度的思想,通过计算密度参数合理调整高密度区域,并且提出聚类迭代的方法进行选点,选用UCI数据集进行验证,实验结果说明所给的算法能够得到较高的准确率。在数值型数据基础上,为了更好的挖掘其存在的潜在关系,提出一种非独立同分布下基于密度的二次幂耦合K-means聚类算法(A density-based second power coupling K-means clustering algorithm based on non-independent and identical partitions,简称N2-QCK),首先将数据集进行二次幂处理,计算优化后的皮尔森相关系数后得到二次幂耦合后的数据集样本,将样本带入优化后的K-means聚类算法,并且通过UCI数据集进行验证,实验结果显示,相比之前的研究会使得准确率提高。在异构数据的基础上,由于独立同分布思想的局限性,将DCK算法与非独立同分布结合,提出非独立同分布下的基于密度的异构数据K-means优化方法(Density-based K-means optimization method for heterogeneous data under non-independent and identical distribution,简称HN-DCK),通过考虑类别型数据之间的内部与外部耦合,同时结合了数值型数据的内部与外部耦合,将得到的维数转换和特征选择的全局耦合带入优化后的K-means进行验证,实验结果表明,所给算法能够得到较高的准确率。
其他文献
随着互联网的快速发展,各类新闻社交网站、多媒体客户端以及各界代表和部门的公众平台账号成为新兴的信息媒体。相比传统媒体如电视、报纸期刊,人们偏向于在这些新兴媒体上获取新闻,这些新闻媒体平台以其爆炸式的信息迭代速度和惊人的传播速度,使人们进入大数据信息时代,深刻地影响着百姓的生活。由于谣言信息的种类繁多,传播速度很快,民众对新兴媒体的依赖度也高,这就需要加大对网络信息的监管,阻断网络谣言的传播。谣言不
羰基还原酶属于氧化还原酶类,广泛存在于细菌、真菌、酵母和动植物体内,以辅酶NAD(P)+或NAD(P)H作为电子受体和供体,可以特异性地催化酮(醛)和醇之间的相互转化,用于合成重要价值的羟基化合物。近年来,近平滑假丝酵母Candida parapsilosis整细胞或其来源的羰基还原酶凭借其广泛的底物谱和优良的催化特性,在香精、功能食品和药物的研发中得到广泛应用。本课题组在前期研究中得到了一株近平
《幼儿园教育指导纲要(试行)》要求,幼儿园的教育具有启蒙性、全面性,寓教育于一日生活之中,发挥一日生活的整体教育功能;创设与教育相适应的良好环境,为幼儿提供活动和表现的机会。这种"一日生活处处是教育"的理念对我们如何开展餐前活动起到了引领作用。
Ni2FeGa合金因其具有高饱和磁化强度和良好的磁热效应、磁电阻效应等性能,受到科研工作者的广泛关注。然而Ni2FeGa合金纳米线尚未成功合成,其基本的物理性质尚未知晓。Ni2FeGa合金在一维尺度下,是否还具有块材形态丰富的物理特性,是否会出现新的性质,这都是值得探究的。本文采用电沉积的方法制备了Ni2FeGa合金纳米线,并对其结构和磁学性质进行了表征。对于纳米线的制备,以硫酸盐为电沉积主盐,双
近年来,地球生态环境持续恶化,鸟类的生存状况日况愈下,甚至濒临灭绝,世界各国都在为保护濒危鸟类做出努力。但由于鸟的种类众多,若仅凭肉眼判断,不仅效率低劳动量大,准确率也难以得到保证。加之人类无法全天候在野外蹲守,使得如何有效统计鸟类种群存在及分布状况一直是一个具有挑战性的难题。随着深度学习的发展,计算机视觉技术得到越来越多研究者的关注。通过该技术自动统计自然界中鸟类的种类及数量分布,相对于人工进行
研究背景:当前,我国成年人的血脂异常患病率明显上升,高脂血症的防控形势严峻。高脂血症被认为是动脉粥样硬化形成、发展的一个重要因素,与多种心脑血管疾病的发生紧密相关,是引起心脑血管疾病的重要独立危险因素。目的:观察楂曲降脂方对高脂血症痰瘀互结证患者的血脂(TC、TG、LDL-C、HDL-C)、血栓风险(D-D、FIB)、炎症因子(hs-CRP、IL-6)、中医症候积分及改善率、颈动脉内-中膜厚度(I
众所周知,重尾分布在分支过程、排队论、可靠性理论、金融工程、数量经济学和保险精算等研究领域都有广泛应用,且独立情形下重尾随机变量序列的Max-Sum等价性质是应用概率论中的一个基本课题,然而在现实生活中,独立性假设往往是不成立的.本文将在两类较特殊的相依结构下,研究重尾随机变量序列的局部Max-Sum等价性,这些结果可应用于风险理论中破产概率的局部渐近性刻画等领域.全文分为五个部分:在第一章中,首
针对协同推荐和序列表征方法在预测用户行为任务上面临的行为不确定性和数据稀疏问题,提出基于意图识别的不确定性行为序列预测(G2IE)方法. G2IE方法根据计划行为理论(TPB),对用户行为序列中受控行为模式进行挖掘;基于信息熵计算相邻受控行为之间的不确定性行为列表的行为转移意图强度;融合行为转移意图增强行为关系,弥补行为意图缺失. G2IE方法挖掘行为的不确定性关系,并用模型进行量化,用于解决行为