聚类式最小角回归与聚类式坐标下降仿真及实例分析

来源 :山东大学 | 被引量 : 0次 | 上传用户:lingxiaodong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的兴起,机器学习作为人工智能的核心被更多的人熟知。机器学习本质上分为有监督学习问题和无监督学习问题。有监督学习问题中,数据本身具备类别标签,学习问题的目标是完成分类或回归。有监督学习过程中,变量的输入和输出是能够被充分观察到的。而无监督学习问题中,数据本身没有类别标签,学习问题的目标是完成聚类。无监督学习过程中,聚类结果可以不代表明确类别含义。而模型选择作为机器学习中的重要一环,是帮助分析数据有效性、探求变量间相关关系以及试洽实际案例的有力工具。传统的模型选择方法往往假定了源数据是独立同分布的,这使得目前模型选择问题的研究,主要针对有限维特征的情况。可是,大规模数据的案例中,源数据来自不同的数据生成过程,已经是不争的公判。这使得数据异质性问题成为模型选择乃至机器学习中不可忽视的问题。在许多实际问题中,数据异质性具体体现为:(1)数据明确属于不同的来源(如本文4.3.1小节中的花卉数据),但可能我们不知道具体的分类。(2)我们明确知晓存在不同的分类(例如本文4.3.2中300个城市的各项指标),但不同城市之间又存在特征(城市大小,发展程度等)的相似性,因此实际中不可能分成300个类别去处理数据。此时,将源数据划分为多少个类别才合适,就变成一个重要的问题。为了解决数据异质性对模型选择带来的糟糕影响,本文提出一类聚类式算法解决这一问题:用分层模型实现对源数据的聚类,在每一层内部独立完成有监督学习,并计算每一种聚类结果对应的学习过程的BIC分数,选择BIC得分最小的那一层做为数据生成过程的个数。聚类式算法,本质上对有监督学习问题求解算法的改进。传统模型选择对于源数据独立同分布的假设,可以看做,将源数据的数据生成过程个数假设为n=1。聚类式算法,将数据生成过程的个数n推广到任意正整数。而数据生成过程的数量,由算法外层的聚类分析完成。基于上述想法,再考虑到高斯分布的广泛性、Lasso回归的优良特征,本文重点研究了聚类式最小角回归与聚类式坐标下降两个算法,通过Python随机数据对新算法进行了仿真模拟,通过Matlab数据集对新算法进行了实例分析。从仿真结果发现,两个聚类式算法的仿真模拟结果一致,并且明显比原估计稳定。从实例分析结果看,聚类式算法的BIC分数较为理想,说明预测结果较好。
其他文献
在我国,上市公司已经成为中国企业最重要的一部分、是国民经济的生力军,是公众关注的焦点。所以,对上市公司的经营业绩进行科学有效的评价是促进中国企业整体管理水的提高和
随着军事装备的不断发展,无源探测器(电子支援系统、雷达告警接收机和电子情报接收机)对飞机的探测能力大大提高.为了避免机载雷达设备辐射的射频(RF)信号被截获,要求飞机具
区域金融竞争力决定着一个区域的金融产业和经济的发展。本文对浙江省整体金融竞争力的时序差异特征和各地市金融竞争力的区域差异特征进行了具体的描述,试图探索适合浙江省
本文首先分析了现阶段我国农民、农村、农业发展面临人口和资源的双重压力,强化了农业发展的资源约束,发展资源的不足与发展动力的缺失形成“三农”问题中一个长期的且互为因果
棉针织物直接染料染色的固色和柔软整理工艺通常采用二浴二步法。试验表明 ,一浴法固色柔软工艺具有工艺流程短、节水节能、环境污染低的优点。采用一浴法加工的织物的染色表
以STCl2C5A60S2单片机为控制核心,利用单片机控制风扇完成对帆板转角的控制。该系统主要模块有单片机控制模块。人机交互模块、角度检测模块、风扇控制调速模块、电源模块、声