论文部分内容阅读
传统的判别分析主要针对点数据,当需要处理海量数据时,其从整体上把握数据属性方面有所欠缺,符号数据分析方法通过“数据打包”,实现了从整体上把握海量数据内部之间的关系。本文在总结、整理现有区间型符号数据理论的基础上,以一般分布的区间型符号数据为研究对象,研究了三种区间型符号数据的判别方法。
首先,整理区间型符号数据的标准化问题;基于Hausdorff距离,推导待判区间型符号数据与各类别中点之间的距离。在此基础上,提出了区间符号数据的距离判别法,并给出具体算法步骤。第二,在现有文献基础上整理区间数的线性组合方法;研究区间型符号数据的方差分解,将其分解为组间变差与组内变差两部分。在此基础上,成功将传统线性判别法推广,给出一般分布区间符号数据的Fisher判别方法及算法步骤。第三,在现有中外文献基础上探讨符号数据的核密度估计,将非参数判别法推广,提出符号数据的最大似然法和Bayes判别法。最后,针对降水预测问题,在中国东北地区选取29个有代表性的城市为符号对象,以2010年5月4日的气温、云量、风速为指标变量,形成区间型符号数据,分别应用距离判别法和Fisher判别法预测5日是否有降水过程。三种方法各有利弊:距离判别方法对区间内数据点以及区间数整体的分布无限制,对问题具有普遍适应性,但却有信息量应用不足的缺陷;Fisher判别分析易于解释,应用广泛,但判别前需要已知区间数内部及整体的分布,成为其不足之处;基于核估计的非参数判别法能够避免需已知样本分布的缺点,但为了获得满意的总体密度估计,实际需要的样本量巨大,有时不利于实际应用。
本论文将传统判别分析方法拓展,提出和总结了适用于一般分区间型符号数据的判别分析方法,同时应用研究表明,这些判别方法具有可行性和实用性。