论文部分内容阅读
随着信息技术的发展,数据挖掘技术越来越引起人们的关注,尤其是对于需要运用大量数据的天文学邻域。数据挖掘技术的发展推动了各邻域的技术进步。 AutoClass C(自动聚类算法)是一种无监督的贝叶斯分类系统,它可以将数据自动的分为不同的类,并记录每一条数据分别属于不同类的概率。我们可以通过分类结果,对分类正确率进行判定是否达到我们对于数据分类的预想结果。 本文我们先用AutoClass C对规则图形椭圆和三角形进行分类测试,其次再对已知球状星团进行分类测试。我们采用三种不同的数据属性组合,选用不同的密度比(成员星与背景星之比)进行测试对比。对于两个数据属性组合、不同密度比的分类,密度比越大,误差越小,得到的星团成员星占总的成员星比率几乎不变,但也有一些特殊情况,比如以位置x和y为数据属性,数密度比为10:1的分类。对于多个数据属性组合、不同密度比的分类,同样密度比越大,误差越小,得到的星团成员星占总的成员星比率几乎不变,且比率几乎都在95%以上;与两个数据属性参与的分类相比,在数密度比相同的情况下,误差很小,且得到的星团成员星占总的成员星比率更高,总体分类效果更高。 因此,未来我们可以应用AutoClass C来寻找天区中的未知球状星团的可能性很大,给天文学家以后的工作来带了方便。