论文部分内容阅读
在中国,高考可以算得上是规模最大且最具影响力的人才选拔制度。高考不仅是对高等教育专业人才进行选拔性的一种测试手段,而且是对现在基本课程教学质量的测试,因此高考试卷和高考成绩划分也容易受到异议。江苏省作为全国有名的教育大省,其高考一直颇受关注。本文以江苏省海门市某高中高考考生成绩为实验基础,包括语文、数学、英语三门总分、对应批次等级与两门选修的等级。江苏省高校招生考试除了成绩,还有两个以等级记分的选修课程。通过对已有的考生成绩数据建立数据仓库,应用联机分析处理(OLAP),建立直观的数据视图,创建挖掘模型,通过学生模拟考试成绩去预测他们最后可能的高考成绩。本论文的主要工作包括:1)处理已有高考学生的相关成绩数据。对数据进行统一格式处理,将考生的高考成绩导入数据库中,建立完整的数据仓库,分别对应考生的高考分数、录取等级(高考等第)以及两门高考选修成绩。应用关联规则来挖掘模拟考试以及高考成绩之间的规则。通过建立数据源视图,建立关联规则,从模拟考试和高考的事务集合中挖掘并找出满足置信度和支持度要求的所有链接,挖掘模拟考试成绩与高考成绩之间隐藏的重要关联。2)应用决策树分类来预测高考的录取批次分类预测。即从高考分数、高考等第和高考选修三个方面进行决策树建模,根据已知的模拟考试成绩进行高考成绩的分类预测。将前面关联规则挖掘到的规则应用到决策树分类中,从高考等第、高考选修两个方面,得到应用规则后的决策树分类矩阵,比较两者之间的分类差距。