论文部分内容阅读
随着计算机技术的迅速发展,招生考试工作信息化程度不断提高,北京教育考试院每年通过对各级各类考试的组织,积累了大量的考试数据。这些数据隐含着学校教育的真实现状以及学科教育的情况等大量有价值的信息。对这些数据分析利用,将有可能对北京市教育的发展和决策提供极为有用的参考价值。
本文针对北京教育考试院的实际应用需求,主要研究了教育考试数据仓库构建和教育考试数据挖掘中涉及的关键技术,主要工作和成果为:
(1)教育考试数据仓库的构建。分析了教育考试院业务的现状和业务数据的特点,结合决策分析等的实际需求,确定了教育考试数据仓库主题;在此基础上,设计了教育考试数据仓库的体系架构,数据仓库包括4个层次:业务数据层、数据仓库层、DS操作层和应用展现层;设计了数据仓库的数据模型;分析了数据ETL中存在的问题,完成了业务数据到数据仓库的抽取、转换和装载。
(2)数据挖掘技术在教育考试数据分析中的应用。深入研究了数据挖掘中关联规则挖掘技术,对其经典的挖掘算法-Apriori算法进行了分析,针对教育考试挖掘的需求,研究了改进措施,使其能更好地适应应用环境;利用该算法,对教育考试数据进行了挖掘尝试。
实践表明,数据仓库构建采用的技术路线可行,架构设计合理,分析主题明确,对教育考试数据的再利用提供了有效的技术支撑;针对教育考试数据的挖掘尝试对教育考试数据分析的全面开展有参考价值。