关联规则在毕业设计成绩分析中的应用
2024-10-18
来源:威能网
科技信息 高校理科研究 关联规则在毕业设计成绩分析巾硇应用 扬州大学信息工程学院 盐城机电高等职业技术学校 鲁翠柳 [摘要]本文利用关联规则及Apriori算法,并运用关联规则算法对毕业设计管理系统产生的报表数据进行挖掘分析,分析教师的 某些因素与学生毕设计成绩的关联程度,为学校的教学管理工作提供依据。 [关键词]关联规则 Apriori算法 数据挖掘 教师因素 毕业设计成绩 现在很多学校都在使用各种信息管理软件管理学校事务及学生信 息,但如果只把数据存人到系统中,进行简单的查询、统计工作,不是对 其有效的利用,这些数据就成为一个待开发的“宝藏”。我们要对学生数 2-2关联规则挖掘 利用关联数据挖掘算法处理数据得出教师工作年限与学生毕业设 计成绩优秀率的支持度及置信度,结果如表1所示。 据库中的大量数据进行抽取、转换、分析和其它模型化处理,从中提取 出辅助教育决策的关键性数据,利用这些数据理性地分析学校各方面 工作成效以及学生培养过程中的得失,获得有利于学生管理的决策和 促进管理发展的有价值的信息,是现阶段学校信息管理中十分重要的 工作。 1.关联规则的概述 1.1关联规则的定义 关联规则是指从信息数据库中找出项目集和对象集的频繁模式, 得出项目集中项目的相关性。描述相关性的关联规则可以反映数据项 之间的密切程度或关系。 设I={il,i2,…im}是数据项集合(项集),其中的元素称为项(item), 任务相关数据D是数据库事务T(transaction)的集合,每个事务T则是项 的集合,并且T∈I。每个事务由事务符TID标识。A,B为两个项集,事 务T包含A当且仅当A T;其关联规则的蕴含式如下:A ̄B[s,c1其中 ACI,BcI Af3B= l,规则A B在事务集D中成立,并且具有支持度s 和置信度c。 支持度s表示事务在规则中出现的频率。 supp6rt(A ̄B)=P(A u B) 置信度c表示关联规则AFB的强度。 confidence(A ̄B)=P(BIA):P(A U B)/P(A) 挖掘关联规则问题就是寻找支持度和置信度分别大于用户给定的 最小支持度(minsupp)和最小置信度mincon0的关联规则。 1.2关联规则的挖掘步骤 (1)根据最小的支持度,在大量事务寻找高频率出现的频繁项集。 (2)根据最小的置信度,找到的频繁项集产生关联规则。 1_3 Apriori算法 Apriori算法是关联规则的算法中最经典的算法。Apriori算法的频 繁项集查找是一个逐层迭代的方法。每层查找分成项集的连接和剪枝 两个步骤。连接步骤是查找k一项频繁项集Lk,通过k-1项频繁项集L 与自己连接产生候选k一项集的集合c 。剪枝步骤是扫描事务数据集, 去掉那些支持度小于指定最小支持度的事务项。最后保留下来的频繁 项集,通过子集产生法来产生关联规则,然后去掉其中置信度低于用户 指定的最低置信度的关联规则,最后剩下的就是满足用户需要的关联 规则。 算法开始从最简单的1一项开始进行筛选,找出I 。后,I 与L 自身 连接产生c ,然后对c 的所有事务项进行筛选后,产生 ,由此,不断 迭代下去,直到最后k为空集。 2.关联规则在毕业设计成绩分析中的应用 2.1数据预处理 本实验使用某校计算机专业2009届毕业生毕业设计成绩及指导 教师相关信息的数据。因毕业设计管理系统产生的报表中含有一些错 误、缺损等不规范数据,所以首先对实验数据进行预处理。 数据的预处理包括数据清理、转换和集成。 数据清理:实验中将存在属性值为空或错误的记录忽略。如对没有 学生毕业设计成绩的教师记录删除。 数据集成:将教师的学历集成为本科、硕士、博士;职称集成为讲 师、副教授、教授。将分散的学生毕业设计成绩集成并计算为优秀率。 数据的转换:将教师的工作年限分为<10年、1O—l5年、>15年。将 优秀集成为的三个等级<2O%、20%一40%、>4O%。 表1教师工作年限与学生毕业设计成绩优秀率的支持度及置信度 项集 支持度 置信度 AljDl 033 0.75 A1jD2 O.11 0.25 A2= D2 0.22 1 A3 D2 O.1l 0-33 A3jD3 O-22 0.67 —98— 设最小支持度为O.2,最小置信度为0.5,则上述项集中共有3个频 繁项集如表2所示。 表2教师工作年限与学生毕业设计成绩优秀率关联规则 项集 支持度 置信度 A1 Dl 0-33 0.75 A2jD2 O.22 1 A3 D3 【)|22 O.67 利用关联数据挖掘算法处理数据得出教师学历与学生毕业设计成 绩优秀率的支持度及置信度,满足最小支持度和最小置信度要求的关 联规则如表3: 表3教师学历与学生毕业设计成绩优秀率的关联规则 项集 支持度 置信度 B2= D2 O_33 O.75 利用关联数据挖掘算法处理数据得出教师职称与学生毕业设计成 绩优秀率的支持度及置信度,满足最小支持度和最小置信度要求的关 联规则如表4: 表4教师职称与学生毕业设计成绩优秀率的关联规则 项集 支持度 置信度 Cl D1 O.22 O.67 C2= D2 O.33 O.75 C3 D3 O.22 1 2.3实验结果分析 从实验结果来看,学生的毕业设计成绩与指导教师的某些因素存 在一定的关联。从教师工作年限与学生毕业设计成绩优秀率关联规则 说明,工作年限小于1O年教师的学生毕业设计优秀率小于20%,工作 年限在1O至l5年教师的学生毕业设计优秀率在20%到4o%之间,工 作年限大于15年教师的学生毕业设计优秀率大于40%。教师的工作年 限与学生的毕业成绩的密切相关,教师的工作年限越长,所指导学生的 毕业设计成绩优秀率就越高。 教师学历与学生毕业设计成绩优秀率的关联规则说明,学历为硕 士的教师指导学生的优秀率在20%到40%之间,其它学历的教师与学 生毕业设计成绩的优秀率置信度较低,可以看出教师的学历与学生的 毕业设计成绩关联不紧密。 教师职称与学生毕业设计成绩优秀率的关联规则说明,职称为讲 师的教师学生毕业设计优秀率小于20%,职称为副教授教师指导的学 生毕业设计优秀率在20%到40%之间,职称为教授的教师指导的学生 毕业设计优秀率为大于40%。教师的职称与学生毕业设计成绩紧密相 关,教师职称级别越高,所指导学生的学生的毕业设计成绩优秀率就越 高。 学生毕业设计成绩与指导教师的工作年限和职称紧密相关,与教 师的学历关联不紧密。因此,教师的教育教学水平和专业能力随工作年 限在提高,在职称评审过程中,教师的业务水平和科研能力也在相应提 升。本实验的分析结果为以后的教学管理提供了依据,如在教学安排中 做好老教师的传、帮、带作用,积极宣传、鼓励和支持青年教师参加高一 级的职称评定,在这个过程中提高他们的专业能力和教学能力,从而全 面提高全体教师的教学水平和专业能力。 参考文献 [1]周根贵.数据仓库与数据挖掘[M].浙’江大学出版社,2004 [2]马冰冰.学生信息管理与数据挖掘的应用[D].山东大学,2008年 4月