京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据计算你和学霸的距离
在成都最冷的20天里还能坚持早起吃早餐;总是在晚上10点到11点之间洗澡;在教学楼打水近80次……正值开学季,电子科技大学教育大数据研究所的数据显示,普通的你,和学霸之间,恐怕就差了这些“微不足道”的行为。
这个颇有意思的发现,来源于覆盖了电子科大两万余名本科生的大数据系统——“学生画像”,其将每名学生几乎所有的在校活动轨迹与成绩之间建立了关联。利用这些数据,不仅能预算出学生的学习状况,研究者还希望依此引导他们更好地规划各自的学业和就业方向。
学霸的生活轨迹
传统教育认为,学生有规律的生活,是学生提高成绩的重要保证。
“普遍情况下,良好的行为习惯与学习成绩是呈正相关的,这基本是得到公认的。”21世纪教育研究院副院长熊丙奇表示,这些行为习惯,有的与成绩变动直接相关,例如学生按时上下课,常去图书馆等;还有一些与成绩的变动是间接相关的,比如养成早起的习惯,经常洗衣服,有规律的打水等。“虽然不直接作用于学生的学习,但是,好的生活习惯,反映的是学生积极的状态,说明学生自我管理的能力较强。那么,这些学生用在学习上的时间也相对有保证,也就势必会对学习成绩产生影响。”
不过,必须承认,这个被普遍接受的结论很难被定量描述。“如果我们能定量地证明已有的依据,并提出科学的可参照的建议,这项研究就是有价值的。”电子科技大学教育大数据研究所副所长连德富这样解释这项研究的初衷。
如今,研究团队已经花了一年多的时间记录学生的校内行为,包括吃饭、购物、打水、进出图书馆、借阅图书、宿舍门禁、洗澡、使用洗衣机、乘坐公交等。结果发现,学霸有着与一般学生完全不同的学习生活轨迹。
以某专业排名第3的学生为例,她几乎每天固定在8点、12点、14点三个时间点出门,留在宿舍的总时长低于专业平均水平。而该专业成绩排名第61的小石每天进出宿舍的时间很随机,而且通常每次外出的时长不超过2小时,“宅指数”明显高于专业平均水平。
此外,成绩最好的学生吃早餐次数在110次,成绩最差的学生吃早餐次数仅为60次。9点前出现在食堂吃早餐的同学,成绩相对更好。成绩较好的学生集中在晚上10到11点之间洗澡,而成绩较差的学生,洗澡时间无明显规律。
除作息规律以外,进出图书馆次数也是重要指标。第一学期,成绩最好的学生进入图书馆的次数为55次,成绩最差的学生进入图书馆的次数为35次;到了第四学期,成绩最好的学生进入图书馆的次数为61次,成绩最差的学生进入图书馆的次数为18次。
同样的情况还存在于教学楼。学生去教学楼饮水机上打水次数越多,就说明学生长期在教学楼里活动。第三学期的数据显示,成绩最好的学生在教学楼打水近80次,成绩最差的学生在教学楼打水不到10次。
尤其让连德富印象深刻的是,不同成绩的学生在借阅图书的种类上也有明显的区别。他发现,《蝴蝶公墓》《变态心理学》等带有悬疑色彩的图书,借阅者的成绩普遍不理想。
过去,要想清楚地知道不同成绩水平的学生群体与他们的行为特征之间一一的对应关系是非常困难的,但有了大数据的帮助,一切变得简单起来。
“学生画像”还能做什么
仅仅根据学生行为习惯的数据统计,就可以制定出学霸路线吗?
要想精确刻画一个人需要用无数的数据,但连德富认为,校园就是一个拥有丰富数据的很小的社会系统,只要这些数据能与目标联系起来,就有一定的指示作用。
事实上,“学生画像”的首要功能,就是算出每名学生的学习、生活状态,并设计出一系列辅助他们更好规划各自学业的功能模块。目前已经实现的是挂科预警。
据了解,研究团队设计了一个针对挂科率的公式,即过去的学习基础+一段时期内的努力程度。学习基础是根据已考科目成绩、已考与将考科目之间的关联性计算得出的,而努力程度则主要依据教学楼打水频率、进出图书馆的时间与次数等。
如果有学生正处于挂科率高风险的边缘,系统就会自动向负责该名学生的辅导员发送预警信息。而在过去,只有当学生已经出现挂科的情况,辅导员才能得知,即便如此,事后也很难分析学生挂科的具体原因。
“目前,教育大数据暂时的定位还是辅助传统教育,管理、引导学生。”连德富表示。
除了关注学生成绩,他相信,现在的校园里依然充满了像当初的自己那样对未来迷茫的人。“我们都曾迷茫过,不知道自己喜欢什么,可以做什么。”
如何利用“学生画像”帮助学生找到适合自己的路,是研究团队正在努力的方向。目前,数据库不仅有现有学生的行为轨迹,还有已经毕业的学长们的行为轨迹。连德富告诉《中国科学报》记者,最终选择考研、出国或者创业的学生,在生活、学习方式上是存在一些差异的。
比如,打算出国的学生在选修课程、借阅图书时都会偏向语言方面的内容,而偏好创业的学生则与一项很有意思的数据产生关联。由于电子科大在成都郊区,学生进市区需要乘坐一趟班车,有的学生去市区的频率明显要高于其他同学,这也意味着他们的社交行为可能更为丰富。
“学生画像”可以将现有学生的行为轨迹与已经毕业的学长们的行为轨迹进行比对,如果在选课、借阅图书、参加社团活动等方面的轨迹与某类去向的毕业学生比较相似,学校就可以提供相关方面的建议、指导。
对此,21世纪教育研究院副院长熊丙奇也表示,传统的大学教育对学生的管理是比较松散的,因此,通过对学生生活、学习的数据分析,掌握学生的目标动向,有助于学校对学生进行合理的引导,无论是学习还是参与社会活动,都能够有的放矢地帮助学生作进一步规划。
中科院心理所研究员尹文刚则将关注点瞄准了当下大学生的心理健康问题。
“学生从高压的中学时期,进入完全需要自我管理的大学生活,一时间无法适应,容易出现心理问题。一旦受挫,通常选择回避的态度,甚至会出现抑郁的情况,更严重的可能危及生命。”尹文刚直言,近年来,大学生频繁曝出跳楼、伤害同学事件,都与心理健康密切相关。
他认为,通过教育大数据,可以及时掌握学生的行为习惯特征,一旦发生明显异常,比如长期独处、很少参与公共生活等情况,学校就可以适当关注学生的心理健康问题,采取相应对策。
研究团队正在挖掘“学生画像”在关注学生心理健康方面的作用。他们可以根据学生的行为习惯来量化“孤独”。
性格孤僻、有强烈的孤独感,往往被认为是抑郁易感人群具有的一些共性特征。他们发现,学校最孤独的一群人出现心理问题的概率比普通人高一个数量级。因此,研究团队正在设计算法,依据“30天内,两个素不相识的人,有两次或两次以上前后脚打水、打饭、进公寓、进出图书馆或坐公交车经历的概率,不超过十二万分之一”的结论,可算出每名学生的“在校朋友圈”,以此量化学生孤独的程度。
在尹文刚看来,预知大学生的行为习惯所隐含的心理问题,特别是关注学生的变化,对于开展学生工作是非常有帮助的。
从这些角度看,大数据在教育领域的应用是有一定价值的。
如何保护学生隐私
打水刷卡、进图书馆刷卡、进宿舍房间刷卡……在校园逐步实施一卡通的时代,学生大数据已经变得易得而且可控。学校一方面依靠大数据加强对学生的管理,一方面也要照顾到学生的隐私,尊重学生的行为习惯。因此,如何合理使用大数据,同时又保护学生隐私,就成为了一个重要的问题。
“如果让学生感觉生活在学校的监控下,那么即使学校的出发点是好的,希望能够对学生的行为及心理进行合理引导,这种举措也无疑会让学生反感。”熊丙奇特别提示学校在运用大数据的时候,要考虑到学生的隐私及习惯。
对此,连德富表示,“学生画像”在保护数据隐私方面是非常谨慎的。
“设计系统功能时,很重要的一方面是数据PK。”连德富介绍说,希望每名学生除了能在系统上看到自己的“画像”外,还能看到自己与同专业同学比较后的相对优势和劣势。“但是,比较的根本目的是找到学习的模板,而不是与具体的某个个体比高下。”
因此,在申请PK时,系统是存在强权限管理的。发起比对的学生必须经过对方的允许,才能看到对方的画像。但是连德富透露,由于该功能涉及的数据隐私比较敏感,目前并没有向学生端开放。
而已有的面向辅导员的端口,所涉及的数据经过严格的加密处理,系统不保存学生的真实姓名及学号,只有出现重要预警信息,才会自动给相应的辅导员进行短信推送。这意味着,任何一个技术人员都看不到学生个人的信息,而辅导员最多能够掌握自己负责学生可能出现的重大问题。
连德富坚持认为,教育大数据不会刻意强调每个个体的情况,而是反映学生整体的生活、学习状况,以及时预测预警学生的异常状况,从而为学校的决策提供数据支撑。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04