京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据介入教育领域 鱼和熊掌之间如何平衡
大数据(Big Data)作为国家基础性战略资源,其战略地位与核心价值不言而喻,但大数据技术是一把双刃剑,到教育上同样会带来的危机。这需要我们在渴望优化学习,和拒绝让过去主宰未来之间找到一种微妙的权衡之计。
如大多数美国大学一样,亚利桑那州立大学正面临一个棘手的问题 --- 新入学的学生们数学不够好。尽管学校会提供一些补习课程,但仍有三分之一左右的学生拿不到C,这意味着这些学生很有可能中途辍学。为了改变这种糟糕的现状,亚利桑那州立大学开始使用一款由Knewton科技教育公司提供的个性化学习软件,使用下来结果很好,在2009年至2011年期间学生的毕业率从64%窜到了75%,辍学率减少了一半。
但是请试想一下这个成功案例背后有哪些潜在的问题。如果那些被软件收集起来的数据被永久保留,个人被要求参加补习课的事实被永远记录在案可供查找,这将会怎样?再试想一下,如果这个计算机系统是通过把那些不达标的学生挡在大学门外而不是通过辅助学生学习来提高学校学生的毕业率和均分,这又会怎样?
刚才提到的类似问题极有可能发生。一些教育改革者提倡每一个学生应该配备一个记录他们所有电子成绩单的“数码包”。自适应算法是一项令人毛骨悚然的艺术。可汗学院的分析院长Jace Kohlmeier提出了一个难题--- 如何用区域学习曲线来描绘学生学习的掌握情况。比如可以对学习能力较差的人施压让他们早早退学,这样学习曲线的末端会更好看一些。但他说一般情况下没人会这么做。
大数据收集、储存、处理数据的能力比以往任何时候都要强大,它将会颠覆传统的教育行业。大数据将在教、学环节增加前所未有的数量化体验,不仅学生受益,老师也是。然而,这么做也蕴藏了风险。
长久以来,家长和教育专家都在忧虑如何保护未成年人隐私。同时人们还担心,对于那些在学业上被“跟踪”过的学生,他们的人生道路是否会因此而变窄。大数据不仅放大了以上这两个问题,而且改变了问题的本质。所谓量变引起质变。
过去的表现
很多家长看到自己子女在校期间的所有数据一点一点被存储累积起来,都感到无比恐慌。比如,非营利组织inBloom(收到颇有声誉的Gates Foundation and Carnegie一亿美金的资助)曾与9个州就建立学生数据库达成协议。但是2013年因为家长大规模抗议,这项举措在其中6个州都停摆了。
人们出自本能地反对这件事并不仅仅只是一般意义上的对隐私和数据保护的忧虑,而是一种更特殊的忧虑。一般来说,传统的数据保护关注的焦点在于权力的不均等---有些人能够拿到别人的数据,而其他人不能。这里,我们更多地是担心不可磨灭的过去对我们造成的影响。学生的记录不再是封存在纸盒里,褪色直到被扔掉,而是被永久地存储保留,随时随地都可能被调出来查阅。
想象一下,一个人在学生时代的活动都被记录下来,当他/她在25年后申请工作时,那些记录都能被潜在雇主查到。但是目前,个人过去的轨迹是很难查到的,除了那些名人。在未来,大众将会享受名人的“待遇”,不仅仅是标准化入学考试成绩能被查到,做学生时方方面面的数据都会被查到,从生病的天数到与辅导老师交流的次数,甚至一本《赫克历险记》读了几页,划了几段都能被查到。
因此,教育数据引发的最大问题不是信息泄露,而是把我们禁锢在过去,否认我们成长、蜕变的能力。目前还没有权宜之计。我们无法告诉别人应该如何去评价他人,应该考虑哪些因素。过去我们常常认为,事情的发展很难完全受理性摆布。但另一方面,如果我们不收集数据不储存数据,我们就错过了大数据为教育带来的潜在福利。
没有变数的未来
第二个问题同样严峻。
教育大数据的收集会被用于预测我们的未来--- 我们该以怎样的节奏学习,先学什么后学什么,如果我们在晚上8点到9点间复习了功课,我们就有90%的可能性拿到B或者更好的成绩,如果我们在8点之前复习,就只有50%的可能性。这是概率预测,但问题是概率预测限制了我们学习的自由,最终可能会限制我们的人生道路。
大数据给人最大的愿景是它使个性化学习成为可能,改善教材和教学方法,最终提高学习成绩。在未来的大数据时代,预测将会比现在精准得多,招生官、雇主等决策者将会面临更大压力,他们会愈加依赖预测结果来做决策。(因而数字的准确性会对决策质量产生直接影响)以前我们可以不同意强加在自己身上的偏见说自己是特例 ,现在不能了。
举个例子,一些大学正在试用一套叫“电子建议专家”的大数据系统,这个系统能够辅助学生尽早毕业。亚利桑那大学在2007年开始使用这套系统后,自那以后84%的学生能够成功进入下一阶段的学习,以前这个比例只有77%。再举个例子,田纳西州奥斯汀佩伊州立大学的学生们正在使用一款叫“成绩指南”的软件,当软件告诉他们这门课他们至少能得B,他们就有90%的可能性拿B,否则只有60%的概率。
这些形形色色的系统能够对大学毕业率产生很大的影响。在美国大约只有一半的学生能够在六年内顺利完成大学学业。但是这些系统也会产生副作用。如果系统告诉我们,这门课我们很有可能学不好,比如生物信息学,然后系统转而向我们推荐另一门课,比如护理课,结果会怎样?我们可能会认同系统推荐的就是对我们最有利也最容易走的路。但这可能恰恰就是问题所在。或许我们应该被人鼓励无视所谓的概率预测,坚持走自己的路(逆难而上获得成功),而不是对一个退而求其次的结果沾沾自喜(而不是选择一条本就更容易的路)。
有人希望,大数据能够让学生不再被数据追踪。学生能够按照自己的节奏学习,同时算法会最优化教材使用顺序从而帮助学生更好学习。渐渐的,人们便不再提起追踪学生成绩的事。不过这只是一个美好的愿景而已。
现实往往与预想相反。个性化教育可能会把人更残忍地限制在某条路上,让人们无法打破常规去走自己想走或能走的路。目前系统里有10亿条不同的学习情况记条和学习轨迹安排,每一条都只对应一个学生。这样做有利有弊,利的方面在于教育是为每个人量身定做的,弊的方面在于学生仿佛困在了状如峡谷的凹槽中,跳不出来,只能顺着走下去。这样一来,我们的人生依然受限于“已知道路”,虽然这是一条为我们量身定做的道路。
直面焦虑
人们都在害怕大数据运用到教育上会带来的危机,那么,我们该如何帮助人们摆脱这些感性或理性的顾虑呢?
现在很多国家的隐私法都禁止对个人信息大量收集和长期储存。一般来说,这些法律会要求数据使用者告知大家他们收集了哪些人的数据,可能会怎么用那些数据,同时还需获得允许他们那样使用数据的允许。但是,大数据最大的魅力在于其不确定性---即数据被收集的时候,人们还没有想好该怎么用它,在后续的使用过程中逐步发现了它的价值。所以,几乎不可能在数据被收集的时候就能准确告知对方数据会被怎么用,获得相关的同意更是无从谈起。
欧美政府已经在讨论如何修订隐私法确保大数据不被滥用。如果数据使用者愿意承担更多责任,如法律责任,他们就有权利二次使用数据,挖掘新价值。这样一来,他们就需要认定哪些是可接受的使用途径,哪些不能被接受。
在教育界,使用个人数据来改进教材和学习工具是可以接受的,但使用同样的数据来预测学生未来能力就应在严格管制下进行(比如采用透明公开、行政监管的方式来限制)。既要规定数据使用者必须得到学生本人明确同意才能实施数据使用,还要加强执法力度,让公司无法承担违规的严重后果。
总而言之,数据介入教育领域到底要到一个怎样的程度,如何抵抗可以预见的反乌托邦带来的危害,将是一个鱼和熊掌的问题。这需要我们在渴望优化学习,和拒绝让过去主宰未来之间找到一种微妙的权衡之计。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27