京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据介入教育领域 鱼和熊掌之间如何平衡
大数据(Big Data)作为国家基础性战略资源,其战略地位与核心价值不言而喻,但大数据技术是一把双刃剑,到教育上同样会带来的危机。这需要我们在渴望优化学习,和拒绝让过去主宰未来之间找到一种微妙的权衡之计。
如大多数美国大学一样,亚利桑那州立大学正面临一个棘手的问题 --- 新入学的学生们数学不够好。尽管学校会提供一些补习课程,但仍有三分之一左右的学生拿不到C,这意味着这些学生很有可能中途辍学。为了改变这种糟糕的现状,亚利桑那州立大学开始使用一款由Knewton科技教育公司提供的个性化学习软件,使用下来结果很好,在2009年至2011年期间学生的毕业率从64%窜到了75%,辍学率减少了一半。
但是请试想一下这个成功案例背后有哪些潜在的问题。如果那些被软件收集起来的数据被永久保留,个人被要求参加补习课的事实被永远记录在案可供查找,这将会怎样?再试想一下,如果这个计算机系统是通过把那些不达标的学生挡在大学门外而不是通过辅助学生学习来提高学校学生的毕业率和均分,这又会怎样?
刚才提到的类似问题极有可能发生。一些教育改革者提倡每一个学生应该配备一个记录他们所有电子成绩单的“数码包”。自适应算法是一项令人毛骨悚然的艺术。可汗学院的分析院长Jace Kohlmeier提出了一个难题--- 如何用区域学习曲线来描绘学生学习的掌握情况。比如可以对学习能力较差的人施压让他们早早退学,这样学习曲线的末端会更好看一些。但他说一般情况下没人会这么做。
大数据收集、储存、处理数据的能力比以往任何时候都要强大,它将会颠覆传统的教育行业。大数据将在教、学环节增加前所未有的数量化体验,不仅学生受益,老师也是。然而,这么做也蕴藏了风险。
长久以来,家长和教育专家都在忧虑如何保护未成年人隐私。同时人们还担心,对于那些在学业上被“跟踪”过的学生,他们的人生道路是否会因此而变窄。大数据不仅放大了以上这两个问题,而且改变了问题的本质。所谓量变引起质变。
过去的表现
很多家长看到自己子女在校期间的所有数据一点一点被存储累积起来,都感到无比恐慌。比如,非营利组织inBloom(收到颇有声誉的Gates Foundation and Carnegie一亿美金的资助)曾与9个州就建立学生数据库达成协议。但是2013年因为家长大规模抗议,这项举措在其中6个州都停摆了。
人们出自本能地反对这件事并不仅仅只是一般意义上的对隐私和数据保护的忧虑,而是一种更特殊的忧虑。一般来说,传统的数据保护关注的焦点在于权力的不均等---有些人能够拿到别人的数据,而其他人不能。这里,我们更多地是担心不可磨灭的过去对我们造成的影响。学生的记录不再是封存在纸盒里,褪色直到被扔掉,而是被永久地存储保留,随时随地都可能被调出来查阅。
想象一下,一个人在学生时代的活动都被记录下来,当他/她在25年后申请工作时,那些记录都能被潜在雇主查到。但是目前,个人过去的轨迹是很难查到的,除了那些名人。在未来,大众将会享受名人的“待遇”,不仅仅是标准化入学考试成绩能被查到,做学生时方方面面的数据都会被查到,从生病的天数到与辅导老师交流的次数,甚至一本《赫克历险记》读了几页,划了几段都能被查到。
因此,教育数据引发的最大问题不是信息泄露,而是把我们禁锢在过去,否认我们成长、蜕变的能力。目前还没有权宜之计。我们无法告诉别人应该如何去评价他人,应该考虑哪些因素。过去我们常常认为,事情的发展很难完全受理性摆布。但另一方面,如果我们不收集数据不储存数据,我们就错过了大数据为教育带来的潜在福利。
没有变数的未来
第二个问题同样严峻。
教育大数据的收集会被用于预测我们的未来--- 我们该以怎样的节奏学习,先学什么后学什么,如果我们在晚上8点到9点间复习了功课,我们就有90%的可能性拿到B或者更好的成绩,如果我们在8点之前复习,就只有50%的可能性。这是概率预测,但问题是概率预测限制了我们学习的自由,最终可能会限制我们的人生道路。
大数据给人最大的愿景是它使个性化学习成为可能,改善教材和教学方法,最终提高学习成绩。在未来的大数据时代,预测将会比现在精准得多,招生官、雇主等决策者将会面临更大压力,他们会愈加依赖预测结果来做决策。(因而数字的准确性会对决策质量产生直接影响)以前我们可以不同意强加在自己身上的偏见说自己是特例 ,现在不能了。
举个例子,一些大学正在试用一套叫“电子建议专家”的大数据系统,这个系统能够辅助学生尽早毕业。亚利桑那大学在2007年开始使用这套系统后,自那以后84%的学生能够成功进入下一阶段的学习,以前这个比例只有77%。再举个例子,田纳西州奥斯汀佩伊州立大学的学生们正在使用一款叫“成绩指南”的软件,当软件告诉他们这门课他们至少能得B,他们就有90%的可能性拿B,否则只有60%的概率。
这些形形色色的系统能够对大学毕业率产生很大的影响。在美国大约只有一半的学生能够在六年内顺利完成大学学业。但是这些系统也会产生副作用。如果系统告诉我们,这门课我们很有可能学不好,比如生物信息学,然后系统转而向我们推荐另一门课,比如护理课,结果会怎样?我们可能会认同系统推荐的就是对我们最有利也最容易走的路。但这可能恰恰就是问题所在。或许我们应该被人鼓励无视所谓的概率预测,坚持走自己的路(逆难而上获得成功),而不是对一个退而求其次的结果沾沾自喜(而不是选择一条本就更容易的路)。
有人希望,大数据能够让学生不再被数据追踪。学生能够按照自己的节奏学习,同时算法会最优化教材使用顺序从而帮助学生更好学习。渐渐的,人们便不再提起追踪学生成绩的事。不过这只是一个美好的愿景而已。
现实往往与预想相反。个性化教育可能会把人更残忍地限制在某条路上,让人们无法打破常规去走自己想走或能走的路。目前系统里有10亿条不同的学习情况记条和学习轨迹安排,每一条都只对应一个学生。这样做有利有弊,利的方面在于教育是为每个人量身定做的,弊的方面在于学生仿佛困在了状如峡谷的凹槽中,跳不出来,只能顺着走下去。这样一来,我们的人生依然受限于“已知道路”,虽然这是一条为我们量身定做的道路。
直面焦虑
人们都在害怕大数据运用到教育上会带来的危机,那么,我们该如何帮助人们摆脱这些感性或理性的顾虑呢?
现在很多国家的隐私法都禁止对个人信息大量收集和长期储存。一般来说,这些法律会要求数据使用者告知大家他们收集了哪些人的数据,可能会怎么用那些数据,同时还需获得允许他们那样使用数据的允许。但是,大数据最大的魅力在于其不确定性---即数据被收集的时候,人们还没有想好该怎么用它,在后续的使用过程中逐步发现了它的价值。所以,几乎不可能在数据被收集的时候就能准确告知对方数据会被怎么用,获得相关的同意更是无从谈起。
欧美政府已经在讨论如何修订隐私法确保大数据不被滥用。如果数据使用者愿意承担更多责任,如法律责任,他们就有权利二次使用数据,挖掘新价值。这样一来,他们就需要认定哪些是可接受的使用途径,哪些不能被接受。
在教育界,使用个人数据来改进教材和学习工具是可以接受的,但使用同样的数据来预测学生未来能力就应在严格管制下进行(比如采用透明公开、行政监管的方式来限制)。既要规定数据使用者必须得到学生本人明确同意才能实施数据使用,还要加强执法力度,让公司无法承担违规的严重后果。
总而言之,数据介入教育领域到底要到一个怎样的程度,如何抵抗可以预见的反乌托邦带来的危害,将是一个鱼和熊掌的问题。这需要我们在渴望优化学习,和拒绝让过去主宰未来之间找到一种微妙的权衡之计。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05数据治理是数字化时代企业实现数据价值最大化的核心前提,而CDA(Certified Data Analyst)数据分析师作为数据全生命周期的核心 ...
2026-03-05在实验检测、质量控制、科研验证等场景中,“方法验证”是确保检测/分析结果可靠、可复用的核心环节——无论是新开发的检测方法 ...
2026-03-04在数据分析、科研实验、办公统计等场景中,我们常常需要对比两组数据的整体差异——比如两种营销策略的销售额差异、两种实验方案 ...
2026-03-04在数字化转型进入深水区的今天,企业对数据的依赖程度日益加深,而数据治理体系则是企业实现数据规范化、高质量化、价值化的核心 ...
2026-03-04在深度学习,尤其是卷积神经网络(CNN)的实操中,转置卷积(Transposed Convolution)是一个高频应用的操作——它核心用于实现 ...
2026-03-03在日常办公、数据分析、金融理财、科研统计等场景中,我们经常需要计算“平均值”来概括一组数据的整体水平——比如计算月度平均 ...
2026-03-03在数字化转型的浪潮中,数据已成为企业最核心的战略资产,而数据治理则是激活这份资产价值的前提——没有规范、高质量的数据治理 ...
2026-03-03在Excel办公中,数据透视表是汇总、分析繁杂数据的核心工具,我们常常通过它快速得到销售额汇总、人员统计、业绩分析等关键结果 ...
2026-03-02在日常办公和数据分析中,我们常常需要探究两个或多个数据之间的关联关系——比如销售额与广告投入是否正相关、员工出勤率与绩效 ...
2026-03-02在数字化运营中,时间序列数据是CDA(Certified Data Analyst)数据分析师最常接触的数据类型之一——每日的营收、每小时的用户 ...
2026-03-02在日常办公中,数据透视表是Excel、WPS等表格工具中最常用的数据分析利器——它能快速汇总繁杂数据、挖掘数据关联、生成直观报表 ...
2026-02-28有限元法(Finite Element Method, FEM)作为工程数值模拟的核心工具,已广泛应用于机械制造、航空航天、土木工程、生物医学等多 ...
2026-02-28在数字化时代,“以用户为中心”已成为企业运营的核心逻辑,而用户画像则是企业读懂用户、精准服务用户的关键载体。CDA(Certifi ...
2026-02-28在Python面向对象编程(OOP)中,类方法是构建模块化、可复用代码的核心载体,也是实现封装、继承、多态特性的关键工具。无论是 ...
2026-02-27在MySQL数据库优化中,索引是提升查询效率的核心手段—— 面对千万级、亿级数据量,合理创建索引能将查询时间从秒级压缩到毫秒级 ...
2026-02-27