京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据也有小应用_数据分析师培训
随着信息技术的快速发展,近来, 大数据及以之为基础的研究范式——大数据范式 (big data paradigm)——成为了越来越流行的概念。 虽说大数据的 “大” 乃是相对概念, 即相对于数据存储和处理技术而言的 “大”, 从而并无绝对意义, 但这几年很多人对相对于当前技术而言的 “大” 似乎产生了特殊感觉, 认为它已超越了某种临界值, 将引发诸多领域的重大、 甚至革命性的变革。 每当有大的新东西出现在地平线上时, 这种稍显迫不及待的迎接革命的感觉乃是常见的衍生现象, 其可靠性往往大可商榷。 不过, 大数据有着各种各样的具体应用倒是不争的事实。
在本文中, 我们就来介绍一项小应用。
严格讲, 本文的标题有些 “拉大旗作虎皮”, 因为这项小应用所涉及的数据相对于当前技术而言远远算不上 “大” (因此我们对 “大数据” 一词加了引号), 不过它所采用的以数据关联为核心, 将因果置一旁的做法乃是大数据范式中的典型方法, 而且这项小应用规模虽小, 毕竟也需动用计算机, 从而在手段上跟大数据范式也算搭界。
这项小应用就是确定某些历史文件的年代。
确定历史文件的年代一向是史学家们关心且必须要做的事情, 因为很多资料只有确定了年代才能发挥应有的作用。 但由于不难想象的种种原因, 很多历史文件的年代是未知的。 为确定这类文件的年代, 一种典型的做法是求助于碳-14 年代测定法。 但是, 由此测定的年代往往有几十年的误差, 对远古文件也许不算什么, 对近代文件却稍嫌粗糙。 此外, 这种方法有时还会对文件产生一定程度的破坏。 除碳-14 年代测定法外, 利用纸张、 油墨等技术的演进历史, 从文件所用的纸张或油墨的类型上确定年代也是常用方法, 但可惜误差往往也在几十年以上。 这些方法的不尽如人意之处, 使得其它方法有了用武之地。 最近, 加拿大多伦多大学的研究者蒂拉亨等人就示范了一种新方法。
蒂拉亨等人的研究对象是英国中世纪 时期的大量契据。 那些契据大都为拉丁文, 记录的是各类财产及土地的交易, 对研究中世纪时期的英国历史有不小的参考价值。 不过, 在现存百万份以上的契据中, 大部分是既没有标注年代, 也无法从所述内容中推断出年代的。 另一方面, 中世纪距今不过几百年, 前面提到的那些方法的几十年误差相对来说就显得很大, 而且上百万份的巨大数量也使那些方法变得不太现实。 为此, 蒂拉亨等人采用了一种新方法。 他们以几千份年代已知的契据为基准, 对年代未知的契据与年代已知的契据中词汇及词组的分布规律进行统计对比, 由此分析出前者与不同年代的后者之间的相似程度, 并以此确定前者最有可能的年代 (即相似程度最大的年代); 或者, 也可以先由后者估算出不同词汇及词组在不同年代的出现概率, 再以它们在前者中的出现数量估算出前者在各个年代的出现概率, 进而确定最有可能的年代 (即出现概率最大的年代)。
这类方法的准确度如何呢? 蒂拉亨等人用一个很聪明的方法进行了测算, 那就是将之应用到年代已知的文件上, 将估算结果与实际年代进行比较。 他们发现, 这种估算的平均误差可缩小至 10 年以下, 从而比前面提到的那些方法更精确。
当然, 这种方法中也有许多不确定性, 比如契据之间的相似程度, 契据在不同年代的出现概率等都并无唯一定义, 统计对比所用的算法也不唯一。 这些不确定性在大数据范式中是很常见的, 它们有弊也有利。 “弊” 者在于理据不像碳-14 年代测定法之类的方法那样明晰; “利” 者则在于提供了改进方法所需的额外自由度。 事实上, 蒂拉亨等人的研究本身就是这种额外自由度的体现, 因为他们并不是这类方法的创始人, 而只是利用不确定性所提供的额外自由度, 引进了新的定义及算法。
蒂拉亨等人所示范的方法也适用于其它时期或其它类型的文件, 并且除了帮助确定年代外, 还有助于确定与文件有关的其它属性。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Python开发中,HTTP请求是与外部服务交互的核心场景——调用第三方API、对接微服务、爬取数据等都离不开它。虽然requests库已 ...
2025-12-12在数据驱动决策中,“数据波动大不大”是高频问题——零售店长关心日销售额是否稳定,工厂管理者关注产品尺寸偏差是否可控,基金 ...
2025-12-12在CDA(Certified Data Analyst)数据分析师的能力矩阵中,数据查询语言(SQL)是贯穿工作全流程的“核心工具”。无论是从数据库 ...
2025-12-12很多小伙伴都在问CDA考试的问题,以下是结合 2025 年最新政策与行业动态更新的 CDA 数据分析师认证考试 Q&A,覆盖考试内容、报考 ...
2025-12-11在Excel数据可视化中,柱形图因直观展示数据差异的优势被广泛使用,而背景色设置绝非简单的“换颜色”——合理的背景色能突出核 ...
2025-12-11在科研实验、商业分析或医学研究中,我们常需要判断“两组数据的差异是真实存在,还是偶然波动”——比如“新降压药的效果是否优 ...
2025-12-11在CDA(Certified Data Analyst)数据分析师的工作体系中,数据库就像“数据仓库的核心骨架”——所有业务数据的存储、组织与提 ...
2025-12-11在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01