
大数据也有小应用_数据分析师培训
随着信息技术的快速发展,近来, 大数据及以之为基础的研究范式——大数据范式 (big data paradigm)——成为了越来越流行的概念。 虽说大数据的 “大” 乃是相对概念, 即相对于数据存储和处理技术而言的 “大”, 从而并无绝对意义, 但这几年很多人对相对于当前技术而言的 “大” 似乎产生了特殊感觉, 认为它已超越了某种临界值, 将引发诸多领域的重大、 甚至革命性的变革。 每当有大的新东西出现在地平线上时, 这种稍显迫不及待的迎接革命的感觉乃是常见的衍生现象, 其可靠性往往大可商榷。 不过, 大数据有着各种各样的具体应用倒是不争的事实。
在本文中, 我们就来介绍一项小应用。
严格讲, 本文的标题有些 “拉大旗作虎皮”, 因为这项小应用所涉及的数据相对于当前技术而言远远算不上 “大” (因此我们对 “大数据” 一词加了引号), 不过它所采用的以数据关联为核心, 将因果置一旁的做法乃是大数据范式中的典型方法, 而且这项小应用规模虽小, 毕竟也需动用计算机, 从而在手段上跟大数据范式也算搭界。
这项小应用就是确定某些历史文件的年代。
确定历史文件的年代一向是史学家们关心且必须要做的事情, 因为很多资料只有确定了年代才能发挥应有的作用。 但由于不难想象的种种原因, 很多历史文件的年代是未知的。 为确定这类文件的年代, 一种典型的做法是求助于碳-14 年代测定法。 但是, 由此测定的年代往往有几十年的误差, 对远古文件也许不算什么, 对近代文件却稍嫌粗糙。 此外, 这种方法有时还会对文件产生一定程度的破坏。 除碳-14 年代测定法外, 利用纸张、 油墨等技术的演进历史, 从文件所用的纸张或油墨的类型上确定年代也是常用方法, 但可惜误差往往也在几十年以上。 这些方法的不尽如人意之处, 使得其它方法有了用武之地。 最近, 加拿大多伦多大学的研究者蒂拉亨等人就示范了一种新方法。
蒂拉亨等人的研究对象是英国中世纪 时期的大量契据。 那些契据大都为拉丁文, 记录的是各类财产及土地的交易, 对研究中世纪时期的英国历史有不小的参考价值。 不过, 在现存百万份以上的契据中, 大部分是既没有标注年代, 也无法从所述内容中推断出年代的。 另一方面, 中世纪距今不过几百年, 前面提到的那些方法的几十年误差相对来说就显得很大, 而且上百万份的巨大数量也使那些方法变得不太现实。 为此, 蒂拉亨等人采用了一种新方法。 他们以几千份年代已知的契据为基准, 对年代未知的契据与年代已知的契据中词汇及词组的分布规律进行统计对比, 由此分析出前者与不同年代的后者之间的相似程度, 并以此确定前者最有可能的年代 (即相似程度最大的年代); 或者, 也可以先由后者估算出不同词汇及词组在不同年代的出现概率, 再以它们在前者中的出现数量估算出前者在各个年代的出现概率, 进而确定最有可能的年代 (即出现概率最大的年代)。
这类方法的准确度如何呢? 蒂拉亨等人用一个很聪明的方法进行了测算, 那就是将之应用到年代已知的文件上, 将估算结果与实际年代进行比较。 他们发现, 这种估算的平均误差可缩小至 10 年以下, 从而比前面提到的那些方法更精确。
当然, 这种方法中也有许多不确定性, 比如契据之间的相似程度, 契据在不同年代的出现概率等都并无唯一定义, 统计对比所用的算法也不唯一。 这些不确定性在大数据范式中是很常见的, 它们有弊也有利。 “弊” 者在于理据不像碳-14 年代测定法之类的方法那样明晰; “利” 者则在于提供了改进方法所需的额外自由度。 事实上, 蒂拉亨等人的研究本身就是这种额外自由度的体现, 因为他们并不是这类方法的创始人, 而只是利用不确定性所提供的额外自由度, 引进了新的定义及算法。
蒂拉亨等人所示范的方法也适用于其它时期或其它类型的文件, 并且除了帮助确定年代外, 还有助于确定与文件有关的其它属性。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Pandas 选取特定值所在行:6 类核心方法与实战指南 在使用 pandas 处理结构化数据时,“选取特定值所在的行” 是最高频的操作之 ...
2025-09-30球面卷积神经网络(SCNN) 为解决这一痛点,球面卷积神经网络(Spherical Convolutional Neural Network, SCNN) 应运而生。它通 ...
2025-09-30在企业日常运营中,“未来会怎样” 是决策者最关心的问题 —— 电商平台想知道 “下月销量能否达标”,金融机构想预判 “下周股 ...
2025-09-30Excel 能做聚类分析吗?基础方法、进阶技巧与场景边界 在数据分析领域,聚类分析是 “无监督学习” 的核心技术 —— 无需预设分 ...
2025-09-29XGBoost 决策树:原理、优化与工业级实战指南 在机器学习领域,决策树因 “可解释性强、处理非线性关系能力突出” 成为基础模型 ...
2025-09-29在标签体系的落地链路中,“设计标签逻辑” 只是第一步,真正让标签从 “纸上定义” 变为 “业务可用资产” 的关键,在于标签加 ...
2025-09-29在使用 Excel 数据透视表进行多维度数据汇总时,折叠功能是梳理数据层级的核心工具 —— 通过点击 “+/-” 符号可展开明细数据或 ...
2025-09-28在使用 Pandas 处理 CSV、TSV 等文本文件时,“引号” 是最容易引发格式混乱的 “隐形杀手”—— 比如字段中包含逗号(如 “北京 ...
2025-09-28在 CDA(Certified Data Analyst)数据分析师的技能工具箱中,数据查询语言(尤其是 SQL)是最基础、也最核心的 “武器”。无论 ...
2025-09-28Cox 模型时间依赖性检验:原理、方法与实战应用 在生存分析领域,Cox 比例风险模型(Cox Proportional Hazards Model)是分析 “ ...
2025-09-26检测因子类型的影响程度大小:评估标准、实战案例与管控策略 在检测分析领域(如环境监测、食品质量检测、工业产品合规性测试) ...
2025-09-26CDA 数据分析师:以数据库为基石,筑牢数据驱动的 “源头防线” 在数据驱动业务的链条中,“数据从哪里来” 是 CDA(Certified D ...
2025-09-26线性相关点分布的四种基本类型:特征、识别与实战应用 在数据分析与统计学中,“线性相关” 是描述两个数值变量间关联趋势的核心 ...
2025-09-25深度神经网络神经元个数确定指南:从原理到实战的科学路径 在深度神经网络(DNN)的设计中,“神经元个数” 是决定模型性能的关 ...
2025-09-25在企业数字化进程中,不少团队陷入 “指标困境”:仪表盘上堆砌着上百个指标,DAU、转化率、营收等数据实时跳动,却无法回答 “ ...
2025-09-25MySQL 服务器内存碎片:成因、检测与内存持续增长的解决策略 在 MySQL 运维中,“内存持续增长” 是常见且隐蔽的性能隐患 —— ...
2025-09-24人工智能重塑工程质量检测:核心应用、技术路径与实践案例 工程质量检测是保障建筑、市政、交通、水利等基础设施安全的 “最后一 ...
2025-09-24CDA 数据分析师:驾驭通用与场景指标,解锁数据驱动的精准路径 在数据驱动业务的实践中,指标是连接数据与决策的核心载体。但并 ...
2025-09-24在数据驱动的业务迭代中,AB 实验系统(负责验证业务优化效果)与业务系统(负责承载用户交互与核心流程)并非独立存在 —— 前 ...
2025-09-23CDA 业务数据分析:6 步闭环,让数据驱动业务落地 在企业数字化转型中,CDA(Certified Data Analyst)数据分析师的核心价值,并 ...
2025-09-23