京公网安备 11010802034615号
经营许可证编号:京B2-20210330
历史上的文学大数据分析_数据分析师
虽然大数据概念近些年才热起来,但早在19世纪,人们就见到了文学作品的定量分析的身影。
2014年7/8月号的《美国科学家》杂志发表了Brian Hayes的文章《文学与大数据一相逢》。他说,虽然大数据概念近些年才热起来,但早在19世纪,人们就见到了文学作品的定量分析的身影。
在计算机尚未问世时,英国统计学家G. Udny Yule和C.B. Williams就尝试过如何利用句长的差异来表征不同的文学风格,识别不同的作者。1964年,出现了史上第一个主题为“文学数据处理”的学术会议,参会者有150人,讨论题目包括“计算文体学”,还有在计算机辅助下就弥尔顿对雪莱之影响作出估计。更早的时候,Frederick Mosteller和David L. Wallace就曾对《联邦党人文集》中常见词的词频(例如also、an、by、of)进行统计分析,试图确定哪些文章是汉密尔顿写的,哪些文章是麦迪逊写的。
Brian Hayes特别想介绍的是19世纪美国的两位“数字人文学”先驱人物。一位叫Thomas Corwin Mendenhall(1841~1924),是科学家,曾任印第安纳州罗斯理工学院的院长、美国国家科学院院士和美国科学促进会会长。1887年,他在《科学》杂志发表一篇文章《文章的特征曲线》。他认为,正如光谱线的模式可以表明存在着某化学元素一样,通过“词谱”或“特征曲线”也能表征一篇文章。他以狄更斯的《雾都孤儿》和萨克雷的《名利场》为研究对象,看看两人的“词谱”差异大不大,结果发现,差异不足以区分开两个作者。
另一位先驱人物叫Lucius Adelno Sherman(1847~1933),他的博士论文题目是《古英语诗歌“猫头鹰与夜莺”的语法分析》,从中可以看出他喜欢定量研究。例如,他统计了这首诗歌中用了多少介词、连词和否定式表达。1893年,Sherman发表了一部著作《文学分析学:关于如何对英语散文与诗歌进行客观研究的手册》。《科学》杂志发表过一篇书评,称此书是“划时代”的作品。在书里,他想做的不仅仅是通过定量分析来区分作者,如Mendenhall所尝试过的,而且涉及更多内容。比如,他在讲授英语文学演变的过程中,注意到了一桩事实:从14世纪的诗人乔叟到17世纪的莎士比亚,再到19世纪的爱默生,文学家们写出的句子越来越简单,摆脱了过去那种“凝重”和繁复。他从每个作家的作品中抽取500个句子,统计其平均句长。16世纪初的Robert Fabyan平均句长为63个单词,19世纪的爱默生平均句长只有20.5个单词。
他在搜集基础数据方面是下了苦功夫的,比如某个暑假里,他花了三周的时间,从麦考莱的五卷本《英国史》中整理出了4万多个句子中的单词。当然,有学生给他帮忙,因为他是教授嘛。
按现在的标准来看,这些数字人文学的先驱所做的工作都很简单,也不是那么成功,但是其开拓之功是不容否认的。有先进信息技术的助力,相信21世纪的数字人文学研究一定能别开生面。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04