京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据时代历史研究新方法
16世纪的“科学革命”后,自然和人文社会科学的学术传统出现分流:自然科学追求发现和认识“未知”事物,形成“求是型学术”(Scholarship of Discovery);人文社会科学注重解释和理解“已知”现象,形成“解释型学术”(Scholarship of Interpretation)。历史学的主要任务也逐步从“重构”历史发展到“建构”和“解释”历史。如今,随着信息化程度的加深和大数据时代的到来,将“求是型学术”引入人文社会科学,在两种研究方法或认识论间架起桥梁,已成为诸多学科因应时代发展、寻求学科对话和提升影响的重要手段。对处于边缘化危机中的历史学来说,这或许是一次难得的时代发展机遇。
研究方法脱节:历史学边缘化趋势加剧
就目前全球学术界的情况而言,历史学的境遇可谓不佳,其学科地位有不断边缘化趋势,对青年人才的吸引也愈发无力。举例来说,最近50年来,美国以人文学科为主业的学生比例从14%下降到7%,即便哈佛这样以基础人文学研究久负盛名的一流大学,人文学科为主业的学生比例也从近40%大幅下降到20%。而中国某些大学的历史院系中,一些学生被“调剂”而来,专业思想不稳固,对史学专业缺乏兴趣,出现“混学位”等现象。有学者毫不客气地指出,这反映了历史等人文学科的窘境:在全球经济竞争时代无所贡献,对学生就业缺乏帮助,在技术革命的浪潮前显得老旧不堪。
一些学者认为,这种现象的出现是市场经济条件下历史学自身实用性不强,难以“致用”所致,但笔者以为,这更可能是历史学科的研究方法脱节所致——无法“致用”于其他学科以发挥其基础学科的功效,形成了学科体系中的“孤岛”。近二三十年来,越来越多的社会科学注重依托大数据平台,开展可比较的量化研究。这些大数据平台使得不同学科对同一材料的不同解读和互补研究、探索成为可能,大大促进了这些学科间的交流和学者间的合作,相关学科的活力和影响也由此得以彰显。但历史学界,尤其是中国历史学界对此方法的认识还相当有限,实践更是匮乏。在这种情况下,史学家掌握的丰富、珍贵的史料和深刻、细碎的历史知识在一定程度上反而阻碍了其他学者参与研究和学术对话,成为导致今日历史学边缘化趋势持续的重要原因。
新研究范式为历史学提供机遇
吊诡的是,若抛开学科地位不论,历史学无论是作为资料宝库还是认识视角,其本身的价值和功能并未边缘化,甚至愈发重要。近年来,随着大规模历史量化数据库在收集、整理和构建方面的重大进展,越来越多的非历史学者借助量化历史数据平台进行社会和自然科学研究,取得重要成就,显示了历史学发展“求是型学术”的可能和前景。这种学术研究多基于系统化、标准化的历史人口或事件档案构建起的量化数据库,重视对长时段、大规模记录中各种人口和社会行为的统计描述及彼此间相互关联的分析,从而揭示隐藏在“大人口”(Big Population)中的历史过程与规律。它不仅容易发现很多可以验证或挑战现有理论的事实,还长于开展跨时段、跨地域的比较研究,为理解社会历史和人类行为提供了全球化的认识基础,进而构建起一种新的自下而上、由繁入简的研究方法和史观。
这一研究方法的兴起也是互联网时代史学发展的必然。从20世纪80年代开始的可检索文献数据库到90年代学术出版物数据库,再到21世纪初量化历史数据库,历史研究所依靠的各种材料逐渐出现了数据化发展倾向。史料拥有权的“唯一性”对史料获取的障碍大大降低。依靠互联网提供的技术和无限“连接”的可能,史料出现新的“连接”趋势,形成新的资料平台和“试验场”。对各个“试验场”的共同兴趣又可以“连接”或凝聚起一批不分国界和文化背景的研究团队。这种团队化的研究工作与自然科学接近,成为史学发展的新趋向。地方化或地域化的史学研究将渐渐转变成真正的全球史学研究。
量化数据库推动“求是型学术”发展
中国历史研究中不仅同样存在着丰富的大数据,而且许多涉及重要议题的“大数据”史料我们早已系统梳理和深入研究过。中国文献记载历时长、覆盖广,在世界各个文明中少有其匹。像户籍登记、土地分配以及科考履历等材料,都非常适合成为推动新的“求是型学术”的“大数据”。
作为社会科学化历史研究的倡导者,美国学者李中清(James Z. Lee)和康文林(Cameron Campbell) 自20世纪80年代起,历经20多年努力构建起的中国多代人口数据库(CMGPD)就被证明对人口统计学、家庭与婚姻、社会分层、卫生健康等多个研究领域有重要价值,产生了一系列新的认识。2005年起,北京大学和哈佛大学联合推进的“中国历代人物传记资料数据库”(CBDB)目前尽管尚未全部完成,但其无可替代的学术价值已经引起学界关注。最近几年,上海交通大学、山西大学等高校的学者也已开始构建自己的历史数据库。大数据思维下的“互联网+”历史研究新格局在中国已然不是空中楼阁。
依靠量化数据库发扬“求是型学术”的历史研究这一“新事物”,必然还有很多有待解决的技术问题。如应注意区分文献型数据库和真正对“求是型学术”有帮助的量化数据库。所有大型历史数据库的建设与研究都需要一个依托互联网技术支撑的国际化、跨学科研究团队,而如何构建这样的团队和开展管理,对习惯了“单打独斗”的历史学家来说也是一大挑战。此外,我们的科研管理体系也需更新,要给予数据库应有的科研成果地位和正确评价团队成员的工作贡献。2013年教育部社科委历史学部年度工作会议的主题恰是历史资料的整理、研究和数字化建设。显然,中国史学界已经意识到大数据时代历史研究的转变与挑战,而只要看准潮流,认清问题,我们就能抓住机遇,实现历史学的突破和发展。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】大数据、零售商、消费者、供应链、运营、企业、产品、客户、数据模型、大数据平台、数据开发、系统运维、业务逻 ...
2026-06-26在物流配送、供应链履约、终端供货等业务场景中,送货率是衡量企业履约能力、服务质量、供应链稳定性的核心业务指标,直接关联客 ...
2026-06-26 很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度” ...
2026-06-26在数字化管理与数据化运营体系中,指标是连接原始数据与业务决策的核心载体。零散的原始数据只是无意义的数值堆砌,无法直接反映 ...
2026-06-25在Excel数据汇总、财务统计、业务复盘等日常办公场景中,经常需要完成逐行相乘、整体汇总求和的计算需求,最典型的场景就是:单 ...
2026-06-25 很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问 ...
2026-06-25【核心关键词】主数据、资产、供应商、现金流、企业、精细化、集团、数字化、中国、数据质量、数据管理、经营管理、地产行业、 ...
2026-06-24在数据分析、假设检验、AB测试、学术研究等统计场景中,显著水平(α)与P值(P-value)是判断统计结果是否具有统计学意义的两个 ...
2026-06-24小李刚入职了一家互联网公司的运营部门。第一次参加业务复盘会,运营主管问了一个看似简单的问题:“这个月新用户留存率下降了5 ...
2026-06-24在数字化转型全面渗透的产业背景下,数据分析已成为互联网、金融、零售、制造等几乎所有行业的核心岗位能力。很多初学者对数据分 ...
2026-06-23在企业并购、股权定价、投融资评估、资产核算等资本市场核心场景中,市场法是应用最广泛、市场认可度最高的企业价值评估方法。传 ...
2026-06-23 许多数据分析师精通Excel函数和SQL查询,但当面对一张上万行的销售明细表,要快速回答“哪个地区销量最高”“哪款产品增长最 ...
2026-06-23【核心关键词】运营、证书、金融、客户、产品、软件、销售额、量化、科技、数据分析、金融行业、证券类软件、业务流程、金融机 ...
2026-06-22在企业方案选型、产品迭代评审、供应商筛选、运营效果复盘等决策场景中,单一指标的优劣判断往往无法支撑科学决策。一套转化效果 ...
2026-06-22 很多数据分析师掌握了Excel函数、会写SQL查询,但当被问到“数据从哪里来”“数据加工有哪些步骤”“如何使用分析工具连接数 ...
2026-06-22【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18 很多数据分析师精通Excel单元格操作,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质区别”“为什么表结 ...
2026-06-18在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17