
大数据时代的基础科学新变
今天,世界已经进入大数据时代,如何适应这样的时代、引领这样的时代,是每一个科学领域必须要面对的问题。从某种程度上说,基础科学的进展依赖于数据的获取与分析。今天,数据量爆炸式增长、数据处理工具不断改进,给基础科学带来了新机遇和新挑战。
面对大数据时代空前的数据爆炸、更复杂的经济社会需求,基础研究被赋予新的特征和功能,在促进原始性重大创新、孕育源头技术和颠覆性技术、解决社会实际问题、应对长期挑战等方面被寄予厚望
基础科学是人类对自然界基本规律认识的总和。从事基础科学问题研究的活动统称为基础科学研究,简称基础研究。基础研究自提出以来,一直都是一个比较宽泛的概念,内涵性质和关键推动因素不断丰富。也正是由于其界限模糊,才被各国政府和学者通过不同的政策含义、资助框架、制度安排和研究成果不断地重新界定。
科技界、政府和社会在不同发展阶段对基础研究有不同的认知。
1945年,美国科学家布什在《科学:无尽的前沿》中首次提出了基础研究和应用研究分类,成为“基础研究-应用研究-技术开发-商业应用”线性模式的思想源头,影响了很长一段时期主要国家的科学技术政策。
20世纪60年代,经合组织系统地开展了R&D(研究与开发)统计调查:将基础研究分为纯基础研究与定向基础研究,把定向基础研究和战略应用研究统称为战略研究。这种分类既反映了知识生产方式的融合趋势,也反映出政府研发投入对国家战略目标的关注。在接下来的几十年中,基础科学的内涵和定义也在不断发生变化。
今天,基础研究已经发展为“生态模式”,资源基础结构不断演变,驱动因素不断丰富,必然带来管理政策和评价方式的转变。
从历史发展进程看,基础研究的内涵界定都是为了适应特定阶段社会发展和政策制定的需要。传统纯基础研究活动的特征界定是:“不以任何特定的实际应用为目的,保持相对独立并由科学家按照自身意愿去开展工作。”但随着基础研究投入日益多元化以及组织模式持续变革,主要国家在鼓励科学家自由探索的同时,更加强调战略需求导向和知识的转化应用。
基础科学事关国家当前和长远战略利益,本身就是战略需求。政府支持基础研究的政策导向已经由纠正市场失灵演化为提供公共产品服务、保证经济长期繁荣发展、营造创新生态和赢得创新竞争等诸多方面。
2 数据科学改变基础科学研究范式
数据科学正以势不可当的力量席卷而来,科学界、政府和社会公众都需要重新认识大数据时代基础研究的新特征及其影响,特别是对经济社会的影响机制和战略价值
1998年度图灵奖得主吉姆·格雷于2007年初最早提出“科学方法的革命”,将科学研究分为四类范式(Paradigm,指科技界普遍遵循的科学规范和普遍运用的研究套路),依次为实验归纳,模型推演,仿真模拟和数据密集型科学发现。数据密集型科学发现以大数据为主要特征和战略资源,即“大数据科学”和“科学大数据”。大数据可以帮助科学家们打开探索未知领域的大门,科学家们将以“分析全样本、接收非精确、发现相关性”的新思维探索科学研究。
虽然大数据时代带来了思维方式等认知层面的转向,但基础科学主体的发展依然遵循物理、化学、信息、生命科学等基础学科自身的规律,并且具有交叉、融合与渗透的逻辑性。不过改变已经愈加清晰:与传统数据的科学研究相比,无论是大型望远镜列阵收集回来的各种宇宙星系图像,还是从DNA测序仪形成的各种基因组,或是社交网站的点击次数,都可以成为数据收集目标。以前需要10年才能完成的人类DNA测序,现在一天左右就能完成。基于统计机器学习、神经网络以及深度学习,人工智能的思考能力在提升,人类对未来的预测上变得前所未有地精确。
计算科学和大数据方法在提高科学发现概率、拓宽科学研究视野、促进交叉聚合的同时,也在催生新学科创新增长,使新技术研发应用变得更加快捷、简洁、高效。但是,“大数据科学”和“科学大数据”会对科学哪一领域哪一阶段的发展产生突破性影响和行业带动?大数据对基础研究的影响到底是阶段性的还是长久性的、局部的还是全面的?这些问题还并不清楚,需要引起科技界、政府和包括公众在内的更多相关者予以关注。
3 大数据时代要求基础科学组织方式与时俱进
大数据的意义并不只是海量、多样的数据,而是如何采取更合适的支持方式和支持力度将其规模大、种类多、跨界融合的特征运用到基础研究和知识转化应用之中
无论从组织方式、资助方式还是从科研行为上,大数据使传统的基础研究活动和知识生产模式呈现出了新的交叉、融合与渗透特征,不仅促进了不同领域、不同学科科学共同体的深度整合和精细分化,还促进了基础研究的推动因素和利益相关者的多样化。这些特征无疑将对基础科学的发展,尤其是给基础科学的管理及决策带来巨大影响。
在“大数据科学”和“科学大数据”的支撑下,数学、物理、生物等不同领域、学科的思维、模式、方法、工具、概念和数据交叉融合在一起,会激变产生出新的原创性发现、理论、知识、思路和方法。基础研究不再是某一学科、某一领域中的某个科研团队独立进行,科学家们可以共享不同学科、不同领域中的其他科研团队的成果数据,使用功能更加强大的研发工具,发掘更多原始性发现和新知识。事实上,这一共享不只是数据的交叉、融合,更是科学共同体内部、外部的交叉与融合,将吸引更多不同学科和领域的研究人员加入到基础研究中,使得基础研究的功能得以进一步拓展和融合。
随着大数据时代的到来,人类认知的“去等级化”转向,在本质上带来了科技创新领域的平等化趋势,虽然这一转向并不能彻底消除科技领域“马太效应”的存在,但阶层的分化会增加,层级差异会逐渐缩小。这一发展趋势必然对基础科学的资助方式、管理模式以及评价体系产生重要的影响。从无到有的原始性创新,更需要“尊重科学研究灵感瞬间性、方式随意性、路径不确定性的特点,允许科学家自由畅想、大胆假设、认真求证”。
总之,大数据时代为我国基础科学跨越式发展带来了变革性机遇和复杂性挑战。研究范式的深度改变要求我们加快建立更加包容和宽容、支持非共识创新项目的基础研究制度,鼓励变革性学术思想,促进创新治理体系从跟踪型向引领型转变。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10在科研攻关、工业优化、产品开发中,正交试验(Orthogonal Experiment)因 “用少量试验覆盖多因素多水平组合” 的高效性,成为 ...
2025-10-10在企业数据量从 “GB 级” 迈向 “PB 级” 的过程中,“数据混乱” 的痛点逐渐从 “隐性问题” 变为 “显性瓶颈”:各部门数据口 ...
2025-10-10在深度学习中,“模型如何从错误中学习” 是最关键的问题 —— 而损失函数与反向传播正是回答这一问题的核心技术:损失函数负责 ...
2025-10-09本文将从 “检验本质” 切入,拆解两种方法的核心适用条件、场景边界与实战选择逻辑,结合医学、工业、教育领域的案例,让你明确 ...
2025-10-09在 CDA 数据分析师的日常工作中,常会遇到这样的困惑:某电商平台 11 月 GMV 同比增长 20%,但究竟是 “长期趋势自然增长”,还 ...
2025-10-09Pandas 选取特定值所在行:6 类核心方法与实战指南 在使用 pandas 处理结构化数据时,“选取特定值所在的行” 是最高频的操作之 ...
2025-09-30球面卷积神经网络(SCNN) 为解决这一痛点,球面卷积神经网络(Spherical Convolutional Neural Network, SCNN) 应运而生。它通 ...
2025-09-30在企业日常运营中,“未来会怎样” 是决策者最关心的问题 —— 电商平台想知道 “下月销量能否达标”,金融机构想预判 “下周股 ...
2025-09-30Excel 能做聚类分析吗?基础方法、进阶技巧与场景边界 在数据分析领域,聚类分析是 “无监督学习” 的核心技术 —— 无需预设分 ...
2025-09-29XGBoost 决策树:原理、优化与工业级实战指南 在机器学习领域,决策树因 “可解释性强、处理非线性关系能力突出” 成为基础模型 ...
2025-09-29在标签体系的落地链路中,“设计标签逻辑” 只是第一步,真正让标签从 “纸上定义” 变为 “业务可用资产” 的关键,在于标签加 ...
2025-09-29在使用 Excel 数据透视表进行多维度数据汇总时,折叠功能是梳理数据层级的核心工具 —— 通过点击 “+/-” 符号可展开明细数据或 ...
2025-09-28在使用 Pandas 处理 CSV、TSV 等文本文件时,“引号” 是最容易引发格式混乱的 “隐形杀手”—— 比如字段中包含逗号(如 “北京 ...
2025-09-28在 CDA(Certified Data Analyst)数据分析师的技能工具箱中,数据查询语言(尤其是 SQL)是最基础、也最核心的 “武器”。无论 ...
2025-09-28