京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据时代的基础科学新变
今天,世界已经进入大数据时代,如何适应这样的时代、引领这样的时代,是每一个科学领域必须要面对的问题。从某种程度上说,基础科学的进展依赖于数据的获取与分析。今天,数据量爆炸式增长、数据处理工具不断改进,给基础科学带来了新机遇和新挑战。
面对大数据时代空前的数据爆炸、更复杂的经济社会需求,基础研究被赋予新的特征和功能,在促进原始性重大创新、孕育源头技术和颠覆性技术、解决社会实际问题、应对长期挑战等方面被寄予厚望
基础科学是人类对自然界基本规律认识的总和。从事基础科学问题研究的活动统称为基础科学研究,简称基础研究。基础研究自提出以来,一直都是一个比较宽泛的概念,内涵性质和关键推动因素不断丰富。也正是由于其界限模糊,才被各国政府和学者通过不同的政策含义、资助框架、制度安排和研究成果不断地重新界定。
科技界、政府和社会在不同发展阶段对基础研究有不同的认知。
1945年,美国科学家布什在《科学:无尽的前沿》中首次提出了基础研究和应用研究分类,成为“基础研究-应用研究-技术开发-商业应用”线性模式的思想源头,影响了很长一段时期主要国家的科学技术政策。
20世纪60年代,经合组织系统地开展了R&D(研究与开发)统计调查:将基础研究分为纯基础研究与定向基础研究,把定向基础研究和战略应用研究统称为战略研究。这种分类既反映了知识生产方式的融合趋势,也反映出政府研发投入对国家战略目标的关注。在接下来的几十年中,基础科学的内涵和定义也在不断发生变化。
今天,基础研究已经发展为“生态模式”,资源基础结构不断演变,驱动因素不断丰富,必然带来管理政策和评价方式的转变。
从历史发展进程看,基础研究的内涵界定都是为了适应特定阶段社会发展和政策制定的需要。传统纯基础研究活动的特征界定是:“不以任何特定的实际应用为目的,保持相对独立并由科学家按照自身意愿去开展工作。”但随着基础研究投入日益多元化以及组织模式持续变革,主要国家在鼓励科学家自由探索的同时,更加强调战略需求导向和知识的转化应用。
基础科学事关国家当前和长远战略利益,本身就是战略需求。政府支持基础研究的政策导向已经由纠正市场失灵演化为提供公共产品服务、保证经济长期繁荣发展、营造创新生态和赢得创新竞争等诸多方面。
2 数据科学改变基础科学研究范式
数据科学正以势不可当的力量席卷而来,科学界、政府和社会公众都需要重新认识大数据时代基础研究的新特征及其影响,特别是对经济社会的影响机制和战略价值
1998年度图灵奖得主吉姆·格雷于2007年初最早提出“科学方法的革命”,将科学研究分为四类范式(Paradigm,指科技界普遍遵循的科学规范和普遍运用的研究套路),依次为实验归纳,模型推演,仿真模拟和数据密集型科学发现。数据密集型科学发现以大数据为主要特征和战略资源,即“大数据科学”和“科学大数据”。大数据可以帮助科学家们打开探索未知领域的大门,科学家们将以“分析全样本、接收非精确、发现相关性”的新思维探索科学研究。
虽然大数据时代带来了思维方式等认知层面的转向,但基础科学主体的发展依然遵循物理、化学、信息、生命科学等基础学科自身的规律,并且具有交叉、融合与渗透的逻辑性。不过改变已经愈加清晰:与传统数据的科学研究相比,无论是大型望远镜列阵收集回来的各种宇宙星系图像,还是从DNA测序仪形成的各种基因组,或是社交网站的点击次数,都可以成为数据收集目标。以前需要10年才能完成的人类DNA测序,现在一天左右就能完成。基于统计机器学习、神经网络以及深度学习,人工智能的思考能力在提升,人类对未来的预测上变得前所未有地精确。
计算科学和大数据方法在提高科学发现概率、拓宽科学研究视野、促进交叉聚合的同时,也在催生新学科创新增长,使新技术研发应用变得更加快捷、简洁、高效。但是,“大数据科学”和“科学大数据”会对科学哪一领域哪一阶段的发展产生突破性影响和行业带动?大数据对基础研究的影响到底是阶段性的还是长久性的、局部的还是全面的?这些问题还并不清楚,需要引起科技界、政府和包括公众在内的更多相关者予以关注。
3 大数据时代要求基础科学组织方式与时俱进
大数据的意义并不只是海量、多样的数据,而是如何采取更合适的支持方式和支持力度将其规模大、种类多、跨界融合的特征运用到基础研究和知识转化应用之中
无论从组织方式、资助方式还是从科研行为上,大数据使传统的基础研究活动和知识生产模式呈现出了新的交叉、融合与渗透特征,不仅促进了不同领域、不同学科科学共同体的深度整合和精细分化,还促进了基础研究的推动因素和利益相关者的多样化。这些特征无疑将对基础科学的发展,尤其是给基础科学的管理及决策带来巨大影响。
在“大数据科学”和“科学大数据”的支撑下,数学、物理、生物等不同领域、学科的思维、模式、方法、工具、概念和数据交叉融合在一起,会激变产生出新的原创性发现、理论、知识、思路和方法。基础研究不再是某一学科、某一领域中的某个科研团队独立进行,科学家们可以共享不同学科、不同领域中的其他科研团队的成果数据,使用功能更加强大的研发工具,发掘更多原始性发现和新知识。事实上,这一共享不只是数据的交叉、融合,更是科学共同体内部、外部的交叉与融合,将吸引更多不同学科和领域的研究人员加入到基础研究中,使得基础研究的功能得以进一步拓展和融合。
随着大数据时代的到来,人类认知的“去等级化”转向,在本质上带来了科技创新领域的平等化趋势,虽然这一转向并不能彻底消除科技领域“马太效应”的存在,但阶层的分化会增加,层级差异会逐渐缩小。这一发展趋势必然对基础科学的资助方式、管理模式以及评价体系产生重要的影响。从无到有的原始性创新,更需要“尊重科学研究灵感瞬间性、方式随意性、路径不确定性的特点,允许科学家自由畅想、大胆假设、认真求证”。
总之,大数据时代为我国基础科学跨越式发展带来了变革性机遇和复杂性挑战。研究范式的深度改变要求我们加快建立更加包容和宽容、支持非共识创新项目的基础研究制度,鼓励变革性学术思想,促进创新治理体系从跟踪型向引领型转变。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27