京公网安备 11010802034615号
经营许可证编号:京B2-20210330
当天文学遇到大数据
浩瀚的宇宙自古以来就一直吸引着人类进行不懈探索。天文学这门基于观测的最古老的自然科学,随着科技的进步,目前也迈进了大数据时代。
天文学是最早的数据驱动学科,云计算与大数据技术是制约学科发展的关键因素。除了海量天文数据,在线服务、软件工具、数据处理系统、分析挖掘环境等也都是推动天文科研、科普的重要因素。
海量的数据与先进的信息技术“融合”,在天文学领域结出硕果的同时,将在更广阔的空间发挥引领和示范作用。比如,分布式海量数据存储、大规模计算、新一代应用架构、机器学习和人工智能等方面的技术,帮助中国科学院国家天文台逐步实现数据资源上云,其中包括在贵州最新落成的FAST(中国天眼)观测的数据。
FAST是由中国人创造的世界上最大的单口径射电望远镜,它为我国天文学研究者提供了先进的仪器设备,同时也带来了海量大数据。有统计显示,FAST进入正式科学观测后,每天将产生高达50TB的数据。
在FAST早期观测时,国家天文台采用的是漂移扫描的观测模式,这个模式有一个19波束的接收机,带宽400兆赫兹,通过1G的频率进行采集,它的原始数据的产生率是38个GB每秒,压缩后会小到原来的1/5到1/6,也就是大约6个GB每秒。
国内除了FAST,还有“悟空”卫星等,在国际上我国也有很多大型天文望远镜观测项目,如跨越南非和澳大利亚的一平方千米的天线阵,据称它的原始数据产生率将会超过十个PB每秒,将超过目前全球互联网的带宽,这都将给天文学带来海量数据。
人类从哪里来,宇宙有哪些奥秘,这些其实是生命起源的最基本问题。研究这些基本问题的天文学是一个开放的学科,数据都向全世界开放共享。国际合作是天文学的“基因”,天文大数据将大大推动计算科学的发展。云计算技术发展到一定程度,世界上就会有更多人可以参与到人类这些基本问题的研究中来,产生全球共享的效应。
以郭守敬望远镜为例,它是我国天文学领域第一个国家大科学工程项目,也是世界上光谱巡天效率最高的望远镜。自2009年落成以来,已经获得超过700万天体的光谱,是世界上最大的天体光谱库。目前,郭守敬望远镜的产品数据已经完成上云,并通过对外公开数据发布网站向全世界开放。上云完成后,将大大提升郭守敬望远镜观测数据的显示度和利用率。
在大数据时代,如何访问和使用这些海量的信息成为了全世界天文学家面临的难题。虚拟天文台之父、美国约翰·霍普金斯大学的Alex Szalay教授提出了“虚拟天文台”的设想。
虚拟天文台是通过信息技术,将全球范围内的天文数据无缝透明连接在一起,从而形成数据密集型网络化天文研究与科普教育的平台。多年来,我也一直致力于中国虚拟天文台的研究和建设。
由中国虚拟天文台与微软研究院合作完成的“WWT北京社区”,成为了WWT官方中文门户,正为全球的中文用户提供各种信息和资源。
大数据时代,虚拟天文台拉近了公众与宇宙之间的距离,而中国虚拟天文台和星明天文台推出的“公众超新星搜寻项目”,则为普通公众在欣赏宇宙之美的同时,有了参与天文新发现的可能。也许将来国内有更多拥有天文设备的爱好者、组织团体加入到该项目中,寻找更多类型的天体,也将不断充实虚拟天文台为公众服务的内容和功能。借助大数据带来的科技进步,全民搜星的时代或许很快就会来临。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15在企业数字化转型、系统架构设计、数据治理与AI落地过程中,数据模型、本体模型、业务模型是三大核心基础模型,三者相互支撑、各 ...
2026-04-15数据分析师的一天,80%的时间花在表格数据上,但80%的坑也踩在表格数据上。 如果你分不清数值型和文本型的区别,不知道数据从哪 ...
2026-04-15在人工智能与机器学习落地过程中,模型质量直接决定了应用效果的优劣——无论是分类、回归、生成式模型,还是推荐、预测类模型, ...
2026-04-14在Python网络编程、接口测试、爬虫开发等场景中,HTTP请求的发送与响应处理是核心需求。Requests库作为Python生态中最流行的HTTP ...
2026-04-14 很多新人学完Python、SQL,拿到一张Excel表还是不知从何下手。 其实,90%的商业分析问题,都藏在表格的结构里。 ” 引言:为 ...
2026-04-14在回归分析中,因子(即自变量)的筛选是构建高效、可靠回归模型的核心步骤——实际分析场景中,往往存在多个候选因子,其中部分 ...
2026-04-13在机器学习模型开发过程中,过拟合是制约模型泛化能力的核心痛点——模型过度学习训练数据中的噪声与偶然细节,导致在训练集上表 ...
2026-04-13在数据驱动商业升级的今天,商业数据分析已成为企业精细化运营、科学决策的核心手段,而一套规范、高效的商业数据分析总体流程, ...
2026-04-13主讲人简介 张冲,海归统计学硕士,CDA 认证数据分析师,前云南白药集团资深数据分析师,自媒体 Python 讲师,全网课程播放量破 ...
2026-04-13在数据可视化与业务分析中,同比分析是衡量业务发展趋势、识别周期波动的核心手段,其核心逻辑是将当前周期数据与上年同期数据进 ...
2026-04-13在机器学习模型的落地应用中,预测精度并非衡量模型可靠性的唯一标准,不确定性分析同样不可或缺。尤其是在医疗诊断、自动驾驶、 ...
2026-04-10数据本身是沉默的,唯有通过有效的呈现方式,才能让其背后的规律、趋势与价值被看见、被理解、被运用。统计制图(数据可视化)作 ...
2026-04-10在全球化深度发展的今天,跨文化传播已成为连接不同文明、促进多元共生的核心纽带,其研究核心围绕“信息传递、文化解读、意义建 ...
2026-04-09在数据可视化领域,折线图是展示时序数据、趋势变化的核心图表类型之一,其简洁的线条的能够清晰呈现数据的起伏规律。Python ECh ...
2026-04-09在数据驱动的时代,数据分析早已不是“凭经验、靠感觉”的零散操作,而是一套具备固定逻辑、标准化流程的系统方法——这就是数据 ...
2026-04-09长短期记忆网络(LSTM)作为循环神经网络(RNN)的重要改进模型,凭借其独特的门控机制(遗忘门、输入门、输出门),有效解决了 ...
2026-04-08在数据分析全流程中,数据质量是决定分析结论可靠性的核心前提,而异常值作为数据集中的“异类”,往往会干扰统计检验、模型训练 ...
2026-04-08在数字经济飞速发展的今天,数据已渗透到各行各业的核心场景,成为解读趋势、优化决策、创造价值的核心载体。而数据分析,作为挖 ...
2026-04-08在数据分析全流程中,数据处理是基础,图形可视化是核心呈现手段——前者负责将杂乱无章的原始数据转化为干净、规范、可分析的格 ...
2026-04-07