京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据,这样采这样用_数据分析师培训
虽然大数据早已不是什么新鲜词,而且大家都能说上两句自己心中大数据的模样,可一旦细究起来,到底什么是大数据,大数据从何而来,如何应用,相信不少人就说不清楚了。
由东北大学、沈阳市政府及战略投资者共同投资成立的东北大学东网科技有限公司,其超算中心和云计算中心拥有1170万亿次/秒计算能力、30PB云存储空间。目前,东网科技与沈阳市环保局合作,正在通过大数据技术开展大气环境监测预报。怀揣着对大数据的好奇,记者走访了这家公司。
获取10%的信息量,预测剩余90%,这是小数据;而掌握90%的信息量,预测余下的,则是大数据
在一片尚未平整完毕的荒野中,矗立着一座极具现代科技感的建筑物:深蓝色的圆形玻璃幕墙、航空级别的安保设施。此种场景,和美国科幻大片中看到的场景倒有几分相似。
经过一系列安保检查,记者得以进入东网科技的超算中心和云计算中心,一台台超过2米的黑色机柜密密麻麻地排列在机房中。“左手边是超级计算机,右手边是云存储器”,东网科技工作人员许冕介绍说。
这和大数据有什么关系?“超算能力和云存储就相当于大数据的大脑,是大数据必备的硬件条件”,东网科技总经理杨宝卫打了个比喻。对于东网科技拥有的1170万亿次/秒的超算能力,杨宝卫说,这在目前国内的超级计算机中名列前茅,而30PB则是一个存储容量,相当于约50万个容量为64GB智能手机存储容量总和。
那到底什么是大数据?从网络上查询,答案五花八门。“针对某一事物,如果了解了10%的信息量,预测剩余的90%,这是小数据,需要抽样然后概率分析;而掌握80%—90%的信息量,预测余下的10%—20%,则是大数据。也就是说,大数据是对某一事物的样本空间的覆盖,通过智能分析,对事物进行预测预报”,杨宝卫试图用最简单的话来说明他所理解的大数据。
对于大数据,杨宝卫趣称为“经验主义的复活”。过去我们是通过观察和经验,经过大脑的分析总结后,指导人类活动,比如一些天象的观察等。后来,人类发展到一定阶段后,信息越来越多,人脑计算不过来,就发明了电脑来帮助处理信息。现在的超算就能够帮助处理更多的信息,而大数据下的超算,就是通过大量可信赖样本提供的经验,对复杂事件进行计算和预测。
天气预报就是个直观的例子。人类能够进行天气预报,是因为一个事物通过足够的数据完全可以在数字世界里进行虚拟的演化。那么对天气预报来说,我们把今天的天气数据放到电脑里,在虚拟世界里模拟天气的变化。或许超算只需要10分钟,就可以预测某地3天后的天气状况。
大数据技术包括数据采集—传输—集中存储—再处理—再应用等过程,其中采集是关键
大数据来自何方,通过什么途径我们可以获取这些数据?不少人直观的感受是:数据主要来自于互联网。
杨宝卫认为,获取数据目前有三个渠道:第一,来自于互联网的数据。比如阿里巴巴的交易数据、百度的查询数据、腾讯的交流沟通数据,“这些还都是外围的”。
第二,来源于政府的数据。这才是真正的核心数据。比如经济运行数据、人口数据、地理数据、政府服务数据、公共服务数据。
第三,对原有世界的数据再次采集,这源于我们更多更先进的技术手段采集到更多的数据,这就是如日中天的物联网。我们要让每一个物体都是传感器,时刻在回传数据,物联网的发展会极大地丰富数据。
然而,大数据真正的核心数据——政府所掌握的数据目前大多都处于“死机”状态,如何激活还有待探索。业内许多专家呼吁,在保证信息安全的基础上,政府可开放一些并不敏感的数据,实行数据的可交易、资产化,据了解,上海已经开始建设数据交易所。
杨宝卫认为,大数据技术包括数据的采集—传输—集中存储—再处理—再应用等一系列过程。其中,数据的采集是关键。
“大数据并不是今天做,明天就有,它是台阶式的发展。我们目前就在某些领域里进行数据收集和智能分析,让它能够预测预报”,杨宝卫介绍说,比如目前中心与沈阳、本溪合作建设智慧城市,就是把一些相关信息进行集中,同时中心还从事互联网的一些商业应用。这些都是数据的采集和集中。
采集之后,就是传输环节,如何能够快速地传输?这涉及运营商、基础设施通讯等方面。接下来是数据存储环节,也就是云计算中心的价值所在。然后是数据的处理和再处理,这就要用到超算。最后就是数据的再应用,这是各个软件公司、信息服务公司要做的事情。
随着在医疗、环保、航空等更多领域的广泛应用,大数据将实实在在地改变人们的日常生活
业内专家认为,如果把大数据比作一种产业,那么这个产业实现盈利的关键,在于对数据的高加工能力,通过加工实现数据的增值。简单地说,就是大数据要实现高效应用。
“目前,东网科技已经在大数据应用方面做出努力和尝试”,据介绍,针对雾霾天气,东网科技公司自2013年10月起就与沈阳市携手创建了“环保云”。东网公司与沈阳市环保局就空间信息需求对接,为PM2.5监测治理提供解决方案。公司首先启动了沈阳市市辖区未来三天大气污染状况预报项目,利用自主研发的大气成分反演模型和遥感数据处理软件,进行沈阳市冬季供暖期大气环境监测预报,为排放管控和污染治理提供科学手段。
“大数据技术可以促进医疗、环保、教育等民生问题的解决”,杨宝卫说,随着大数据技术的进一步完善,其应用必将给人们的生活带来实实在在的改变。“给早产儿戴上传感器,可以分分秒秒收集他(她)身上的海量个人生理信息,通过数据分析就能找到这个婴儿在将来出现感染的几率从而及早预防;收集飞机飞行时的空气信息,以实现飞机的自动飞行。”这些场景都将逐步实现。城市将更聪明,生活将更智慧。
据介绍,基于大数据技术,还可模拟基因的演化,药厂也可以用计算机进行成千上万的病例与药物的作用演化。水稻种植实验,一个品种在种下去一年后,才能看得到结果。未来只要把基因数据放入计算机,很快就能看到结果,这样可以大大加快科研进程。
大数据技术的发展也引发了人们对于信息和隐私安全问题的担忧。杨宝卫对此持乐观态度:通过发展技术、加强管理、完善法律等多方面的努力,问题将逐步得到解决。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在使用Excel数据透视表进行数据分析时,我们常需要在透视表旁添加备注列,用于标注数据背景、异常说明、业务解读等关键信息。但 ...
2025-12-22在MySQL数据库的性能优化体系中,索引是提升查询效率的“核心武器”——一个合理的索引能将百万级数据的查询耗时从秒级压缩至毫 ...
2025-12-22在数据量爆炸式增长的数字化时代,企业数据呈现“来源杂、格式多、价值不均”的特点,不少CDA(Certified Data Analyst)数据分 ...
2025-12-22在企业数据化运营体系中,同比、环比分析是洞察业务趋势、评估运营效果的核心手段。同比(与上年同期对比)可消除季节性波动影响 ...
2025-12-19在数字化时代,用户已成为企业竞争的核心资产,而“理解用户”则是激活这一资产的关键。用户行为分析系统(User Behavior Analys ...
2025-12-19在数字化转型的深水区,企业对数据价值的挖掘不再局限于零散的分析项目,而是转向“体系化运营”——数据治理体系作为保障数据全 ...
2025-12-19在数据科学的工具箱中,析因分析(Factor Analysis, FA)、聚类分析(Clustering Analysis)与主成分分析(Principal Component ...
2025-12-18自2017年《Attention Is All You Need》一文问世以来,Transformer模型凭借自注意力机制的强大建模能力,在NLP、CV、语音等领域 ...
2025-12-18在CDA(Certified Data Analyst)数据分析师的时间序列分析工作中,常面临这样的困惑:某电商平台月度销售额增长20%,但增长是来 ...
2025-12-18在机器学习实践中,“超小数据集”(通常指样本量从几十到几百,远小于模型参数规模)是绕不开的场景——医疗领域的罕见病数据、 ...
2025-12-17数据仓库作为企业决策分析的“数据中枢”,其价值完全依赖于数据质量——若输入的是缺失、重复、不一致的“脏数据”,后续的建模 ...
2025-12-17在CDA(Certified Data Analyst)数据分析师的日常工作中,“随时间变化的数据”无处不在——零售企业的每日销售额、互联网平台 ...
2025-12-17在休闲游戏的运营体系中,次日留存率是当之无愧的“生死线”——它不仅是衡量产品核心吸引力的首个关键指标,更直接决定了后续LT ...
2025-12-16在数字化转型浪潮中,“以用户为中心”已成为企业的核心经营理念,而用户画像则是企业洞察用户、精准决策的“核心工具”。然而, ...
2025-12-16在零售行业从“流量争夺”转向“价值深耕”的演进中,塔吉特百货(Target)以两场标志性实践树立了行业标杆——2000年后的孕妇精 ...
2025-12-15在统计学领域,二项分布与卡方检验是两个高频出现的概念,二者都常用于处理离散数据,因此常被初学者混淆。但本质上,二项分布是 ...
2025-12-15在CDA(Certified Data Analyst)数据分析师的工作链路中,“标签加工”是连接原始数据与业务应用的关键环节。企业积累的用户行 ...
2025-12-15在Python开发中,HTTP请求是与外部服务交互的核心场景——调用第三方API、对接微服务、爬取数据等都离不开它。虽然requests库已 ...
2025-12-12在数据驱动决策中,“数据波动大不大”是高频问题——零售店长关心日销售额是否稳定,工厂管理者关注产品尺寸偏差是否可控,基金 ...
2025-12-12在CDA(Certified Data Analyst)数据分析师的能力矩阵中,数据查询语言(SQL)是贯穿工作全流程的“核心工具”。无论是从数据库 ...
2025-12-12