京公网安备 11010802034615号
经营许可证编号:京B2-20210330
互联网大数据的科学大思考_数据分析师
摩尔定律带动了微电子的发展,信息技术信息流经历了获取、传输到计算存储,而大数据进一步推动了技术的变革。近日,北京航空航天大学校长怀进鹏院士分享了互联网大数据的科学大思考。
北京航空航天大学校长怀进鹏院士
科学世界的摩尔定律
在过去的二十年,计算速度和存储容量由于微电子的发展,CPU的性能提高了3500倍,但内存和硬盘的价格却下降了45000倍和360万倍。带宽的低廉程度已经远远超过了摩尔定律,单机进入了网络计算,离线进入了在线时代。新的技术变革正在开启。
当上网获取信息资源变得越来越低成本、通讯带宽超越摩尔定律的时候,就使得互联网的应用进入了第二次价值挖掘。人们不需要知道服务方在哪里,只需关注获取的服务和相应的资源。
由于互联网的应用,过去技术单向交流的方式开始进入了双向交流的时代,也进一步加速了互联网的发展和新能力的创造。
互联网模式的三个典型时代
“过去互联网模式走过三个典型的时代,即主机时代、网络计算时代,到现在云计算时代。从封闭可控的平台进入了开放和没有集中控制的网络环境。到最终未来的发展当中,在宽带不断发展、微电子的价格不断下降,而资源获取能力增强的时候,就出现了计算模式的新变化。由于带宽和成本的不断变化,导致一种新的计算模式的变化。” 怀进鹏说到。
上个世纪八十年代出现了第一次计算机变革,是由于PC时代造成的,软件第一次成为商品,可以通过购买copyright作为看不见的商品在市场上流行;到九十年代的网络时代,出现互联网有效规模的应用,就成为信息获取和信息交换的平台;目前的云计算模式正在推动新的、前所未有的、从量的积累到质的变化的时代。对于任何一个IT领域的技术和产品,时间的开放窗口并不长,比如像PC、手机和互联网,一旦形成技术的标准或一定规模的成熟,对于追随者就再也没有机会了,或者只能处于它的旁观者。
高速的互联网发展过程中,对提升高端计算的利用率和应用性、提升低端计算的事务处理能力和服务的能力,都会有重要变化。
科学计算奠定了大数据的基础
互联网也改变了人们的交换行为模式。社交网络如facebook、人人网、微博等改变了人们的上网规模和方式,与此同时,生产控制系统、嵌入式系统、传感器所传递的系统,也改变了应用模式。所以,科学计算是大数据产生的基础。
无论是从商业、工业,还是科学计算以及社会计算,给现实社会带来了新的问题。互联网二次价值的开发和新的挑战在哪里?云计算作为一种计算模式,正在人们的生活发挥着作用,云计算背后要处理在现实应用当中或者是实际需求中的问题,人们提出大数据也是其中一个选择。
对大数据有很多说法,从外显特征来看,简单叫做4V或者5V,从规模和变化频度以及种类和价值密度的角度。维基百科也对大数据给出了外在的定义,即量级很大但是又无法处理的数据。
对于大数据,不能简单看它就叫做一个数据,更重要的人们如何面对数据从量到质的变化过程。所以它已经不是过去我们说的大批量数据、海量数据到大数据,不是简单的从量的规模考虑,而是发生了规模的质的变化以后,给人们带来的问题。即传统数据,从静态进入动态,从简单、多维变成了巨量的维,而且它的种类是没有办法控制的。
因此,如何驾驭数据显得非常重要。驾驭数据是指数据过度泛滥或者数据不容易像处理商业数据。因为有的数据没有很忙特别价值。人们需要找到一种新的方式,从很多的数据中选择有用的数据。
在2010年《经济学人》有一篇专题标题就叫做“数据洪灾” “数据泛滥”的报道,文中提到数据从稀缺走向丰富的时候,会有很多新的麻烦。在这篇专题当中也谈到了关于数据经济的问题,即数据进入了新的经济时代。
从过去科学研究当中,由于信息的发展创造了很多人为的数据,和非自然的数据。所以需要从数据的关联发现和数据统计特征找出新的价值。这也是很多科学价值研究的重要内容。
“那么大数据有多大的作用?在推特上,日本的海啸信息提前传播,对受灾信息提前报警;去年7月21日,北京的暴雨,有900万多条微博,把可能救助的方案提前在微博中发布。关于钓鱼岛,反映出社会的信息和情绪建议,如何更有效地处理这样的问题;2008年甲流爆发前几周谷歌提前预测冬季流感的传播和甲型流感的问题;阿里巴巴的马云对于金融危机的预感、百度的个性化搜索等,这是都是大数据作用的例子。” 怀进鹏举例子说到。
在西方国家,利用微博、社交网络创造了很多新的价值,比如说根据民众的情绪或者对某一只股票的影响,对冲基金可以根据对企业的分析决定是否购买股票,以及对于上市的企业是否破产,都可以给金融分析进行帮助。
实际上在数据的经济社会发展的价值当中,体现了如何对它进行归类和分析,并进行有效的预测。因此,拥有大数据,拥有大规模真实可运行的数据,并能够对它进行分析和处理,也许就是我们不断提高竞争能力的重要力量。
大数据未来投资和发展的价值
大数据未来投资和发展的价值有多大?Gartner曾经预测,认为云计算和大数据的发展将在未来获得重要的机会。当然,咨询预测总是有风险的。对当前大数据的投资领域来看,给出了当前已经超过30%左右和未来进一步投资领域的划分,列举了像教育、交通、医疗等,在这些领域可能并且已经正在投入的行为。
大数据改变了人们的经济生活,淘宝和亚马逊的例子可以了解到用户的购物习惯;大数据改变了科学途径,即从理论研究、实验验证加仿真变成以计算为主的数据密集型的科学。
计算模式的变化的影响
首先所谓的近似性,从4V到3I,以数据的计算来看。近似性就是传统的精确处理不再适用,允许在一定范围区间内追求近似解。例如当你买一双鞋的时候,不会跑遍北京所有的鞋店,而是根据你对一定目标的理解和趋势的判断。
第二是数据的增量性。数据是源源不断的动态的变化,传统是有一个封闭的假设,所有数据都齐全了再计算。因此,在大数据动态变化特征当中需要有增量计算。就像微博,可以使用音频,视频,还有文字等表达相同的事件,甚至跨越不同的区域,甚至是完全无关的区域。因此,如何有效地归纳,也是一个重要的问题。
未来大数据的计算模式
在大数据云计算的背景下,软件在数据服务和运行模式当中也会有新的机遇。第一个机遇是未来数据的服务和软件的服务将成为主要的软件设计和开发的模式。第二个机遇是面临软件的设计开发和维护方式的调整,第三个需要面对的问题是用户的隐私问题。
总之,计算模式的变迁是会成就时代的智者。大数据不仅是产业,也是资源、更是科学。在这个领域当中,有未知的很多科学问题,也有未知的需要实践和很多技术、系统问题,还有需要政策和未来发展的有效支持。大数据将是未来的重要科学。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在当下数据驱动决策的职场环境中,A/B测试早已成为互联网产品、运营、营销乃至产品迭代优化的核心手段,小到一个按钮的颜色、文 ...
2026-03-24在统计学数据分析中,尤其是分类数据的分析场景里,卡方检验和显著性检验是两个高频出现的概念,很多初学者甚至有一定统计基础的 ...
2026-03-24在CDA(Certified Data Analyst)数据分析师的日常业务分析与统计建模工作中,多组数据差异对比是高频且核心的分析场景。比如验 ...
2026-03-24日常用Excel做数据管理、台账维护、报表整理时,添加备注列是高频操作——用来标注异常、说明业务背景、记录处理进度、补充关键 ...
2026-03-23作为业内主流的自助式数据可视化工具,Tableau凭借拖拽式操作、强大的数据联动能力、灵活的仪表板搭建,成为数据分析师、业务人 ...
2026-03-23在CDA(Certified Data Analyst)数据分析师的日常工作与认证考核中,分类变量的关联分析是高频核心场景。用户性别是否影响商品 ...
2026-03-23在数据工作的全流程中,数据清洗是最基础、最耗时,同时也是最关键的核心环节,无论后续是做常规数据分析、可视化报表,还是开展 ...
2026-03-20在大数据与数据驱动决策的当下,“数据分析”与“数据挖掘”是高频出现的两个核心概念,也是很多职场人、入门学习者容易混淆的术 ...
2026-03-20在CDA(Certified Data Analyst)数据分析师的全流程工作闭环中,统计制图是连接严谨统计分析与高效业务沟通的关键纽带,更是CDA ...
2026-03-20在MySQL数据库优化中,分区表是处理海量数据的核心手段——通过将大表按分区键(如时间、地域、ID范围)分割为多个独立的小分区 ...
2026-03-19在商业智能与数据可视化领域,同比、环比增长率是分析数据变化趋势的核心指标——同比(YoY)聚焦“长期趋势”,通过当前周期与 ...
2026-03-19在数据分析与建模领域,流传着一句行业共识:“数据决定上限,特征决定下限”。对CDA(Certified Data Analyst)数据分析师而言 ...
2026-03-19机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17在数字化转型的浪潮中,企业积累的数据日益庞大且分散——用户数据散落在注册系统、APP日志、客服记录中,订单数据分散在交易平 ...
2026-03-17在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16