
互联网大数据的科学大思考_数据分析师
摩尔定律带动了微电子的发展,信息技术信息流经历了获取、传输到计算存储,而大数据进一步推动了技术的变革。近日,北京航空航天大学校长怀进鹏院士分享了互联网大数据的科学大思考。
北京航空航天大学校长怀进鹏院士
科学世界的摩尔定律
在过去的二十年,计算速度和存储容量由于微电子的发展,CPU的性能提高了3500倍,但内存和硬盘的价格却下降了45000倍和360万倍。带宽的低廉程度已经远远超过了摩尔定律,单机进入了网络计算,离线进入了在线时代。新的技术变革正在开启。
当上网获取信息资源变得越来越低成本、通讯带宽超越摩尔定律的时候,就使得互联网的应用进入了第二次价值挖掘。人们不需要知道服务方在哪里,只需关注获取的服务和相应的资源。
由于互联网的应用,过去技术单向交流的方式开始进入了双向交流的时代,也进一步加速了互联网的发展和新能力的创造。
互联网模式的三个典型时代
“过去互联网模式走过三个典型的时代,即主机时代、网络计算时代,到现在云计算时代。从封闭可控的平台进入了开放和没有集中控制的网络环境。到最终未来的发展当中,在宽带不断发展、微电子的价格不断下降,而资源获取能力增强的时候,就出现了计算模式的新变化。由于带宽和成本的不断变化,导致一种新的计算模式的变化。” 怀进鹏说到。
上个世纪八十年代出现了第一次计算机变革,是由于PC时代造成的,软件第一次成为商品,可以通过购买copyright作为看不见的商品在市场上流行;到九十年代的网络时代,出现互联网有效规模的应用,就成为信息获取和信息交换的平台;目前的云计算模式正在推动新的、前所未有的、从量的积累到质的变化的时代。对于任何一个IT领域的技术和产品,时间的开放窗口并不长,比如像PC、手机和互联网,一旦形成技术的标准或一定规模的成熟,对于追随者就再也没有机会了,或者只能处于它的旁观者。
高速的互联网发展过程中,对提升高端计算的利用率和应用性、提升低端计算的事务处理能力和服务的能力,都会有重要变化。
科学计算奠定了大数据的基础
互联网也改变了人们的交换行为模式。社交网络如facebook、人人网、微博等改变了人们的上网规模和方式,与此同时,生产控制系统、嵌入式系统、传感器所传递的系统,也改变了应用模式。所以,科学计算是大数据产生的基础。
无论是从商业、工业,还是科学计算以及社会计算,给现实社会带来了新的问题。互联网二次价值的开发和新的挑战在哪里?云计算作为一种计算模式,正在人们的生活发挥着作用,云计算背后要处理在现实应用当中或者是实际需求中的问题,人们提出大数据也是其中一个选择。
对大数据有很多说法,从外显特征来看,简单叫做4V或者5V,从规模和变化频度以及种类和价值密度的角度。维基百科也对大数据给出了外在的定义,即量级很大但是又无法处理的数据。
对于大数据,不能简单看它就叫做一个数据,更重要的人们如何面对数据从量到质的变化过程。所以它已经不是过去我们说的大批量数据、海量数据到大数据,不是简单的从量的规模考虑,而是发生了规模的质的变化以后,给人们带来的问题。即传统数据,从静态进入动态,从简单、多维变成了巨量的维,而且它的种类是没有办法控制的。
因此,如何驾驭数据显得非常重要。驾驭数据是指数据过度泛滥或者数据不容易像处理商业数据。因为有的数据没有很忙特别价值。人们需要找到一种新的方式,从很多的数据中选择有用的数据。
在2010年《经济学人》有一篇专题标题就叫做“数据洪灾” “数据泛滥”的报道,文中提到数据从稀缺走向丰富的时候,会有很多新的麻烦。在这篇专题当中也谈到了关于数据经济的问题,即数据进入了新的经济时代。
从过去科学研究当中,由于信息的发展创造了很多人为的数据,和非自然的数据。所以需要从数据的关联发现和数据统计特征找出新的价值。这也是很多科学价值研究的重要内容。
“那么大数据有多大的作用?在推特上,日本的海啸信息提前传播,对受灾信息提前报警;去年7月21日,北京的暴雨,有900万多条微博,把可能救助的方案提前在微博中发布。关于钓鱼岛,反映出社会的信息和情绪建议,如何更有效地处理这样的问题;2008年甲流爆发前几周谷歌提前预测冬季流感的传播和甲型流感的问题;阿里巴巴的马云对于金融危机的预感、百度的个性化搜索等,这是都是大数据作用的例子。” 怀进鹏举例子说到。
在西方国家,利用微博、社交网络创造了很多新的价值,比如说根据民众的情绪或者对某一只股票的影响,对冲基金可以根据对企业的分析决定是否购买股票,以及对于上市的企业是否破产,都可以给金融分析进行帮助。
实际上在数据的经济社会发展的价值当中,体现了如何对它进行归类和分析,并进行有效的预测。因此,拥有大数据,拥有大规模真实可运行的数据,并能够对它进行分析和处理,也许就是我们不断提高竞争能力的重要力量。
大数据未来投资和发展的价值
大数据未来投资和发展的价值有多大?Gartner曾经预测,认为云计算和大数据的发展将在未来获得重要的机会。当然,咨询预测总是有风险的。对当前大数据的投资领域来看,给出了当前已经超过30%左右和未来进一步投资领域的划分,列举了像教育、交通、医疗等,在这些领域可能并且已经正在投入的行为。
大数据改变了人们的经济生活,淘宝和亚马逊的例子可以了解到用户的购物习惯;大数据改变了科学途径,即从理论研究、实验验证加仿真变成以计算为主的数据密集型的科学。
计算模式的变化的影响
首先所谓的近似性,从4V到3I,以数据的计算来看。近似性就是传统的精确处理不再适用,允许在一定范围区间内追求近似解。例如当你买一双鞋的时候,不会跑遍北京所有的鞋店,而是根据你对一定目标的理解和趋势的判断。
第二是数据的增量性。数据是源源不断的动态的变化,传统是有一个封闭的假设,所有数据都齐全了再计算。因此,在大数据动态变化特征当中需要有增量计算。就像微博,可以使用音频,视频,还有文字等表达相同的事件,甚至跨越不同的区域,甚至是完全无关的区域。因此,如何有效地归纳,也是一个重要的问题。
未来大数据的计算模式
在大数据云计算的背景下,软件在数据服务和运行模式当中也会有新的机遇。第一个机遇是未来数据的服务和软件的服务将成为主要的软件设计和开发的模式。第二个机遇是面临软件的设计开发和维护方式的调整,第三个需要面对的问题是用户的隐私问题。
总之,计算模式的变迁是会成就时代的智者。大数据不仅是产业,也是资源、更是科学。在这个领域当中,有未知的很多科学问题,也有未知的需要实践和很多技术、系统问题,还有需要政策和未来发展的有效支持。大数据将是未来的重要科学。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29CDA 数据分析与量化策略分析流程:协同落地数据驱动价值 在数据驱动决策的实践中,“流程” 是确保价值落地的核心骨架 ——CDA ...
2025-08-29CDA含金量分析 在数字经济与人工智能深度融合的时代,数据驱动决策已成为企业核心竞争力的关键要素。CDA(Certified Data Analys ...
2025-08-28CDA认证:数据时代的职业通行证 当海通证券的交易大厅里闪烁的屏幕实时跳动着市场数据,当苏州银行的数字金融部连夜部署新的风控 ...
2025-08-28