
融合?重构?区块链和大数据关系竟如此简单
最近一段时间,区块链和大数据这两大热词正在被越来越多地放在一起,随着各种言论的增多,两者的关系开始变得扑朔迷离。区块链将与大数据融合发展?区块链最终将重构大数据?围观群众纷纷表示想弄个明白。
“要弄清区块链和大数据的关系,首先要从两者的不同开始。”从事互联网技术研究20余年,人称互联网技术相面师的中国信息通信研究院云计算与大数据研究所所长何宝宏抛出了这一观点。他认为,区块链和大数据技术存在一定的共性,但是两者在技术处理方式上,更多的是不同。
何宝宏 中国信息通信研究院云计算与大数据研究所所长
何宝宏表示,区块链技术是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式,区块链处理的数据更小,是细致的处理方式。而大数据管理的是海量数据,要求广度和数量,处理方式上也会粗糙,重点是统计分析(如下图)。
“这个时代最大的特点就是变化。”对于区块链的兴起引发的业界的讨论、思考和担忧,何宝宏认为,我们擅长关注变化的东西,但是实际上很多变化背后的一些东西是不变的,比如——技术的规律。因而,在探讨区块链和大数据的关系时,我们需要跳出技术看技术。
客观而言,作为一个颠覆式的新兴技术,区块链要应用在大数据场景下,其本身还还不够成熟,需要进一步的研究而探讨。而区块链是否可能重构大数据?何宝宏认为基本不存在这一可能,因为大数据针对的是非结构化的数据,而区块链处理的是结构化数据。“两者的目标数据不同,要解决的问题也不同。”
在4月18日-19日即将于北京国家会议中心召开的“2018大数据产业峰会”上,何宝宏将发表题为“预见大数据的2018”的演讲,就大数据、区块链等技术发展背后的规律,以及2018年的市场动态和趋势进行展望。下面,小编收集了何宝宏博士近期的精彩观点,供大家提前养养眼、洗洗脑。
区块链:互联网的“大补丁”
草根、全球、自治、分布、开放、透明、对等、匿名、分享……二十年前,人们如此形容互联网;今天,这些却成为了区块链身上的标签。
这是为何?“区块链是互联网的发展和延续,是互联网的一块大补丁。”何宝宏认为,区块链颠覆不了互联网,更颠覆不了世界。如果非要认为区块链可以颠覆世界,只能说那可能是你的世界太小了。
要为区块链相面,我们能发现很多问题,如:性能低、能耗高、生态链、安全防护、隐私保护、监管缺失、标准缺失、不务正业等。“以我20多年的互联网相面经验来说,但凡是有这些问题的技术都是‘好技术’,这些缺点随着时间的推移都是可以克服和解决的。所以,每当有人批评区块链这些缺点时,我都会说这是优秀技术的典型特征。”
相比较区块链这样的颠覆式技术,何宝宏认为那些注定要失败的技术往往具备以下特征:
1、声称包治百病,一句话说不清楚它希望解决的具体问题;
2、概念模糊,一句话说不清楚它的基本思想和原理,与现有技术的明显区别或边界;
3、准备从主流市场,最赚钱的市场或存量市场开始;
4、需要建立以我为中心的生态链(技术富二代除外);
5、看起来过于完美,没有明显的取舍,回避需要付出的技术代价;
6、不考虑摩尔定律是否支持;
7、经济学规律模糊,历史案例牵强。
区块链的本质是分布式账本。何宝宏认为,分布式账本是“刚需”。过去的几百年,我们一直在使用集中式的记账方式,没有一种手段能够支持高效的分布式记账,直到区块链的出现。
“成年后的技术大多活成自己讨厌的样子。”区块链的特点是去中心化、防篡改、匿名性,但是随着其不断成熟和落地,这些特征需要从更深层次去理解。
分布式≠去中心
分布式不等于去中心。“高喊去中心的大多数是自己想成为新的中心。”何宝宏以比特币为例,其代码控制在Core小组手中,算力是高度集中的。同时,有报告显示,40%的比特币实际上是集中在1000个人手里,而另外一个报告则说,96.53%的比特币归属于4.11%的地址。因而,随着区块链的发展,去中心正在变成多中心。
防篡改≠不可修改
防篡改不等于不可修改。在何宝宏看来,人会犯错,数据因而也会出错。在会计体系里,不允许做假账但是允许改错账。在传统的数据库技术中,修改是很容易实现的,因而需要一些管理手段来防止篡改。但是今天,区块链技术是不可修改,那么如果数据出错了怎么办?因而需要在不可篡改的技术上加上“可修改”。
保护隐私≠匿名
保护隐私不意味着一定要匿名。何宝宏认为,匿名是保护隐私的一种方法和手段,但不是绝对。二十多年前的互联网是匿名的、全球化的,谁也关不掉,共享且自治。然而,到了今天,登陆一个网站,你就需要输入验证码,以证明自己是人,而不是机器或其他。
对共识机制难有共识
“对共识机制,难有共识。”何宝宏说,我们需要共识,但我们的共识机制本身却是分裂的、碎片化的。我们用POW比谁劲大,用POS比谁钱多,这是典型的从原始社会过渡到资本主义社会的“玩法”。后来钱多了人也太多了,于是又用DPOS搞出了代理人机制。
共识机制如何形成共识,属于控制层面范畴,这个共识特别难。要有这样的共识就必须要有共识之母,一个共识前面还得有一个共识才能形成后面的共识,共识也是链式结构的,信任也是链式结构的。因而,说区块链是去信任的,那是不可能的。
小产业、大变革
从技术的角度上看,区块链就是将原来的单个账本变成了现在的多个账本。原来,所有的数据库之间是主从关系,账本只有一个;今天多个数据库之间是对等关系,账本从一个变成多。
从一个会计到多个会计,以前记账可以读、写、改、删,今天记账只有读和写;以前记账要给会计发工资,进行外部激励,我们今天自己激励就可以了;以前所有公司的商务和财务都是分离的,付账过程特别繁琐;今天的智能合约是商务财务一体化,这就颠覆了我们很多的想法。
以前,代码就是技术;今天,代码变成了金融产品,所以就出现了新的机会。以前,数据主要是指信息,技术则就是如何帮它更广泛的传播;现在数据越来越成为资产,技术的走向就要发生很大的变化。
以前,二进制代码表达的是信息;今天,二进制代码表达的是一种财产。数据即资产,资产即数据。当二进制代码代表资产,技术的核心要义就要走向保护,要去管理和控制。技术的目的从最大限度的传播,转为考虑如何把代码圈起来。
区块链是小产业、大变革。它颠覆的是我们的经济、经济运营最底层的复式记账法。我们用了几百年的复式记账法将演进为三式记账法。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在使用 Excel 数据透视表进行多维度数据汇总时,折叠功能是梳理数据层级的核心工具 —— 通过点击 “+/-” 符号可展开明细数据或 ...
2025-09-28在使用 Pandas 处理 CSV、TSV 等文本文件时,“引号” 是最容易引发格式混乱的 “隐形杀手”—— 比如字段中包含逗号(如 “北京 ...
2025-09-28在 CDA(Certified Data Analyst)数据分析师的技能工具箱中,数据查询语言(尤其是 SQL)是最基础、也最核心的 “武器”。无论 ...
2025-09-28Cox 模型时间依赖性检验:原理、方法与实战应用 在生存分析领域,Cox 比例风险模型(Cox Proportional Hazards Model)是分析 “ ...
2025-09-26检测因子类型的影响程度大小:评估标准、实战案例与管控策略 在检测分析领域(如环境监测、食品质量检测、工业产品合规性测试) ...
2025-09-26CDA 数据分析师:以数据库为基石,筑牢数据驱动的 “源头防线” 在数据驱动业务的链条中,“数据从哪里来” 是 CDA(Certified D ...
2025-09-26线性相关点分布的四种基本类型:特征、识别与实战应用 在数据分析与统计学中,“线性相关” 是描述两个数值变量间关联趋势的核心 ...
2025-09-25深度神经网络神经元个数确定指南:从原理到实战的科学路径 在深度神经网络(DNN)的设计中,“神经元个数” 是决定模型性能的关 ...
2025-09-25在企业数字化进程中,不少团队陷入 “指标困境”:仪表盘上堆砌着上百个指标,DAU、转化率、营收等数据实时跳动,却无法回答 “ ...
2025-09-25MySQL 服务器内存碎片:成因、检测与内存持续增长的解决策略 在 MySQL 运维中,“内存持续增长” 是常见且隐蔽的性能隐患 —— ...
2025-09-24人工智能重塑工程质量检测:核心应用、技术路径与实践案例 工程质量检测是保障建筑、市政、交通、水利等基础设施安全的 “最后一 ...
2025-09-24CDA 数据分析师:驾驭通用与场景指标,解锁数据驱动的精准路径 在数据驱动业务的实践中,指标是连接数据与决策的核心载体。但并 ...
2025-09-24在数据驱动的业务迭代中,AB 实验系统(负责验证业务优化效果)与业务系统(负责承载用户交互与核心流程)并非独立存在 —— 前 ...
2025-09-23CDA 业务数据分析:6 步闭环,让数据驱动业务落地 在企业数字化转型中,CDA(Certified Data Analyst)数据分析师的核心价值,并 ...
2025-09-23CDA 数据分析师:以指标为钥,解锁数据驱动价值 在数字化转型的浪潮中,“用数据说话” 已成为企业决策的共识。但数据本身是零散 ...
2025-09-23当 “算法” 成为数据科学、人工智能、业务决策领域的高频词时,一种隐形的认知误区正悄然蔓延 —— 有人将分析结果不佳归咎于 ...
2025-09-22在数据分析、金融计算、工程评估等领域,“平均数” 是描述数据集中趋势最常用的工具之一。但多数人提及 “平均数” 时,默认指 ...
2025-09-22CDA 数据分析师:参数估计助力数据决策的核心力量 在数字化浪潮席卷各行各业的当下,数据已成为驱动业务增长、优化运营效率的核 ...
2025-09-22训练与验证损失骤升:机器学习训练中的异常诊断与解决方案 在机器学习模型训练过程中,“损失曲线” 是反映模型学习状态的核心指 ...
2025-09-19解析 DataHub 与 Kafka:数据生态中两类核心工具的差异与协同 在数字化转型加速的今天,企业对数据的需求已从 “存储” 转向 “ ...
2025-09-19