京公网安备 11010802034615号
经营许可证编号:京B2-20210330
你所不知道的大数据、云计算,以及无法计算的价值
毫不吹牛的说,单凭这个标题,就能让这篇文章装着13轻轻松松过大年。但凡有不服者,请你告诉我旁边的这位大婶儿,什么叫大数据,什么是云计算。你要能让大婶儿听明白了,我就服你。认怂了吧?来,看我的。
不管你能不能看见,这都是一个全新的世界
1590年,有一个名叫札恰里亚斯·詹森的荷兰眼镜制造商人,发明了一种借助物理方法使物体放大影象的仪器,名曰显微镜,从此,人类看到了一个全新的世界,走入原子时代。
1609年,有一个名叫伽利略的人,用平凸透镜作为物镜,凹透镜作为目镜,制作了一架口径4.2厘米,长约1.2米的望远镜。他用这架望远镜指向太空,看到了一个全新的世界,天文学从此进入了望远镜时代。
1842年,有一个名叫多普勒的奥地利物理学家,率先提出利用多普勒效应的多普勒式雷达。雷达的英文直译是“无线电探测和测距”,即用无线电的方法发现目标并测定它们的空间位置,因此雷达也被称为“无线电定位”。
伽里略发明天文望远镜,让人类突然意识到世界不是原来眼睛看到的那样。需要明确一点,人类不是因为知道世界是什么样而去发明了望远镜,而是因为有了望远镜,才知道世界是什么样。显微镜也是一样的道理,当你离开显微镜的时候,你要想一想通过显微镜看到的那个世界是不是真实存在。
给你12秒,想一想……
你想的都对!互联网、数据和计算,就像人类历史上三个非常重要的工具——望远镜、显微镜和雷达的发明,让人类看见了原来看不见的世界,看见了历史上没有见过的东西。
能说出这么深入浅出的道理,自然不是我,而是阿里巴巴CTO王坚博士。王坚博士被业界誉为云计算的布道者,在近年来的公开演讲中多次阐述他对互联网、计算和数据的理解。1月20日,云栖大会上海峰会召开,王坚博士在主题演讲中表示,现在人们看数据都是通过计算去看,就像人类发明显微镜以后,研究微观世界都是通过显微镜看到的。同理,我们要相信那个人眼看不见的、被计算出来的数据世界。
他说,“传统行业或者传统软件公司不觉得鼠标点击有意义有价值,不觉得那是一个活生生的世界,但是互联网是把它当生命来看。在互联网上点击鼠标就能知道用户的兴趣,能创造价值,这是互联网公司真正的能力,而不是别的东西,这是显微镜的作用。”
想不想在数据时代也能分得一杯羹?
不得不承认,王坚博士总是能用大婶儿都能理解的语言,完美解释无比高深的科学问题。
在谈到数据的时候,他说,因为互联网这个基础设施的存在,数据就像土地、石油、煤一样,成为了DT时代的生产资料。为了利用好数据这一生产资料,发挥出数据的巨大价值,他号召在场的每一人学习小岗村的农民,做互联网时代地球村的“数据农民”。
“关于数据这件事情,大家都处于像中国三十年前改革开放的起点,不知道土地上种什么,种的东西不知道是谁拥有的。”王坚强调,“在座的各位有一次机会,我们一起为全世界做一次小岗村农民做的事情,思考如何让土地产生价值,如何让数据产生价值,并且产生的价值不会有纠纷,所有权清晰。这是数据产业非常重要的机会。”
王坚认为,当互联网变成基础设施、数据成为生产资料、计算成为公共服务的时候,所有的企业、所有的行业又站在同一条起跑线上:个人创业者的影响力可以和一万人的大公司影响力相比,而一万人的大公司又具备了小公司的灵活性。
说的这么好,如何才能成为数据时代的数据农民呢?据说下面这个叫做“数加”的家伙可以帮到你。
带你看懂全球首个一站式大数据平台“数加”
有人说,2016年才是真正意义上的大数据元年。这句话听着好熟悉……
在过去的5年里,全球大数据计算性能实现了超过20倍的增长,100TB数据排序时间由8274秒缩短到377秒。束缚大数据的技术瓶颈已经被完全打破,数据将从企业的成本中心转变为价值中心。
与此同时,IDC出版的数字世界研究报告显示,2013年人类产生、复制和消费的数据量达到4.4ZB。而到2020年,数据量将增长10倍,达到44ZB。大数据已经成为当下人类最宝贵的财富。但全球真正享受大数据红利的公司不足千分之一,人类已挖掘的数据财富更是不到百万分之一。
没错,这是一个人人都在谈大数据的时代,每年都谈,谈了好几年了,但是,真正在用大数据的却只有极少数人。为什么呢?说来话长,暂且不表。今天说一说,为啥2016才是真正的大数据元年,因为有了“数加”。
1月20日的云栖大会上海峰会上,阿里云宣布开放阿里巴巴十年的大数据能力,发布全球首个一站式大数据平台“数加”,首批亮相20款产品,覆盖数据采集、计算引擎、数据加工、数据分析、机器学习、数据应用等数据生产全链条。“这些技术至少领先业界三年”,阿里云大数据事业部资深总监徐常亮说。
这个平台承载了阿里云“普惠大数据”的理想——让全球任何一个企业、个人都能用上大数据。
开放、开放、开放,重要的事情说三遍
过去10年来,阿里巴巴积累了令行业艳羡不已的庞大数据,那就是一笔巨大的财富,就像煤炭一样,趴在你家山头下面。那么,突然有一天,你说大家都来一起开采吧,对外开放,情形会怎样呢?
“数加”就是要把阿里巴巴的大数据向外界开放。据了解,“数加”正在向有数据开发能力的外界的第三方团队开放,这些团队可入驻“数加”,借助数加上的工具为各行各业提供数据服务。
“这就像在淘宝开店一样,只是他们售卖的是专业能力。”徐常亮表示,阿里云计划用3年时间吸引1000家合作伙伴入驻,共同分享1万亿的大数据蛋糕。
借助大数据技术,阿里巴巴取得了巨大的商业成功。通过对电子商务平台上的客户行为进行分析,诞生了蚂蚁小贷、花呗、借呗;菜鸟网络通过电子面单、物流云、菜鸟天地等数据产品,为快递行业的升级提供技术方法。
在这些创新中,“数加”承载了阿里巴巴EB级别的数据加工计算,经历了上万名工程师的实战检验。大麦网是阿里云“数加”平台的尝鲜者。通过采用“数加”的推荐引擎,大麦网的研发成本从900人天降低到了30人天,效率提升了30倍。
大数据喊了那么多年,阿里云开始带大家真刀真枪地玩
“过去6年来,阿里巴巴巨大的战略投资就是放在云计算和大数据服务上。我们相信人类已经从IT时代在步入DT时代。”马云在2015年致投资者公开信中表示,“我们必须在数据技术的投入和发展上不惜一切的投入发展,我们正在努力让数据和计算能力成为普惠经济的基础。”
马云所说的DT技术正在通过“数加”变现,这个集成了人工智能、机器学习、智能语音等前沿技术的阿里云大数据平台,让没有足够技术实力的公司,也能实现从数据中提炼“石油”。
“未来3年,大数据市场规模将达到1万亿元。”阿里云总裁胡晓明在发布会上表示,基于阿里云大数据平台数加,将有千余家合作伙伴、万名首席数据官和5万数据科学家诞生,把中国大数据市场规模拓展至万亿规模。
“大数据”一词近年来在中国十分火热,但真正的数据技术和工具平台一直缺位。“中国的数据技术起步比硅谷晚,但我们看到互联网巨头们正在大量投入研发力量,来缩短差距。”Alliance Development Group分析师David Sullivan表示,以阿里巴巴为典型的中国互联网公司正在自己的商业场景中大规模使用数据技术,技术上与硅谷几乎没有差距。
在发布会上,阿里云提及去年年底刚刚刷新的一项世界纪录。在由数据库之父Jim Gray创办的排序基准评估竞赛Sort Benchmark中,阿里云把100TB数据的排序时间缩短到了377秒,打破了此前由雅虎、微软、斯坦福大学等公司与机构保持的纪录。
“数加”教你一星期做出双11同款大屏
去年双11,北京水立方的那块巨大无比的直播大屏幕,想必大家都在新闻报道的配图里见过了吧,实时展现阿里巴巴整体交易数据,可视化效果,绝对震撼。想不想也来一块?
“数加”之后,中国的县长们也能实现这样的可视化管理了。云栖大会上海峰会上,阿里云发布了一款针对中国县域经济的数据应用产品,能让每个县域的管理者实时的了解区域的经济态势、产业特点、内需消费等关键数据的走势,为政府决策提供支持,堪称“师爷”。
据了解,这款命名为“郡县图治”的产品,使用了阿里云DataV数据可视化技术做支撑,将为3000余个县域政府定制可视化经济云图。今后,县域经济的决策者办公室里,可能将出现这样一块大屏,上面的每一个数字的跳动都实时反映着当地县域经济的发展态势,县长们也不用再从厚厚的定期报表中探寻经济发展的脉搏。
开发这样一款”酷炫“的大屏需要多久?只要一周!阿里云工程师介绍,这款产品无需进行任何的编程,只需进行简单的部署、参数设置、数据连接,便可让枯燥的统计数据直观的呈现出来,帮助县域经济决策者们快速发现问题作出决断。
“我们希望通过数加的发布,让政府、企业、个人都能享受到大数据的红利
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21