
为什么说大数据一定会从ABC里最先掉队
人工智能(AI),大数据(big data)和云计算(cloud computing)三大技术被认为是当今互联网争夺的关键点。而三大技术中中争议最多的在于大数据技术,被夸大的效果和局限性的应用,很可能会让大数据成为ABC三大技术中最先掉队的一个。
ABC的格局
2010年,工业和信息化部与国家发改委联合发布《关于做好云计算服务创新发展试点示范工作的通知》,云计算元年开启。
2013年,阿里巴巴副总裁徐子沛提出该年当属中国大数据元年,而这一观点也得到了业界的普遍认同。
人工智能元年?没有人知道什么时候会到来,但是总有一天会爆发。
云计算技术从一点孤星闪烁,到如今万家灯火通明的局面。云计算产业的拉动已经造就了多个大型互联网企业的再次爆发,强如软件巨头微软也已经在近几年全力转型云计算并且大获成功,Azure也让这家称霸互联网超20年的巨头绽放了第二春。而即便是没有入局云计算的企业,也多为云计算技术的受益者。可以说云计算的力量在如今已经达到了鼎盛,而且未来依然有发展的空间。
发展人工智能几乎成为互联网行业的口号
人工智能技术一直被认为是离现实颇远的一种,但是2016年,谷歌用一盘棋把世人惊醒,原来悄然发展的AI智慧程度已经达到了如此的境界。从监督学习到自主学习,人工智能的发展就像坐了火箭一样不断攀升,能够涉足的领域也日益增多,而更可怕的还在于,人工智能现如今的状态远谈不上成熟,未来第一大技术送给人工智能相信不会有太多人质疑。
相比之下,大数据就面临了一个很尴尬的局面。起步虽说比云计算略迟,但好在发展够迅猛,在去年大数据风头正劲,阿里云方面提出2016年是万亿大数据产业元年,各类大数据处理平台、处理技术纷纷呈现,大数据产业在各个行业应用,乍看之下并不存在任何问题。
但大数据的发展虽然足够强悍,却远不能与AI和云计算相提并论。就像BAT三巨头中,百度虽强,可与阿里腾讯毕竟不是同一等级的体量。
大数据的欢乐soon
大数据产业的爆发速度可谓极快。从2013年进入我国到现如今的万亿产业,这一技术用短短的几年迅速抢占热点并且发展成为全行业所关注的焦点,不可谓不成功。而大数据的成功有其必然性,也有时势造英雄的运气。
大数据:先有云算后有天
大数据的成功与云计算发展后计算力的提升有直接关系。大数据的第一特点就是大,大数据的大通常会被人误解,于是小学生统计苏轼诗词短短几十万字都敢称为“大数据”实在是贬低了这一技术。“大”的特点是要大到用常规手段无法统计的程度,而常规手段无法统计就需要借助云的力量,计算力的提升的大数据进行的基础保障。
帮助数据变废为宝。大数据直接解决的一个问题就是企业的废弃数据问题。在大数据技术出现前,数据的重要性就已经引发了企业的重视,但问题在于,数据分拣和处理技术不足,企业空有数据却不能转化为生产力和收益点,而数据存储成本又高,只能遗弃。大数据成果解决了这一点难题,帮助企业把自己原有的金子擦去灰尘,绽放光彩。
顺风顺水的大数据遇到了好时机
大数据遇到了开放的市场。这一点或许普通用户很难意识到,但相比之下,中国的市场是全球最有活力的市场,也是最大度的市场。我国的市场复杂程度较高,因此往往能够予以新生技术发展的土壤,大数据在我国的迅速开展也得到了政策和技术的多层面的保障。
政策支持提供通道,云计算帮助提供基础,市场需求提供养料,大数据迅速发展达到巅峰。但是,这并不代表大数据的问题可以就此掩盖,相反,越是不被注意,大数据的隐患就越根深蒂固。
君有疾,不治恐深
扁鹊见蔡桓公的时候,一在腠理,二在肌肤,三在肠胃,都有法可医,但蔡桓公不听,直到神仙难救,是有救而不自救。而大数据的问题显然没有那么深,但却同属于越拖越差的顽疾。
大数据的顽疾一:大数据价值被夸大,投入产出比远不能让人满意。这一点顽疾是典型的人祸,换句话说就是有小部分的大数据企业正在败坏大数据的行业形象。大数据的应用确实可以达到提升企业业务效率和决策效率的目标,但远没有部分企业所吹嘘的那么神。
不仅摇不到钱,还得砸钱
大数据并不是摇钱树,绝不能秒用变现。相反,大数据是一个变现较慢的技术,从大数据部署应用到影响决策,从决策部署实施到产生效果,整个流程周期很长而且变现效果未必就能尽如人意。高昂的投入,被吹的天花乱坠的预期,和平庸甚至让人失望的结果,三者的夹击下企业能对大数据还剩下多少好感呢?
大数据的顽疾二:对药不对症,低端难生存。大数据产业虽然现如今在进行全面化、全产业的推广,但不可忽视的一点就是,大数据对低端产业并不友好。这一点并不难理解,低端产业数据量本身并不大,分析需求低,分析结果对企业的指导意义也小,因此需求度本就低。
有钱自己搞,没钱我不要
而高端产业中,真正有需求的企业往往可以自成一脉。比如像阿里、腾讯此类巨头企业,数据量过大,数据需求旺盛,因此不太可能选择不同的大数据产品——一为数据安全,二为长期打算。所以,此类企业自己研发大数据技术或产品会更合适,而这种各自为战的局面就可能造成大数据行业最不愿看到的情况,孤岛化产生。
采据东篱下,悠然见难关
大数据的顽疾三:数据采集难度被低估。这种问题是来自两个层次的,第一层面是技术提供方的低估,许多大数据产业的技术提供方都会侧重于大数据的处理、管理和分析等流程,而在数据采集方面只是进行简单的埋点等代码方式解决。这种方法在互联网行业可以一用,但在大数据推广到其他行业之后就会受到严重的限制。
数据采集:要钱还是要全
在非互联网行业数据采集时,企业往往会选择易采集的数据,并非全面数据,这就是第二层问题,采集成本的限制。要收集多角度全面化的数据就需要增加采集投入,而不增加就会造成数据分析准确性降低,增加则可能让效益成本比更低,两难的境地让大数据颇为尴尬。
大数据的顽疾四:隐私与安全成枷锁。如果只是采集到数据就能一次性的使用,那么成本的投入也属于可接受范围。但问题在于,大数据的流动性较强,数据变化频繁,普通的数据一般三个月就会面临失效和滞后,而重新采集时则会面临全新的局面。
盼我疯魔,还盼我孑孓不独活
同时,大数据在频繁和多次采集时隐私问题就成为无法避免的一环。强如谷歌搜素采集用户数据也需要用户同意才能进行,但不同意的用户怎么统计呢?这一大类用户会不会成为导致“幸存者偏差”的一环呢?但如果强行获取这部分用户的数据,这些数据的所有权是谁的呢?
而且,一旦涉及用户隐私直接相关的就是安全问题。企业采集到用户的数据建立大数据库,大数据库价值斐然是黑客攻击的焦点,而一旦数据失窃,到时候受伤最直接的却并不是企业而是用户,又有哪家企业能够确保自家的数据库绝对不会泄露数据呢?
大数据恐不再“大”
大数据的这些顽疾存在已经有一定的时间了,但真正付诸解决,获得成效的颇为少见。随着大数据在不同行业的深入开展,大数据的问题还会持续揭露,届时是否能够提供能解决问题的方案将有可能关乎大数据的未来发展。
DT时代数据依然为先,但可能不大了
在DT时代,数据量依然在爆炸呈指数型增长,每个用户、每个企业都能产生大量的数据,而数据的处理手段也在不断的“傻瓜”化,便捷化。每个人都能应用数据,都能处理数据,这一点相信一定会在技术的研发中实现,但问题在于,这些数据真的对每个人都有价值吗?
一个企业可能花费数十万把整个公司近十年的数据拿来分析一遍,然后交给决策者,决策者看后欣然决定:“没错,我们下一步要做人工智能!人工智能一定能赚钱!”但是,这些决策真的需要大数据来提供帮助吗?即使这家企业确实做了人工智能,也实现了增长,那么功劳真的应该归给大数据吗?这家公司能称之为数据驱动型增长企业吗?
大数据目前面临的就是一个这样的问题,砸出去的是真金白银,收回来的却只是却只是一群可能有用的信息。信息是无价的,观点是无价的,但这个无价也可能真的就是一文不值。
大块头才要大数据
大数据在未来依然会强大,依然会是政府、公共事业、交通、航天等各种大型机构的必需品。可是对于普通企业以及普通员工来讲,一张Excel表格也许就能解决问题,那么何必非要动用“核武”级别的大数据处理技术呢?在未来,数据依然重要无比,企业产生数据,分析数据,运用数据,可数据处理将会趋向常规化,而不会像大数据一样轰轰烈烈。
未来,ABC之中的Big Data可能会卸下Big的头冠,给Data让位。数据才是大数据的核心,也是发展的核心,但这一切还需要考虑企业能否接受,和是否需要。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13