
大数据:大量商业价值被浪费
我们都知道使用大数据非常的有前途,然而基于当下的许多因素,数据的有效利用仍然是个瓶颈。药物研发过程中,数据的使用多于化学过程;新能源的探测中,数据的使用超过地质学;恐怖分子的追踪、预防欺骗中同样如此。
现在我们已经认识到的上述的这些问题和其它一些全局性问题,都是数据使用的瓶颈所造成的。这种情况催生了大数据上的海量投资,而数据工作同样成为了最热门的岗位 —— 数据科学家,更把私人数据分析服务提供商的估值推到数十亿美元。然而,你能想象到将分析的数据从1%提升到100%的前景吗。
对已有数据分析的见解
如果你拥有一个和人类基因一样庞大的数据集,你该如何开始?比如,奥巴马最近提倡对人类大脑进行绘制?为了突破,我们需要解决这个世界上最复杂的问题,我们需要根本上改变从数据中获取知识的途径。这里我们必须首先思考的是:
从查询开始必然是一个死胡同:查询本身并没有问题。事实上一旦你知道问什么问题,查询是至关重要的。同样这也是关键所在:从查询开始的初衷是从大量的数据中发现一个指针,然而他们并未做到。
数据是有开销的:大部分情况下,数据的储存已经不再昂贵。而且通过使用类似Hadoop或Redshift的工具,即使查询大量的数据都变得非常划算。当然,这只是从硬件的角度上讲。
见解就是金钱:我们愿意承担花销唯一理由就是数据中的见解可以释放价值。遗憾的是,我们失去了已收集数据中大部分的价值。虽然收集数据的成本可能会很高,但是无效分析带来的成本显然更高。当下并不存在什么工具可以直接从数据中提取见解,我们依赖着非常聪明的人去提出假设,然后使用我们的工具去证实(或者是否定)这些臆测。因为依赖的是臆测,这个途径存在着天生的缺陷。
你已经拥有了足够多的数据:这里经常存在的信念就是 ——
“如果我们拥有了足够多的数据,我们肯定会得到我们想要的。”太多的时间和精力被浪费在新的数据收集上,其实你可以用你手中的数据做更多的事情。举个例子,Ayasdi最近在Nature
Scientific Reports公布的从12岁乳腺癌患者身上获得的新见解,就已经被深入分析了10多年之久。
大数据只是起步,并不是终点
经常会听到我们在癌症研究、能源勘探、药物发现、金融欺诈检测等领域取得了关键性突破,如果因为炒作出来的“大数据泡沫”导致人们因为各种原因在数据分析投资上的失败,这与犯罪又有何不同?
所以我们需要给予数据分析更高的期望,我们更需要认识到下一代解决方案必须满足:
授权领域专家:数据科学家出现的频率已完全跟不上企业的需求。这里不妨这么做,停止继续为他们(数据科学家)开发工具;取而代之的是,给商业用户(生物学家、地质学家、安全分析师等)开发对应的工具。他们比任何人都明白问题出现的环境,但可能跟不上最新的技术或数学。
加速探索:我们需要更快的获得关键见解。事实证明大数据技术的处理速度并没有承诺的那么快。如果一直这样发展下去,可能我们永远都得不到足够快的关键见解获得速度,因为我们永远都不可能针对所有数据提出所有的问题。
人机整合:为了更快的获得见解,我们需要加大对机器智能的投资。我们需要机器能在数据点之间寻求连接和关系时担当更多的重任,让其给商业用户一个更好的起点去探索见解。事实上通过算法途径解决这些问题是完全可行的,并且人们本身永远都不可能发现大型数据集上的显著特征。例如在最近的一项研究中,通过算法查询网络搜索引擎日志发现了之前未报告过的药物副作用。
分析各种形式的数据:当然,研究人员需要分析结构化和非结构化的数据。同样我们需要认识非结构化数据的多样性:所有语言、声音、视频和面部识别文档。
当谈到大数据演变,我们只处于其初级阶段。显而易见如果我们继续分析百分之一的数据,那么我们只能挖掘其1%的价值。如果我们能够分析其它的99%,那么想象一下我们可以从各种方面推动世界进步。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29CDA 数据分析与量化策略分析流程:协同落地数据驱动价值 在数据驱动决策的实践中,“流程” 是确保价值落地的核心骨架 ——CDA ...
2025-08-29CDA含金量分析 在数字经济与人工智能深度融合的时代,数据驱动决策已成为企业核心竞争力的关键要素。CDA(Certified Data Analys ...
2025-08-28CDA认证:数据时代的职业通行证 当海通证券的交易大厅里闪烁的屏幕实时跳动着市场数据,当苏州银行的数字金融部连夜部署新的风控 ...
2025-08-28PCU:游戏运营的 “实时晴雨表”—— 从数据监控到运营决策的落地指南 在游戏行业,DAU(日活跃用户)、MAU(月活跃用户)是衡量 ...
2025-08-28Excel 聚类分析:零代码实现数据分群,赋能中小团队业务决策 在数字化转型中,“数据分群” 是企业理解用户、优化运营的核心手段 ...
2025-08-28CDA 数据分析师:数字化时代数据思维的践行者与价值推动者 当数字经济成为全球经济增长的核心引擎,数据已从 “辅助性信息” 跃 ...
2025-08-28ALTER TABLE ADD 多个 INDEX:数据库批量索引优化的高效实践 在数据库运维与性能优化中,索引是提升查询效率的核心手段。当业务 ...
2025-08-27Power BI 去重函数:数据清洗与精准分析的核心工具 在企业数据分析流程中,数据质量直接决定分析结果的可靠性。Power BI 作为主 ...
2025-08-27CDA 数据分析师:数据探索与统计分析的实践与价值 在数字化浪潮席卷各行业的当下,数据已成为企业核心资产,而 CDA(Certif ...
2025-08-27t 检验与 Wilcoxon 检验:数据差异比较的两大统计利器 在数据分析中,“比较差异” 是核心需求之一 —— 如新药疗效是否优于旧药 ...
2025-08-26季节性分解外推法:解锁时间序列预测的规律密码 在商业决策、资源调度、政策制定等领域,准确的预测是规避风险、提升效率的关键 ...
2025-08-26CDA 数据分析师:数据治理驱动下的企业数据价值守护者 在数字经济时代,数据已成为企业核心战略资产,其价值的释放离不开高 ...
2025-08-26