
大数据商业的未来
最近几年可以看到,从软件开源到数据开放的运动正在兴起。开放主要追求自由、平等、责任和乐趣。但目前在美国有很多关于数据开放的争议,比如什么样的数据应该开放,开放到什么程度,究竟开放原始数据还是开放经过加工和解读过的数据……
可以看出,数据和信息的发展驱动着管理决策的发展,管理层也在不停地演变。
1970年代,赫伯特·西蒙提出,由于人们在决策过程中的理性是有限的,所以需要用计算机支持决策系统,帮助决策者扩大理性范围。此时出现了IBM研究员发明的关系型数据库——这种数据库结构化高、独立性强,之后出现了大型的信息管理系统。随着1980年代数据仓库的出现,数据挖掘开始兴盛,沃尔玛“啤酒+尿布”的故事是人们经常说到的案例。1990年代初,令人震惊的联机分析开始出现,这种分析方法可以从任何一个角度把数据切片化。然后就是商务智能。联机分析是对数据透视性的探测,可以通过“X光”从任何角度对数据做切片分析,数据挖掘就好比挖山凿矿性开采,而商务智能就是对未来的预测。
之后就是数据可视化,用图形表示数据和思想。如果不能把数据图像化,就无法理解它的最深层意思。数据可视化包括数据整合、分析、挖掘,最后到展示。
每一轮经济浪潮都是由几个主题引领的。在美国,一度是一系列诸如IBM、微软这样的IT公司,到后来的诸如Google等一系列的互联网公司,然后就是类似Facebook这样的社交网络,这些主题引领着美国经济的发展,大数据有望引领自从IT与互联网泡沫以来的下一轮经济增长浪潮。中国将成为全球最重要的大数据市场,很多中国的着名互联网公司已经开始在大数据上布局。
趋势与特征
大数据时代的产业发展有三个趋势:应用软件将泛互联网化、行业将垂直整合、数据将成为资产。
泛互联网化是收集数据的重要渠道,没有泛互联网化的软件,公司就难以获得用户的行为数据。随着行业的垂直整合,企业通过搜集大量的用户数据,可以更贴近用户,更理解用户,为用户提供更适用的服务。谁离客户越近,谁就在产业链上的话语权就越高,谁的数据价值就越高。数据将成为一种资产,将有可能取代石油成为全球最大的交易商品。
海量、增值、全息可见、融合复用是新媒体时代大数据的四大特征。并不是所有的数据都同样有价值,只有能带来编增值数据才是有意义的。大数据的融合和可流转性将是大数据时代真正发挥数据价值最核心的要求。如果数据不能够在企业和社会之间流动,那数据将变成一个个的信息孤岛而封闭存在,无法发挥最大的价值。所以,数据的交叉复用以及可流转性是大数据发挥巨大商业价值的前提。
新媒体时代,数据总量正在发生巨大变化。现实中,信息量在增加,但消费者个体却面临着信息过窄的问题,消费者的分析处理、筛选、过滤信息的能力并没有得到提高。另一方面,数据形态也在变化,从结构化向半结构化、非结构化方向发展,也从单渠道开始向多渠道方向发展。跨屏所产生的数据结合了互联网和移动互联网的数据,都在催生着移动互联网的发展。
方向与新商业模式
个性化是大数据精细化和融聚力的一个发展方向。
用户的信息饥渴感在与日俱增,希望利用碎片化的时间获得有价值的信息。但同时,用户对非关联信息的容忍度却在与日俱减,用户变得越来越不耐烦,如果推给他不相关的广告信息是他不想要的,用户体验会迅速下降。而在用户兴趣数据与日俱增的同时,用户甄别信息能力占比却在与日俱减。
从2B到2C到2D是面向数据的新商业模式。在美国,诸如Google、微软、亚马逊、苹果这样的公司已经建立了一个大数据平台。大数据平台建立起来后,一定是希望这些数据能够有效地在数据需求方之间进行流转。比如,可以供诸如北大、清华,南开等科研机构获取到能够用来做深度研究的原始数据。
而个人用户和个人终极应用开发者也需要平台上的数据流转。美国政府把机场飞机晚点的数据开放出来后,有的开发者就开发了一个应用,直接接到大数据平台把数据调出来,可以帮助每一个想坐飞机的人在下雨、下雪、天气好或不好的时候,不同航空公司在这个机场的晚点率是多少。比如,三角洲航空公司在下雨天的晚点率是78%,美联航的是率65%,方便旅客预估到达的时间。
未来挑战
大数据和新媒体都面临着未来的挑战。
挑战之一就是构建完整的消费者兴趣图谱,基于这个可以精准发现不同的用户有着不同的兴趣。
打通互联网和移动互联网的数据是另一个挑战。几个月以前在美国有一家公司,它仅仅是通过一种基于互联网和移动互联网的算法,就能够有效预测用户在移动互联网上的行为。这家公司靠这个理论和实践获得了600万美元的A轮融资。
从电子商务到社交媒体,再到移动互联网,我们看到了大量个性化的技术和商业应用的兴起。如今,企业的CMO们都关注怎样才能更有效、更精准地找到自己的目标客户群。也许你知道你的广告投入要有50%,但却不知道是哪50%。新媒体时代的大数据环境下,能够非常精准地定位每一个广告投入点,能够基于用户行为进行预测。如果能够把广告变成有用的信息,那么用户就不再不喜欢广告了。
最后一个挑战就是用户隐私法律的完善。如何定义用户隐私,也是最近很多企业和媒体正在关注的问题。如果说用户隐私是根据一些信息,根据某个数据能够帮助用户准确地标识出现实世界中唯一的某一个个体,比如他的姓名、电话、身份证号,这些属于信息隐私。如果根据这些数据无法标识出来具体人,其实这并不构成用户隐私。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14