
优步向大数据公司的方向迈进_数据分析师
我坐在位于旧金山主街(Main Street)的办公室里写这篇专栏文章。当我完成后,我会返回位于里士满区(Richmond District)的家,带上一些行李直奔旧金山国际机场,从那里飞往肯尼迪国际机场,我在纽约曼哈顿中城订了酒店,在曼哈顿要参加10个会议,之后要到FAO Swartz玩具店给我的孩子们挑些礼物,然后再从肯尼迪国际机场搭乘航班回家。
全世界只有四个人/公司随时都能知道我的位置:我的妻子(因为我会告诉她)、苹果(因为Siri)、美国国家安全局(因为它是美国国家安全局),现在还有优步(Uber)。
这是因为优步提供的服务是如此方便,而且对我的生活来说日益必不可少,优步知道我的住处,我的工作地点,我去哪儿吃饭,我的出行地,我在哪儿停留,以及我在什么时候做了所有这些事情。
我不再只是一个乘客或旅行者。我是一个大数据的金矿,而且,生怕你没注意到这一点,优步还拿出了镐。
今年,我们将看到优步转变为一家和谷歌(Goolge)、Facebook以及维萨卡(Visa)一样的大数据公司——使用它们了解的有关你我的大量信息打造新的服务,并通过向其它公司销售这些数据以产生营收。
喜达屋(Starwood)只是个开始
最近,优步推出了一个服务,可让顾客将自己的优步账户关联至其喜达屋优先顾客(Starwood Preferred Guest)账户。顾客可获得的好处:在使用优步服务时可以获得积分。交换条件?顾客允许优步与喜达屋分享自己所有的优步出行信息。是的,我说的是“所有的”信息。看看这个截屏:
让人不寒而栗?或许吧。很有价值?当然了——对于优步、喜达屋甚至对我来说都是如此。我每月一次坐飞机前往西雅图的办公室——优步知道这个情况,因为他们把我送到旧金山国际机场,几个小时后又到西雅图塔科马机场接我。之后优步把我送到西雅图的凯悦酒店(Hyatt),这时,某个地方的喜达屋营销团队的某个人会哭喊着跳起来采取行动。我是一名商务常旅客,也是喜达屋的会员,我只不过选择住在喜达屋之外的酒店,这让他们的营收受损。他们知道这个情况,因为优步知道,而在我知道他们知道之前,我会不断收到报价,以确保我下次来西雅图时选择喜达屋。
优步可以跟航空公司、餐厅、夜总会、酒吧等开展同样的合作——每次你使用优步从A点到达B点,“A”、“B”或两者均代表你的数据会有一个新的潜在客户。
不再有匿名的数据点
维萨卡、万事达卡(Mastercard)和美国运通(Amex)这些公司的所有部门,其唯一任务就是向任何会出钱的公司出售交易数据,这对任何人来说都不是新闻,这类数据绝大多数卖给了私募股权、对冲基金和投资银行,预计5年内将带来10亿美元的收入。区别在于他们去掉了所有个人身份识别信息(PII),而只出售集合信息——在他们眼里,“你”不是你。优步的优势在于,优步用户在一眨眼间,只需点击一下按钮,就能用自己的PII换取额外积分或里程——这是一个巨大的成功。即使你没有提交自己的PII,优步仍有机会得到同样的非PII集合数据。
略有讽刺的是,优步不久前的一轮融资中,有位投资者能够使用从大型信用卡网络获取的信用卡数据来了解优步的增长到底有多快(传言称年增长800%),并确定投资这一估值420亿美元的公司是不是一笔好的交易。
哪些地方热门,哪些地方不
优步知道热门的夜总会、最好的餐厅,最明显的是,现在它掌握的有关交通模式的数据跟Waze一样多(Waze恰巧与当地政府交易数据)。将优步的数据与顾客为了换取好处而愿意交出的非常私人的数据结合起来,这意味着优步能够成为,并且在朝着成为大数据公司的道路上前进。这项业务决不可能像他们的核心业务一样重要,但会对营收做出重大贡献。
现在,如果他们使用我的数据以及我即将到来的结婚纪念日为我预订一间人气很高的新餐厅,可以欣赏优美的现场音乐并来接我和我妻子,我甚至有可能考虑把我的社保号码也提供给他们。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14