京公网安备 11010802034615号
经营许可证编号:京B2-20210330
数据分析师的新发现:数据应用催生商业模式
与点击广告相比,Jeff Hammerbacher相信,数据应用能够催生更多更好的商业模式。
H= Jeff Hammerbacher Cloudera创始人
C= CBNweekly
C:你的数据挖掘工作始于华尔街投行Bear Stearn,那是怎样一份工作?
H:当时我是固定收益部的数据分析师,主要处理有关债权、抵押以及其他金融衍生工具的事务。我为交易员清理外汇期权的电子数据表。清除完成后,我还要通过复杂的随机微分方程把定价引擎应用到这些期权上。
后来我得根据金融产品价格变动,维护它的固定收入的期限结构模型。期限结构模型是对收益率曲线发展的预测—很复杂的算法,每晚都得运行。我还开发了同步模拟通货膨胀的期限结构模型。
空下来的时候,我会去维基百科管理一下上面的答案。现在我是Quora的活跃分子,就知识交换而言,Quora比维基好得多。
C:从你的工作经历来看,你怎么看待数据应用这个问题?
H:我不是很了解许多大机构的宏伟目标,我只能谈谈我的领域。在我开始为数据应用做贡献前,还有一大堆的知识等着我去消化。我一直试图找出更简洁和更准确的模型来处理那些被筛选出来的重要信息。
曾有一件事,让我真正明白了数据管理和复杂模型的价值。有天,我们丢失了路透社有关交易所的数据反馈,所有的活动都被迫停止。但是负责数据反馈的那个工程师却外出午饭去了,在他回到座位之前,我们完全束手无策。那时我觉得,没有可靠的数据结构,华尔街赚不了钱,不管它有多少数学博士。
还有另外一件事情让我感到复杂模型的局限性。当时我们的一位交易员决定在某个金融产品上停用我们的模型,原因是模型预测的价格和其他交易员预测的价格有很大差异。这让我明白,所有的模型都必须考虑它所针对的金融工具的背景信息。
C:后来你去了Facebook,还组建数据团队,工作性质变了吗?
H:2006年,我以研究科学家的身份进入Facebook。就在我加入的前几个月,Facebook聘请了他们第一位分析总监。他搭建了Facebook第一个数据库,加入后的头几个月我都在帮他干这个活。同时,我也会负责一些数据分析项目,尤其是分析在News Feed功能和开放注册推出之后网站访问量的增长情况。
几个月之后,我便清楚我们的增长速度将使得我们的数据结构超出任何当时的商业软件处理能力,于是我便向我的老板,Facebook的CTO Adam D'Angleo建议,我们要有自己的、由结构工程师和研究科学家组成的数据团队。我深刻地觉得,这两种人一起工作对于开发早期数据结构软件太重要了。
此后,我的工作主要就是在世界范围内招聘最出色的数据结构工程师,一起去证明我们的远见。
C:你在那些数据挖掘里发现了什么?
H:这工作感觉太棒了:News Feed发布之后的第二天简直就是疯狂的一天。一整天我都在把Facebook的流量数字更新给马克·扎克伯格,佐证他当时的直觉—不管当时的新闻报道如何唱衰,News Feed对于用户来说会是个好东西。最让我兴奋的还要数推出平台的那天。在接下来的那个星期,我第一次明白Facebook会成功的,就像它今天一样的成功。
然而最棒的时刻,是我们终于可以把软件进行开源的那?天。
C:但你后来又离开了,还说“最聪明的人都在让人们把注意力转到点击广告上,真糟糕”。你为什么会这么想?
H:正确的引用应该是:我一代中最聪明的人都在想着怎么让更多人点击广告,这真是糟糕透了。这很容易理解:在线广告已经成为了过去十年财富创造最可靠的来源。把消费者和销售者配对起来,以及创造新的消费者和销售者,这对于任何市场来说都是最重要的问题。在线浏览和在线购买都变得非常容易估量。当你有估量方法,你就可以研究科学。在这种情况下,我这一代中最聪明的人则在推动科学的前?进。
但不幸的是,我人生中大部分有朝一日可以被解决的问题,都不会因更精准的广告而迎刃而解。我不确定如何整合我们的社会,才能让致力于解决长期挑战的人觉得自己得到了应得的回报,但是这是一个值得问出口的问题。
当然,广告之外现在已经有了大量的其他数据应用,我现在就能脱口而出那些公司的名字:GitHub让开发开源软件变得更容易;Kickstar让项目可以更快地获得资金支持;Rock Health和Imagine K-12在教育和资助下一代创业公司应该把更多目光投向医疗和教育领域的实际问题;Sage Bionetworks正在创造一个软件和数据的共享仓库,帮助疾病模型的建立和药品的开发;EyeWire用众包的方式研究大脑结构。有一些在线广告公司已经开源了工具包,比如Facebook的Open Compute项目就是其中很有意思的一个。
C:你现在工作的Cloudera有什么不一样?
H:Cloudera的特别之处在于,我们的软件可以和任何形式、任何规模的数据匹配,并且是开源的。我们希望可以在数据分析的基础上创造更为开放的平台。
我们的主要产品是Cloudera Enterprise,它是我们的资产管理软件Cloudera Manager最重要的组成部分。它的销售一路走红,让我们得以从小团队成长为200多人的公司,到今年年底可能会超过300人。做一个开源软件还能赚钱是一个让人兴奋的事情。最近我们新增了一些企业用户功能,比如可以让企业把被毁灭的数据恢复过来。
Cloudera更让人兴奋之处在于,许多公司的成功是建立在我们所提供的平台之上,投资我们的Accel公司很看好这个平台,它催生机遇,目前Accel在各种大数据领域的公司里投资了将近1亿美元。
C:你在硅谷看到数据挖掘的趋势是什么?
H:数据收据和数据挖掘最有趣的部分仍然发生在互联网公司之内,广告是构成这类公司营收最重要的部分。然而,在过去的几年里,这些公司当中有的已经成功地把开源工具商业化,创造了其他高收益的商业模式。我希望未来几年,会有更多的革新出现在这些公司里。
现在发生了很多有趣的事情。在人工智能方面,许多算法已经被隐藏到了开源软件平易近人的交互界面之下,比如Scikit-Learn,它能让用户很方便用各种模型做试验;还有像Vowpal Wabbit、Kaggle等等。
浏览器已经成为了数据可视化最棒的平台。JAVA Script, HIML5和WebGl,还有像D3和Crossfilter等实验室都让数以亿计的数据互动性更强、更可视化。当数据可视化在浏览器上实现了以后,合作将变得更便利,并随之催生出更多让人兴奋的新技术和工具。
我可以说出许多在数据搜集方面很有意思的工具:LearnStructure、SchemaDictionary、密歇根大学开发的Fisheye,还有斯坦福和伯克利大学合作研发的一个叫Data Wrangler的工具。
C:你现在怎么看待数据的价值?
H:我深信科学是社会一切美好事物的伟大来源。数据则是被科学管理着的世界的代表,因此收集越多的数据,我们就有能力做更多的科学研究。在广告于过去十年变得无比成熟的同时,许多产业甚至还没有进入数字时代。其中最突出的是医疗产业。我并不认为医疗产业在2030年还会如今天的情况一样驻足不动。在Cloudera,我们已经有了许多来自医疗行业的客户,同时我也希望我们能在这个进程中保持领先地位,因为医疗数字化这一天一定会到来。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在回归分析中,因子(即自变量)的筛选是构建高效、可靠回归模型的核心步骤——实际分析场景中,往往存在多个候选因子,其中部分 ...
2026-04-13在机器学习模型开发过程中,过拟合是制约模型泛化能力的核心痛点——模型过度学习训练数据中的噪声与偶然细节,导致在训练集上表 ...
2026-04-13在数据驱动商业升级的今天,商业数据分析已成为企业精细化运营、科学决策的核心手段,而一套规范、高效的商业数据分析总体流程, ...
2026-04-13主讲人简介 张冲,海归统计学硕士,CDA 认证数据分析师,前云南白药集团资深数据分析师,自媒体 Python 讲师,全网课程播放量破 ...
2026-04-13在数据可视化与业务分析中,同比分析是衡量业务发展趋势、识别周期波动的核心手段,其核心逻辑是将当前周期数据与上年同期数据进 ...
2026-04-13在机器学习模型的落地应用中,预测精度并非衡量模型可靠性的唯一标准,不确定性分析同样不可或缺。尤其是在医疗诊断、自动驾驶、 ...
2026-04-10数据本身是沉默的,唯有通过有效的呈现方式,才能让其背后的规律、趋势与价值被看见、被理解、被运用。统计制图(数据可视化)作 ...
2026-04-10在全球化深度发展的今天,跨文化传播已成为连接不同文明、促进多元共生的核心纽带,其研究核心围绕“信息传递、文化解读、意义建 ...
2026-04-09在数据可视化领域,折线图是展示时序数据、趋势变化的核心图表类型之一,其简洁的线条的能够清晰呈现数据的起伏规律。Python ECh ...
2026-04-09在数据驱动的时代,数据分析早已不是“凭经验、靠感觉”的零散操作,而是一套具备固定逻辑、标准化流程的系统方法——这就是数据 ...
2026-04-09长短期记忆网络(LSTM)作为循环神经网络(RNN)的重要改进模型,凭借其独特的门控机制(遗忘门、输入门、输出门),有效解决了 ...
2026-04-08在数据分析全流程中,数据质量是决定分析结论可靠性的核心前提,而异常值作为数据集中的“异类”,往往会干扰统计检验、模型训练 ...
2026-04-08在数字经济飞速发展的今天,数据已渗透到各行各业的核心场景,成为解读趋势、优化决策、创造价值的核心载体。而数据分析,作为挖 ...
2026-04-08在数据分析全流程中,数据处理是基础,图形可视化是核心呈现手段——前者负责将杂乱无章的原始数据转化为干净、规范、可分析的格 ...
2026-04-07在数据分析与统计推断中,p值是衡量假设检验结果显著性的核心指标,其本质是在原假设(通常为“无效应”“无差异”)成立的前提 ...
2026-04-07在数字经济深度渗透的今天,数据已成为企业生存发展的核心资产,企业的竞争本质已转变为数据利用能力的竞争。然而,大量来自生产 ...
2026-04-07Python凭借简洁的语法、丰富的生态库,成为算法开发、数据处理、机器学习等领域的首选语言。但受限于动态类型、解释性执行的特性 ...
2026-04-03在深度学习神经网络中,卷积操作是实现数据特征提取的核心引擎,更是让模型“看懂”数据、“解读”数据的关键所在。不同于传统机 ...
2026-04-03当数字化转型从企业的“战略口号”落地为“生存之战”,越来越多的企业意识到,转型的核心并非技术的堆砌,而是数据价值的深度挖 ...
2026-04-03在日常办公数据分析中,数据透视表凭借高效的汇总、分组功能,成为Excel、WPS等办公软件中最常用的数据分析工具之一。其中,“计 ...
2026-04-02