京公网安备 11010802034615号
经营许可证编号:京B2-20210330
本篇将一共呈现硅谷四大不同类型的公司如何玩转大数据,其中包括了著名FLAG中的三家(Apple在大数据这块来说表现并不突出)。
本篇内容来自对 Evernote AI 负责人 Zeesha Currimbhoy、LinkedIn 大数据部门资深总监 Simon Zhang、前 Facebook 基础架构工程师 Ashish Thusoo 和 Google 大数据部门一线工程师及 Google Maps 相关负责人的专访。Enjoy~~
Evernote:今年新建AI部门剑指深度学习
Evernote的全球大会上,CEO Phil Libin提到,Evernote的一个重要方向就是“让Evernote变成一个强大的大脑”。要实现这个目标,就不得不提他们刚刚整合改组的Augmented Intelligence团队(以下简称AI team)。我在斯坦福约到AI team的manager Zeesha Currimbhoy,在此分析一下从她那里得到的一手资料。
是什么?
今年早些时候,这个2岁的数据处理团队改组为由Zeesha带领的Augmented Intelligence team,总共十人不到,很低调,平日几乎听不到声响。他们究竟在做什么?
与我们常说的AI(artificial Intelligence)不同,Evernote的团队名叫做Augmented Intelligence,通常情况下简称为IA。Zeesha显然是这个团队里元老级的人物:“我是在2012年加入Evernote的,直接加入到了当时刚刚建立的数据处理团队,这也就是现在AI team的雏形。我们最开始的项目都是简单易行的小项目,比如按照你的个人打字方式来优化用户的输入体验。”
传统意义上的AI指的是通过大量数据和算法让机器学会分析并作出决定。而这里讲到IA则是让电脑进行一定量的运算,而终极目的是以之武装人脑,让人来更好的做决定。这两个概念在具体实施中自然有不少相通之处,但是其出发点却是完全不同的。
这个区别也是Evernote AI team的亮点所在。作为一个笔记记录工具,Evernote与Google之类的搜索引擎相比,最大的区别就是它非常的个人化。用户所储存的笔记、网站链接、照片、视频等都是他思维方式和关注点的体现。
从哪来?
Zeesha小组的初衷便是,通过分析用户储存的笔记来学习其思维方式,然后以相同的模式从第三方数据库(也就是互联网上的各种开源信息)抽取信息推送给用户,从而达到帮助用户思考的过程。从这个意义上讲,Zeesha版的未来Evernote更像是一个大脑的超级外挂,为人脑提供各种强大的可理解的数据支持。
目前整个团队的切入点是很小而专注的。“我们不仅仅是帮助用户做搜索,更重要的是在正确的时间给用户推送正确的信息。”
实现这个目标的第一步就是给用户自己的笔记分类,找到关联点。今年早些时候,Evernote已经在Mac的英文版上实行了一项叫做“Descriptive Search”的功能。用户可以直接描述想要搜索的条目,Evernote就会自动返回所有相关信息。
例如,用户可以直接搜索“2012后在布拉格的所有图片”,或者“所有素食菜单”。不管用户的笔记是怎样分类的,Decriptive Search都可以搜索到相关的信息并且避免返回过大范围的数据。而这还仅仅是AI team长期目标的开始,这个团队将在此基础上开发一系列智能化的产品。
到哪去?
不用说,这样一个新创团队自然也面临这诸多方面的挑战。当下一个比较重要的技术难点就是Evernote用户的数据量。虽然Evernote的用户量已经达到了一亿,但是由于整个团队的关注点在个人化分析,外加隐私保护等诸多原因,AI team并没有做跨用户的数据分析。
这样做的结果就是团队需要分析一亿组各不相同的小数据组。比如,假设我只在Evernote上面存了10个笔记,那Evernote也应该能够通过这些少量的数据来分析出有效结果。当然,这些技术的直接结果是用户用Evernote越多,得到的个性化用户体验就越好。长期来讲,也是一个可以增加用户黏性的特点。
不过Zeesha也坦言:“的确,我们都知道没有大数据就没有所谓的智能分析。但是我们现在所做的正是在这样的前提下来找到新的合适的算法。”她并没有深入去讲目前团队所用的是什么思路,但是考虑到这个领域一时还没有很成功的先例,我们有理由期待在Zeesha带领下的Evernote AI team在近期做出一些有意思的成果。
Facebook:大数据主要用于外部广告精准投放和内部交流
Facebook有一个超过30人的团队花了近4年的时间才建立了Facebook的数据处理平台。如今,Facebook仍需要超过100名工程师来支持这个平台的日常运行。可想而知,光是大数据分析的基础设施就已经是一个耗时耗力的项目了。
Facebook的一大价值就在于其超过13.5亿活跃用户每天发布的数据。而其大数据部门经过七八年的摸索,才在2013年把部门的key foundation定位成广告的精准投放,开始建了一整套自己的数据处理系统和团队。并进行了一系列配套的收购活动,比如买下世界第二大广告平台Atlas。
据前Facebook Data Infrastructure Manager Ashish Thusoo介绍,Facebook的数据处理平台是一个self-service, self-managing的平台,管理着超过1Exabyte的数据。公司内部的各个部门可以直接看到处理过的实时数据,并根据需求进一步分析。
目前公司超过30%的团队,包括工程师、Product Managers、Business Analysts等多个职位人群每个月都一定会使用这项服务。这个数据处理平台的建立让各个不同部门之间可以通过数据容易地交流,明显改变了公司的运行方式。
追溯历史,Facebook最早有大数据的雏形是在2005年,当时是小扎克亲自做的。方法很简单:用Memcache和MySQL进行数据存储和管理。很快bug就显现了,用户量带来数据的急速增大,使用Memcache和MySQL对Facebook的快速开发生命周期(改变-修复-发布)带来了阻碍,系统同步不一致的情况经常发生。基于这个问题的解决方案是每秒100万读操作和几百万写操作的TAO(“The Associations and Objects”) 分布式数据库,主要解决特定资源过量访问时服务器挂掉的bug。
小扎克在2013年第一季度战略时提到的最重点就是公司的大数据方向,还特别提出不对盈利做过多需求,而是要求基于大数据来做好以下三个功能:
发布新的广告产品。比如类似好友,管理特定好友和可以提升广告商精确投放的功能。
除与Datalogix, Epsilon,Acxiom和BlueKai合作外,以加强广告商定向投放广告的能力。
通过收购Atlas Advertising Suite,加强广告商判断数字媒体广告投资回报率(ROI)。
LinkedIn:大数据如何直接支持销售和变现赚钱
LinkedIn大数据部门的一个重要功用是分析挖掘网站上巨大的用户和雇主信息,并直接用来支持销售并变现。其最核心团队商业分析团队的总监Simon Zhang说,现在国内大家都在讨论云,讨论云计算,讨论大数据,讨论大数据平台,但很少有人讲:我如何用数据产生更多价值,通俗点讲,直接赚到钱。
但这个问题很重要,因为关系到直接收入。四年半前LinkedIn内所有用户的简历里抽取出来大概有300万公司信息,作为销售人员不可能给每个公司都打电话,所以问题来了:哪家公司应该打?打了后会是个有用的call?
销售们去问Simon,他说只有通过数据分析。而这个问题的答案在没有大数据部门之前这些决策都是拍脑袋想象的。
Simon和当时部门仅有的另外三个同事写出了一个模型后发现:真正买LinkedIn服务的人,在决定的那个环节上,其实是一线的产品经理,和用LinkedIn在上面猎聘的那些人。但他们做决策后是上面的老板签字,这是一个迷惑项。数据分析结果出来后,他们销售人员改变投放策略,把目标群体放在这些中层的管理人身上,销售转化率瞬间增加了三倍。
那时LinkedIn才500个人,Simon一个人支持200名销售人员。他当时预测谷歌要花10个Million美金在猎聘这一块上,销售人员说,Simon,这是不可能的事。
“但是数据就是这么显示的,只有可能多不会少。我意识到,一定要流程化这个步骤。”
今天LinkedIn的“猎头”这块业务占据了总收入的60%。是怎么在四年里发展起来的,他透露当时建造这个模型有以下这么几个步骤:
分析每个公司它有多少员工。
分析这个公司它招了多少人。
分析人的位置功能职位级别一切参数,这些都是我们模型里面的各种功能。然后去分析,他们内部有多少HR员工,有多少负责猎头的人,他们猎头的流失率,他们每天在Linkedin的活动时间是多少。
这是LinkedIn大数据部门最早做的事情。
Simon告诉36氪,公司内部从大数据分析这一个基本项上,可以不断迭代出新产品线LinkedIn的三大商业模型是人才解决方案、市场营销解决方案和付费订阅,也是我们传统的三大收入支柱。事实上我们还有一个,也就是第四个商业模型,叫“销售解决方案”,已经在今年7月底上线。
这是卖给企业级用户的。回到刚才销售例子,LinkedIn大数据系统是一个牛逼的模型,只需要改动里面一下关键字,或者一个参数,就可以变成另一个产品。“我们希望能帮到企业级用户,让他们在最快的速度里知道谁会想买你的东西。”
虽然这第四个商业模式目前看来对收入的贡献还不多,只占 1%,但anyway有着无限的想象空间,公司内部对这个产品期待很高。“我还不能告诉你它的增长率,但这方向代表的是趋势,Linkedin的B2B是一个不用怀疑的大的趋势。”Simon说。
Google:一个闭环的大数据生态圈
作为世界上最大的搜索引擎,Google和大数据的关系又是怎样的呢?感谢微博上留言的朋友,这可确实是一个很有意思的议题。
Google在大数据方面的基础产品最早是 2003 年发布的第一个大规模商用分布式文件系统GFS(Google File System),主要由MapReduce和Big Table这两部分组成。前者是用于大数据并行计算的软件架构,后者则被认为是现代NOSQL数据库的鼻祖。
GFS为大数据的计算实现提供了可能,现在涌现出的各种文件系统和NOSQL数据库不可否认的都受到Google这些早期项目的影响。
随后2004和2006年分别发布的Map Reduce和BigTable,奠定了Google三大大数据产品基石。这三个产品的发布都是创始人谢尔盖-布林和拉里-佩奇主导的,这两人都是斯坦福大学的博士,科研的力量渗透到工业界,总是一件很美妙的事。
2011年,Google推出了基于Google基础架构为客户提供大数据的查询服务和存储服务的BigQuery,有点类似于Amazon的AWS,虽然目前从市场占有率上看与AWS还不在一个数量级,但价格体系更有优势。Google通过这个迎上了互联网公司拼服务的风潮,让多家第三方服务中集成了BigQuery可视化查询工具。抢占了大数据存储和分析的市场。
BigQuery和GAE(Google AppEngine)等Google自有业务服务器构建了一个大数据生态圈,程序创建,数据收集,数据处理和数据分析等形成了闭环。
再来看Google的产品线,搜索,广告,地图,图像,音乐,视频这些,都是要靠大数据来支撑,根据不同种类数据建立模型进行优化来提升用户体验提升市场占有率的。
单独说一下Google maps,这个全球在移动地图市场拥有超过40%的市场占有率的产品,也是美国这边的出行神器。它几乎标示了全球有互联网覆盖的每个角落,对建筑物的3D视觉处理也早在去年就完成,这个数据处理的工作量可能是目前最大的了,但这也仅限于数据集中的层面。真正的数据分析和挖掘体现在:输入一个地点时,最近被最多用户采用的路径会被最先推荐给用户。
Google还把Google+,Panoramio和其他Google云平台的图片进行了标记和处理,将图片内容和地理位置信息地结合在一起,图像识别和社交系统评分处理后,Google能够把质量比较高的的图片推送给用户,优化了用户看地图时的视觉感受。
大数据为Google带来了丰厚的利润,比如在美国你一旦上网就能感觉到时无处不在的Google广告(AdSense)。当然,它是一把双刃剑,给站长们带来收入的同时,但如何平衡用户隐私的问题,是大数据处理需要克服的又一个技术难关,或许还需要互联网秩序的进一步完善去支持。
像在【上篇】中所说,除Facebook等几个很领先的公司外,大部分公司要么还没有自行处理数据的能力。最后附上两个例子,想说这边的大公司没有独立大数据部门也是正常的,采取外包合作是普遍现象:
Pinterest:
Pinterest曾尝试自行通过Amazon EMR建立数据处理平台,但是因为其稳定性无法控制和数据量增长过快的原因,最终决定改为使用Qubole提供的服务。在Qubole这个第三方平台上,Pinterest有能力处理其0.7亿用户每天所产生的海量数据,并且能够完成包括ETL、搜索、ad hoc query 等不同种类的数据处理方式。尽管Pinterest也是一个技术性公司,也有足够优秀的工程师来建立数据处理团队,他们依然选择了Qubole这样的专业团队来完成数据处理服务。
Nike:
不仅仅硅谷的互联网公司,众多传统企业也逐渐开始使用大数据相关技术。一个典型的例子就是Nike。Nike从2012年起与API服务公司Apigee合作,一方面,他们通过Apigee的API完善公司内部的数据管理系统,让各个部门的数据进行整合,使得公司内部运行更加顺畅、有效率。另一方面,他们也通过API开发Nike Fuel Band相关的移动产品。更是在2014年开启了Nike+FuelLab项目,开放了相关API,使得众多的开放者可以利用Nike所收集的大量数据开发数据分析产品,成功地连接了Nike传统的零售业务,新的科技开发,和大数据价值。
转自:大数据中国
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15在企业数字化转型、系统架构设计、数据治理与AI落地过程中,数据模型、本体模型、业务模型是三大核心基础模型,三者相互支撑、各 ...
2026-04-15数据分析师的一天,80%的时间花在表格数据上,但80%的坑也踩在表格数据上。 如果你分不清数值型和文本型的区别,不知道数据从哪 ...
2026-04-15在人工智能与机器学习落地过程中,模型质量直接决定了应用效果的优劣——无论是分类、回归、生成式模型,还是推荐、预测类模型, ...
2026-04-14在Python网络编程、接口测试、爬虫开发等场景中,HTTP请求的发送与响应处理是核心需求。Requests库作为Python生态中最流行的HTTP ...
2026-04-14 很多新人学完Python、SQL,拿到一张Excel表还是不知从何下手。 其实,90%的商业分析问题,都藏在表格的结构里。 ” 引言:为 ...
2026-04-14在回归分析中,因子(即自变量)的筛选是构建高效、可靠回归模型的核心步骤——实际分析场景中,往往存在多个候选因子,其中部分 ...
2026-04-13在机器学习模型开发过程中,过拟合是制约模型泛化能力的核心痛点——模型过度学习训练数据中的噪声与偶然细节,导致在训练集上表 ...
2026-04-13在数据驱动商业升级的今天,商业数据分析已成为企业精细化运营、科学决策的核心手段,而一套规范、高效的商业数据分析总体流程, ...
2026-04-13主讲人简介 张冲,海归统计学硕士,CDA 认证数据分析师,前云南白药集团资深数据分析师,自媒体 Python 讲师,全网课程播放量破 ...
2026-04-13在数据可视化与业务分析中,同比分析是衡量业务发展趋势、识别周期波动的核心手段,其核心逻辑是将当前周期数据与上年同期数据进 ...
2026-04-13在机器学习模型的落地应用中,预测精度并非衡量模型可靠性的唯一标准,不确定性分析同样不可或缺。尤其是在医疗诊断、自动驾驶、 ...
2026-04-10数据本身是沉默的,唯有通过有效的呈现方式,才能让其背后的规律、趋势与价值被看见、被理解、被运用。统计制图(数据可视化)作 ...
2026-04-10在全球化深度发展的今天,跨文化传播已成为连接不同文明、促进多元共生的核心纽带,其研究核心围绕“信息传递、文化解读、意义建 ...
2026-04-09在数据可视化领域,折线图是展示时序数据、趋势变化的核心图表类型之一,其简洁的线条的能够清晰呈现数据的起伏规律。Python ECh ...
2026-04-09在数据驱动的时代,数据分析早已不是“凭经验、靠感觉”的零散操作,而是一套具备固定逻辑、标准化流程的系统方法——这就是数据 ...
2026-04-09长短期记忆网络(LSTM)作为循环神经网络(RNN)的重要改进模型,凭借其独特的门控机制(遗忘门、输入门、输出门),有效解决了 ...
2026-04-08在数据分析全流程中,数据质量是决定分析结论可靠性的核心前提,而异常值作为数据集中的“异类”,往往会干扰统计检验、模型训练 ...
2026-04-08在数字经济飞速发展的今天,数据已渗透到各行各业的核心场景,成为解读趋势、优化决策、创造价值的核心载体。而数据分析,作为挖 ...
2026-04-08在数据分析全流程中,数据处理是基础,图形可视化是核心呈现手段——前者负责将杂乱无章的原始数据转化为干净、规范、可分析的格 ...
2026-04-07