今天不谈电商，只聊搜狐的大数据实践-CDA数据分析师官网

热线电话：13121318867

今天不谈电商，只聊搜狐的大数据实践

2017-06-03

今天不谈电商，只聊搜狐的大数据实践

整天看到、听到的都是各个电商企业的大数据实践，今天换个口味，聊聊互联网行业，谈谁呢？搜狐。虽然从业务线来划分，搜狐有焦点、搜狐汽车、畅言、说吧……，不过在笔者看来这些统一都可以归结为互联网，业务模式基本是服务读者，靠的是广告和内容。因此，如何精准地投放广告、推送内容就显得尤为关键，而这正是搜狐大数据所要做的。

按搜狐大数据平台负责人、研发中心高级经理、搜狐-英特尔联合创新实验室搜狐负责人彭毅的话说，随着大数据的热度越来越高，大家对数据的价值越来越重视，运用数据指导业务的发展，满足用户不断的新需要成为搜狐业务发展的新动力。在这样的背景下，搜狐成立了一个大数据项目小组，内部代号“大耳狐”。

据彭毅介绍，最开始他们做的主要是为了满足业务部门对于数据处理平台的计算需求，通俗地讲就是提供平台支撑。不过随着业务的不断发展，只做这些已经难以满足实际的业务需求，所以他们现在也在做更多的扩展，比如在满足底层平台技术和业务线需求的前提下，他们正在考虑深度学习方面的研究。

言归正传，还是从搜狐正式开始做大数据方面的工作，也就是大数据项目组的成立说起。从去年年初成立到现在不过一年多的时间，这一年彭毅和他的团队可以说做了不少工作，从搭建平台，包括技术选型（Hadoop、Spark等）、硬件选型到平台部署、应用调试。这其中，他们参考了很多像Facebook、推特等广泛使用大数据技术厂商所公开的一些资料，并最终在英特尔的协助下确定了现有的硬件选型，包括CPU型号、内存大小、硬盘个数、网络吞吐量等均做了权衡。

在此基础上，搜狐部署了其基于开源Hadoop版本做的搜狐自有的Hadoop平台。彭毅表示，在底层调优上，包括计算力的高效使用，以及如何在英特尔架构平台把性能发挥到极致，双方进行了非常深入的合作。目前，经过几次扩容升级，当前搜狐大数据平台已经有1000台物理机左右的规模，现有平台数据在30PB。

看得出大数据在搜狐内部需求的迅猛增长，在采访中，搜狐大数据平台核心技术人员、搜狐研发中心高级研究员王帅表示，他们每天产生的日志数据在20TB左右，产生的各种数据在60TB-200TB之间，虽然无法与BAT同日而语，但就整个业界平均水平而言，搜狐每天所产生的量是非常可观的，到这也就不难理解为什么他们在短短一年间就进行了几次扩容。

在采访中，王帅还特别举了一个大数据实际应用的例子，广告的精准投放。他说，用户在使用各种产品时会产生各种行为数据，比如点击了什么、浏览了什么、搜索了什么，这些数据可以实时收集，然后经过卡夫卡集群做中间的数据调度，再把它们导入Hadoop集群，业务部门根据收集回来的数据做精准计算，像用户画像之类的，然后根据结果反推，进行精准的广告投放。

看起来似乎并不难，其实并不容易，最简单地讲，每个用户每天的数据都在发生变化，所以每天都需要重新计算，这个计算量可想而知。当然，这只是其中一个方面，在谈到做大数据过程中所遇到的挑战时，彭毅也是百感交集。他说，几乎每一块，包括平台、软件、硬件、底层架构都可能遇到难题，比如搜狐遇到一个很实际的问题就是从旧有的Hadoop平台迁移到新的平台上，这其中他们费了不少力气。

而这其实也正是笔者相对即将应用大数据的用户所说的话，大数据应用绝对不是像很多人说说那么简单，做起来会涉及到方方面面的内容，所以选几个靠谱的合作商还是很有必要的。

最后分享一下搜狐大数据团队的人员构成，1000台机器的集群，猜猜有多少人？在维护这个平台的大概只有两三个人，总的项目组成员也不过十几个。据彭毅介绍，得益于英特尔的协助以及大耳狐平台的开发，他们只有十几个人就能完成这些研发、维护的工作。其中这十几个人中有一部分负责和大数据平台相关的维护工作，他们的职责是让整个集群的运维管理更智能化；另一部分主要是做Hadoop大数据相关的技术研究，包括兼容性、前瞻性（大数据技术的演进）等，还有最后一部分是面向用户的，如何更好地结合用户需求做一些优化、调整。

“通过使用我们的产品，为用户提供更为精准的内容，是作为搜狐这样一个媒体公司一直以来追求的目标”，彭毅这样总结他们大数据应用的目标。而这或许应该是大数据对所有用户的最终价值体现。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；