京公网安备 11010802034615号
经营许可证编号:京B2-20210330
企业大数据建设案例分享
大数据的重要性已毋庸置疑,但大数据的采集、存储、处理、分析、研究,却不是一朝一夕炼成的!数据平台如何建设,推荐系统如何运算,等等,都是我们所关注的话题。2013年7月27日,CTO俱乐部走进了腾讯大讲堂,来自迅雷、腾讯和桉树的三位讲师齐聚一堂,分享了各自的大数据实施案例。
首先,迅雷基础研发中心数据平台技术总监陈仕明,主要从三个方面介绍了“迅雷数据平台建设及应用案例”。
中型数据平台
数据平台可以分成中型数据平台和大型数据平台,中型数据平台的主要特点是服务器资源、技术储备和人员都比较有限。迅雷的数据分析模块目前有500多台服务器,4000多个CPU,存储20P以上的数据,磁盘有3000多块,属于中型数据平台的规模。
迅雷的大数据架构
中型数据平台主要是基于开源已有的存储和计算,做一些更上层的外延性的产品。
第一层是采集,采集分成实时采集和离线采用集,其中离线采集占了业务的大部分,主要用迅雷自己开发的Xrsync工具实现。有些数据需要涉及到实时计算,会同步发,存起来之后ETL计算全部用开源计算框架。实时采集主要是采集日志文件,这种日志文件主要对应业务服务器里边所生成的日志。
数据存储之后,依然是一个物理模型,为了降低维护成本,需要把技术人员的工作尽量抽出来,让其他岗位比如数据分析师做更多的事情。这就需要把底层数据抽象为业务人员理解的数据模型,抽完之后在最下边做了维护平台,以及报表系统,还有自主查询。
最右边有两块,一块是认证与授权,从上到下所有东西都需要经过认证和授权,作为一个公司级集中式的存储平台,每个部门存储都会在这儿做,所以你必须保障数据安全和资源合理分配。迅雷的平台认证,全部采用kerberos认证。数据存到HDFS上之后,会给每一个业务,或者每个产品,开辟一个kerberos帐号,所有帐号的数据都只能放在这个帐号的home里去,包括这个帐号的Hive或者HBase都存在该目录下,并控制存储空间。
另一块是事件驱动调度:首先,任务的依赖关系用数据打通。任务和任务之间的依赖关系其实质是任务背后的数据之间的依赖关系,某一个数据跑成功了之后依赖该数据的任务才能跑。
其次,需要把后置依赖前置改成前置驱动后置,前置任务跑成功了之后,将该任务对应的“数据事件”扔到调度总线里面去,由总线把需要依赖这个“数据事件”的其他任务调起来,当然该任务能够立即跑,还要考虑到底层计算引擎目前的负载等情况。
上图是调度引擎大体的架构:最核心部分是调度总线,数据分为是Task和Job,Task维护计算逻辑,如执行的SQL脚本等;Job维护调度逻辑,如依赖什么“数据事件”, 一个Task可以配置多个Job。最左边是Web接口,前端通过该接口查询任务状态,以及控制任务等。最右边是计算环境的适配层。
数据平台使用案例
迅雷会把收集来的数据做成数据模型,最重要的数据模型是一个用户事件模型,所有的基于用户端的这种行为数据,都可以把它抽象成模型存进去,这个模型用一句话概括就是,谁对谁的什么东西做了什么事情?
这个模型拥有很多纬度,如产品纬度,用户纬度,时间纬度,客户纬度、地域纬度,运营商纬度,终端纬度,渠道纬度,事件纬度等。
这个模型能做什么:简单的比如每个产品的上线用户数,每个用户的活跃度,用户的黏性,以及某个产品的用户的地域分布,运营商分布等,活跃用户排名,最热的资源排名,如哪些电影是最常看,发生某个事件所消耗时间是多少,或者某个商品的销售收入等。
迅雷还构建了一个用户的染色库,迅雷拥有几亿的用户,但是这些用户各有什么样的特征?比如是联通用户还是电信用户,还是某个小运营商的用户?还有兴趣类标签,如游戏类标签,影视类标签等。游戏标签描述该用户喜欢什么类型游戏,影视类标签描述用户喜欢什么类型的影视;根据这些属性我们可以更好的为用户服务。
另外一个是资源的属性库。比如一个影视文件,在资源属性库拥有该文件对应的电影的名称,演员,以及电影类型等。
染色库和资源属性库的应用主要有:比如,可以计算视频指纹,根据两个视频指纹相似度计算这两部电影是不是一部电影。染色库还会应用在会员tips推广中,迅雷会弹一些tips,为了提高tips的效果,提高点击率,需要尽量精准的投放。另外在看看里边放广告的时候,也需要尽量的精准,不能最好不要把一个女性的产品,给一个男屌丝推,这样一般点击率会很差。
接下来,腾讯数据中心数据挖掘研究员肖磊,从业务的角度为我们介绍了腾讯的大数据应用之一精准推荐。他的演讲主要包括四个部分:
腾讯做了什么
2012年的时候,腾讯赞助了KDDCup主要做了两个事情,一个是微博上面的推荐,一个是广告的推荐。具体到产品上面,包括腾讯视频的推荐系统,易迅首页上的推荐,基于社交网络广告的推荐广点通,还有朋友关系链的推荐等。这些推荐都是通过分析腾讯8亿的活跃用户做出的。
遇到的问题
肖磊认为作为一个推荐系统,首先要处理好3P之间的关系。
首先是用户,其次是ITEM,第三是场景,针对不同的场景不同位置有不同的方法做应用。
解决之道——3S
分别是数据、算法和系统。这三个是相辅相成的。
会基于用户的基本信息和历史数据构建用户画像的体系,上图中提到推荐的解决之道中,数据是排在第一位的,因为数据是做好准确推荐的立根之本。
两大核心平台
有两大核心平台做这件事情,一个平台是分布式数据仓库TDW,它基于开源的Hadoop和Hive进行了大量优化和改造。第二个是一套实时推荐的平台——APOLLO,它有一些实时介入系统、流式计算系统、一个分布式的存储系统,同时还有一个很重要的推荐引擎。
8月30-31日,肖磊会在SDCC 2013(中国软件开发者大会)上担任演讲嘉宾,更多内容请关注大会官网。
最后,来自美国桉树系统公司大中华区认证讲师杨大江,带来了“合理利用桉树-Hadoop构建大数据平台”的演讲,主要介绍了如何结合云计算平台和桉树构建一个大数据系统。
桉树+Hadoop
桉树的架构主要分为三层:第一层叫云控制器;第二层是区域,桉树分了三个数据中心,每一个数据中心都是一个可用区域;第三层是大量的虚拟化,以虚拟化技术为核心的一个云体系,桉树的虚拟化支持多种技术。当构建一个大数据平台的时候,桉树和Hadoop一个是解决分的问题,一个解决合的问题。桉树是以虚拟化为核心的,解决虚拟化资源调度问题,它和一般的虚拟化有一定区别。一般虚拟机是把单机进行虚拟化,桉树考虑把整个集群虚拟化。
云计算有一个重要的思想,单节点是不可靠的,随时可扔。要靠一个软件系统保证集群,这两个系统结合优势构建大数据系统的优势主要有:
提升Hadoop部署速度
提供Hadoop高可用和容错能力
提升Hadoop环境资源利用率
安全隔离让Hadoop落地更安全
实现Hadoop云端多租户
集群易于维护和迁移
使用异构集群实现高密度存储和计算。
应用案例
这里介绍一个期货公司的案例,这个期货公司共分三个中心,一个镇江中心、一个郑州中心,还有一个天津中心。这家公司横跨了农产品建议和重金属交易行业。他们建立这个决策系统,是为了能够实时分析用户的交易行为,预测其结果,规避可能带给公司的风险。
这个系统整体叫做数据容器,也就是说这个平台将来不仅仅给自己公司用,而是通过API给各种客户端做使用。将来在云端开发各种数据应用,都可以直接调用。系统最上面用的都是桉树的产品。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27