京公网安备 11010802034615号
经营许可证编号:京B2-20210330
透视优酷土豆的大数据工程_数据分析师
每个去视频网站看过视频的用户,都知道,在看完一个视频之后,会有相关的视频推荐,这个不足为奇的功能,就是大数据的体现,视频行业在不留意间早就成为了大数据的弄潮者。
琢磨用户喜欢什么样的视频,提高寻找内容的效率,这是大数据在视频行业应用的一个小小案例,本期《数读》聚焦视频行业,看大数据在视频中的数字游戏。优酷土豆集团CTO姚健向我们娓娓道来优酷土豆在大数据上的实践。
图:优酷土豆集团CTO姚健
推荐视频:看上去简单的高深应用
姚键是优酷土豆集团CTO,据他介绍,优酷新上线的首页页面上,光是导航栏上的视频分类就有21个,21个不同类型的内容,这意味着会有各种不同的用户来优酷看视频,要想给不同的用户推荐他们喜欢的视频,这靠的是一个叫做“协同过滤推荐”的技术。
百度百科上这样介绍协同过滤推荐(Collaborative Filtering recommendation):“是在信息过滤和信息系统中正迅速成为一项很受欢迎的技术。与传统的基于内容过滤直接分析内容进行推荐不同,协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。”
这是亚马逊、谷歌等互联网巨头都在使用的技术。亚马逊会告诉你“买了A商品的顾客也同时购买了B商品”,Youtube上,一个视频播放结束,马上就会出现相关推荐视频。
看上去简单的相关推荐,其实在优酷的视频推荐中涉及上百个参数,每次要调整参数,都要手动调整十几甚至几十个参数,每天推荐视频的数据模型中要涉及的数据高达几十亿。
一次小小的参数调整,带来的后果,可能是当天视频观看带来几百万的增长,也可能是在算法稳定后的未来几周,甚至几个月带来视频观看量的曲线变化。
当然,数字证实,通过这种协同过滤推荐给用户的视频是靠谱的,因为在海量的视频中寻找自己喜欢的视频成本是很高的,推荐视频的打开率也令人满意。
优酷土豆心中的“大数据”
数据的挖掘、分析,用在推荐视频上,还只是个小意思。优酷在2010年推出的“优酷指数”把大数据精神进一步强化,把视频播放周期、用户核心特征、用户播放行为、视频热度排行等数据进行展示。
姚键这样介绍优酷指数诞生的背景:“2010年的时候,优酷在PC互联网时代已经成为最有影响力的视频网站,优酷希望能够在行业内树立一个标杆,在强化优酷品牌的同时,也打造优酷指数这样一个概念。”
今年,优酷指数进而演变成“中国网络视频指数”,加入了土豆网以及移动客户端的视频数据,对数字感兴趣的用户,可以从这个指数里读出很多内容。
作为一款平台化的产品,“中国网络视频指数”在优酷土豆集团中的参考价值无处不在,从广告售卖,到版权购买,再到播放器产品的优化,等等,处处都能够作为指导依据。
据姚键透露,优酷土豆集团推出的数据报告给节目制作方、影视剧公司、第三方分析机构等了解视频节目的播放信息,以及观众人群的分析提供了依据;在广告销售方面,能够为广告主呈现出用户行为特征,提供广告投放价值的分析;在进行版权购买的时候,可以根据指数的走向来帮助决策;公司内部,哪怕是播放器产品的用户体验优化,都可以查看数据分析结果,查看按钮的摆放和使用频率等。
这些价值都是显而易见的,还有我们在表面看不到的,通过数据分析的结果来指导优酷土豆集团的自制内容。
“比如说优酷有很多自制的内容,有很多的微电影、综艺节目等等,这些播放数据可以显示出哪些题材是用户喜欢的,用户看到哪里就看不下去了,在哪里是拖放观看的,一系列的用户行为可以清晰地告诉内容制作人员,应该怎么去剪辑视频,怎么去选择内容题材。”姚键说。
其实这个过程也是对视频质量进行分析的过程,在优酷土豆的搜索、推荐中按照视频质量进行排序,反过来也提高了推荐成功率。
然而,大数据读出的数据,其指导意义还远不止此。
每部电影、电视剧在播出后都会有对应的数据,哪些演员受欢迎,哪些题材受追捧,通过分析数据就可以慢慢发现背后的原因,把这个受欢迎的故事讲出来,这就是可见的未来。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01