京公网安备 11010802034615号
经营许可证编号:京B2-20210330
在大数据概念下,美国视频网站Netflix豪赌1亿美元制作的连续剧《纸牌屋》迅速走红。这让国内视频网站蠢蠢欲动。
数据的力量能否指导他们自制剧的拍摄?
爱奇艺数据研究院院长葛承志告诉记者,爱奇艺目前正在筹拍三部网络剧,而选择这三个热门的网络小说题材,统统是基于大数据分析。
在此基础上,爱奇艺每天会收集网站上产生的用户行为:包括用户会在哪里暂停、回放、快进等,如果大量观众都在某一个节点做了快进或者回放的动作,爱奇艺就能判断用户喜欢或讨厌的桥段,并以此指导自制剧的生产。
此外,爱奇艺还会搜集用户在网站上的收视行为,根据这些行为将用户进行分类和画像,并据此进行针对性的广告投放。
即便如此,葛承志坦言,网络剧的成功与题材本身、剧本以及精良的制作分不开,不能过度夸大数据所产生的影响力。况且在实际操作中,国内视频网站的主要盈利模式还是广告,用户的付费习惯尚未养成,这就意味着很难完全让用户去决定影视剧的演员、导演、剧本。另一厢,大数据的挖掘、建模和分析门槛,依然很高。
大数据的两个维度
《21世纪》:眼下,大数据是个非常火热的概念。爱奇艺在大数据方面目前有哪些研究与进展?
葛承志:爱奇艺对于大数据的研究主要是两方面。
一是大数据的内容如何为用户服务。对用户来讲,我们的终极目标是让用户看到他想看的,而不必从一堆内容挑选他想看的。我们通过对个人的收视习惯的分析,智能推荐他所感兴趣的内容。
此外,大数据也在为内容生产提供一些帮助,传统影视在制作的时候,更多关注的是大的题材本身和剧本本身的撰写,包括导演、演员的使用。到了互联网的时代,我们甚至可以用其中的一个情节或综艺节目的一个桥段来进行分析,用户对该情节的观看量是高还是低,从而得出用户的喜好,来指导更细的一些操作。
除了用户的纬度,大数据的另一个纬度是如何服务广告主,即帮助广告客户找到适合的受众人群,或找到他的消费者及他的潜在消费者,甚至帮助客户找到他竞争对手的消费者,并对消费者进行营销。比如,通过和百度的合作,我们能够获知观看视频的用户过去都在百度上搜索过哪些内容,从而在次基础上进行广告推送。
《21世纪》:众所周知,Netfilx推出的《纸牌屋》是大数据运用在视频网站上的一个成功典型。那么在自制剧大热的当下,爱奇艺是否也通过大数据分析来指导自制剧的题材?
葛承志:对于《纸牌屋》这部剧,Netflix之所以把它包装成一个大数据成功的典范,核心目的是Netflix需要把自己和传统的影视剧制作公司,如HBO等区别开来。
他需要宣传出自己的特色,这个特色就是互联网大数据的特色。
其实仔细分析一下,这部剧最引人入胜的地方应该还是这个题材本身和剧本。某种程度上,《纸牌屋》的成功是题材和编剧的成功,与大数据、导演、演员等关系不是特别密切,因此,我们应该客观看待《纸牌屋》的成功和大数据在影视创作中所起的作用。
当然,大数据确实能帮助我们来分析什么样的题材是用户关注的,感兴趣的。爱奇艺本身也用大数据来挖掘题材。我们现在已经开机拍摄的三部网络剧,实际上就是基于互联网的数据分析。这三部作品来自国内知名的网络小说,不管线上的阅读还是线下的销量,这三部小说都是关注度非常高的。在这个基础上,我们果断地购买了版权,将其转化为电视剧搬上荧幕。此外,哪些演员具有比较好的口碑,演员和电视剧题材间关联度,都需要我们利用大数据进行分析。
《21世纪》:在影视剧或综艺节目的采购方面,爱奇艺是如何进行数据分析?
葛承志:在影视剧采购方面,我们背后有一套大数据的分析流程。通过对以往类似的题材、类似的编剧、类似的导演、类似的演员所演出的剧,在爱奇艺上的播放量,我们来推测即将采购的电视剧在未来可能产生播放成绩,从而评估这个剧是否值得购买。
很多影视剧在发售的时候,其实还没有拍完,甚至一些比较热门的剧还没有开拍,只有一个剧本的时候就开始卖。作为视频网站,我们肯定要有一个相对准确的分析和预测,从这个角度讲,我们的历史数据能帮很大的忙。
用户画像的价值
《21世纪》:在广告推送方面,你们是怎么样通过数据分析来进行人群的定位和画像的?
葛承志:在广告推送上,我们近两年开发了不少产品。举一个简单例子,如果你最近一个月在百度上搜过宝马汽车,当你来到爱奇艺看任何一个内容的时候,我都知道你曾经搜索过宝马汽车,我就可以给你投放宝马的广告,当然也可以投放奔驰的广告。这就是一搜百映这个产品的核心价值。
我们今年还开发出了一款叫做追星族的产品,众所周知,很多明星都有自己的粉丝群,比如说邓超的粉丝会看邓超相关的广告,也会看邓超的电视剧和电影,甚至可能还会看和邓超相关的综艺节目。当我们捕捉到用户有这样多重收看的行为,我们就会把他定义为邓超的粉丝。紧接着,我们就会向他投放由邓超代言的广告。
总体来说,用户的信息分为两大类,一是用户的自然数据,比如性别、年龄、地区等;另一类是他在互联网上的行为数据,包括他的搜索行为、收视行为等。我们认为用户的行为数据比他的自然数据更加重要。
《21世纪》:那么,爱奇艺目前把用户分为几大类,或是为用户贴了多少种标签呢?
葛承志:标签肯定会有几百个,因为这其中有不同的层面。比如说,我们根据百度的搜索数据,可以给他打上他喜欢不同种类的消费品的标签。比如这个人喜欢汽车,那个人喜欢保健养生,另外一个人喜欢美丽护肤等,这是按照他的兴趣和关注的领域来贴的一种标签,这样的标签可能有几十个,甚至上百个。
另一种标签是关于用户喜欢看何种类型的影视剧。有的用户喜欢枪战类的题材,有的用户喜欢美剧,还有用户喜欢爱情片等等。这个系列的标签可能又有几十个。
除此之外,还有和用户追星相关的标签,比如这个人喜欢邓超,那个人喜欢孙红雷。这些标签被分为不同的维度,每个维度下都有几十个甚至上百个标签。一些用户同时可以贴五六种标签,也就是说,他其实适合五六种不同类型的广告。
《21世纪》:在用户分类的基础上,广告主一般会如何选择受众进行投放呢?
葛承志:通常来说,如果是美容日化、食品饮料等大众消费品行业,广告主不会只挑一类用户,而是会挑好几类标签的用户。但如果你是一个高端品牌,或是针对特定人群的产品品牌,比如你是卖服务器的,那么你的受众对象肯定不是普通老百姓。能够有服务器采购需求的,可能也就那么几万人,几十万人。这时,广告主需要把几类标签叠加,找出重合部分的人,这些用户会很有价值。因此,如何投放广告和品牌所处的行业及他的受众范围有着密切关系。
优酷投奔阿里的大数据视角
《21世纪》:爱奇艺目前的大数据分析方式,你觉得准确率高吗?
葛承志:这个不能一概而论。举个例子,就节目采购而言,通过历史的流量数据来推断国内电视剧的热度,目前的准确率大概可以达到80%以上。这一块数据分析的规律性还是比较强的,因此准确度比较高。
对于一些海外剧,我们更多会看它在海外的播出情况,主要是收视率和它在海外社交媒体上传播的状况。通过海外播出情况能够预测在国内的播出情况,但因为各地区文化不太一样,也有30%的可能会有意外。像我们今年年初播出的《来自星星的你》这部韩剧,它在韩国播出的热度远远没有在国内高。
综艺节目的情况和电视剧还不太一样。由于这些年综艺节目不断推陈出新,热点切换得非常快。前两年火的是歌唱选秀类的节目,去年开始又是亲子类的节目,今年又成了明星真人秀类的节目。这种新的题材更加考验我们对于数据系统的分析,因为这些题材没出现过,没有历史数据积累,分析这方面就有一定难度。我们也会参考类似的节目在海外的播出情况,来进行预测。这方面我们还在不断积累经验。
《21世纪》:你认为,在大数据的挖掘和运用方面,视频网站面临的主要挑战是什么?
葛承志:目前比较大的挑战是,视频网站所能覆盖的用户行为,相对还是在一个有限的范围内。或者说,视频网站主要覆盖的是用户的休闲时光。那么用户在非休闲娱乐的时候,他在工作中、购物中的时候,他的兴趣爱好、消费习惯,作为一个视频网站是无法获取的。
这也是为什么爱奇艺是百度的子公司,而阿里入股了优酷。
你会发现这些视频网站,多多少少和BAT有关。因为从视频网站本身的角度,我们也需要更多层面的用户数据。换言之,大数据的核心目的是描绘用户,我们在描绘一个人的时候你不能只对他的一个方面了解透彻,你必须在各个方面都对他有所了解。这是视频网站在大数据方面的一个挑战,目前大家都在着力去解决这个问题。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16在机器学习无监督学习领域,Kmeans聚类因其原理简洁、计算高效、可扩展性强的优势,成为数据聚类任务中的主流算法,广泛应用于用 ...
2026-04-16在机器学习建模实践中,特征工程是决定模型性能的核心环节之一。面对高维数据集,冗余特征、无关特征不仅会增加模型训练成本、延 ...
2026-04-16在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15在企业数字化转型、系统架构设计、数据治理与AI落地过程中,数据模型、本体模型、业务模型是三大核心基础模型,三者相互支撑、各 ...
2026-04-15数据分析师的一天,80%的时间花在表格数据上,但80%的坑也踩在表格数据上。 如果你分不清数值型和文本型的区别,不知道数据从哪 ...
2026-04-15在人工智能与机器学习落地过程中,模型质量直接决定了应用效果的优劣——无论是分类、回归、生成式模型,还是推荐、预测类模型, ...
2026-04-14