京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据应用之数据画像建设
大家经常听到一个词,叫做“画像”,结合具体对象就是:“用户画像”、“商品画像”、“产品画像”、“资产画像”、……。特别是大数据时代下,在实际企业中,利用大数据进行“画像”建设是企业经营的基础,建设企业竞争优势重要的工具之一,当然也是大数据在企业应用最价值重要的场景之一。
去评价一家企业数据化运营程度,或者说数据驱动程度,或者说是否是用“数据说话”。也许尝试问下面几个问题可以进行评估:
1、是否建设了“画像”?
2、“画像”体系构建程度,针对什么对象进行了画像。
3、如何应用已经构建好的”画像”,已经构建画像的各种标签与指标。
4、……
画像为什么对企业那么重要,如何进行画像建设,我会后续把相关经验分享给大家,这篇文本更多从一些案例,让大家对于用户画像建设有直接的感觉。
标签是画像建设的基础
画像的建设过程分成下面几部分:
在画像建设中,标签的构建是关键。本文重点来讲数据标签的建设。标签是各类数据指标结合具体的应用/业务场景来构建,如果没有应用场景构建出来的标签往往就很难“落地“。
我们下面讲二个案例来说明数据标签建设过程:
案例一:用户的商品价格偏好标签
某公司的业务团队想要了解用户的消费偏好是怎么样的。当业务团队说我们要构建用户消费偏好画像的时候,往往是指各种场景下用户是如何选择做出选择的,所以需要具体把偏爱画像拆分成几个不同数据标签:
我们以价格偏好为例,也就是说用户的在购物时候偏好于哪个价格带的商品。对于价格带的偏好,构建步骤如下:
取用户历史购买消费记录,统计用户历史购买商品的价格,然后对价格进行区间划分。看用户购买的价格带主要集中在哪个区间中(价格带偏爱应该是一个相对动态的标签,更新频率可能一个月需要定期更,而且选择的时间段也应该是过去某个时间,不应该选择过长时间段。大家想想为什么?)。如何进行价格区间划分?
方法一:按统计学的方法:
1、按分位数进行。例如:25%,50%,75%
2、按等箱原则。划分几等分
3、看数据的分布。
4、……
方法二:按业务知识经验
把价格带按业务经验,行业经验进行划分。
通过数据统计出来,我们可以看用户是否商品单价是否集中的某个区间范围内。例如,某用户购买的商品价格主要集中在30到40这个区间内,根据历史显示可以说,用户可能偏好于购买这个价格带的商品。当未来我们需要做促销商品推荐的时候,可以向该用户重点推荐打折后在这个价格区间的商品。
通过用户购买的价格区间,以及结合商品所归属的品类,可以看这个价格区间在这个品类中属于什么级别的。可以进一步给用户打上:注重品牌、注重高性价比等标签。
例如:如果某个品类商品的价格范围是(5,40],该用户购物商品主要集中(30,40]这个商品价格区间,用户在这个品类的消费上都是最高价格区间,说明这个用户在购买这个品类主要购买的高端商品。这样又可以为这个用户打上在这个品类的消费特征标签:品类高端用户。
案例二:用户流失概率标签
我们经常会听说一个数据: “养一个新客户的成本是维护一个老客户成本的5倍?在利润贡献方面,老用户更是新用户的16倍”
当然这个5倍更应该理解为期间,更应该理解为:相对争取一个新客,更应该花时间与精力在维护好一个老客上。为什么呢?(同学们一起思考一下) 做用户运营的同学对于流失用户主要痛点如下:
1、那如何去给用户打上流失概率的标签?
2、如何及时更新这个流失概率的标签?
3、什么时候应该开始需要给流失用户进行营销?
4、针对不同流失概率的用户是否要设计不一样的策略?
5、对潜在流失用户,应该设计什么样的策略?
6、对不同类型流失特征的用户,应该投入的成本多少?
7、…….
对于老客的维护,首先应该及时知道用户的流失概率多少?随时时间的推移流失概率是否有变动,特别是流失概率高的用户要及时进行营销避免真的流失。
流失概率用大数据中机器学习的方法预测,而且根据用户产生的行为可以实时去计算用户流失概率标签(用户的流失概率应该是动态,是否需要非常高的时效性,还要结合具体开发成本)。通知运营同学根据不同的用户特征,设计好营销策略。当用户满足相应条件时间,会自动促销相应的营销策略,这才是大数据应该有的场景。
我们如何给用户的流失概率打上标签呢?如果你的公司的业务比较稳定,公司的业务有一定周期(这个周期多长,要看你公司的业务模式,是对B还是对C),我们会使用机器学习/数据挖掘的方法来去计算这个概率是比较准确的,如果业务太新,数据积累太少建模型往往不是一个好的选择。
我们还是以电商为案例背景,这个公司的CRM团队,希望知道用户流失的概率,根据流失概率定期对相关的用户进行营销,降低用户的流失率。如何构建这个模型从而打上流失概率标签,主要步骤如下:
业务理解。与业务沟通分析流失用户特征,用户的生命周期定义。例如:多久没有和公司互动或者交易定义为休眼,多久没有交易认为是流失了。
业务分析。流失用户的可能的原因是什么,根据这些原因,相应去找到或者设计预期指标。例如:如果用户有过差评,流失可能性高。用户经常看到公司商品缺货,流失可能性高。
模型构建。设计流失用户的预测模型。根据之前的业务流程,业务知识的梳理,围绕用户设计一系列的指标,如下图所示,会从各个方面进行指标清洗,放到模型中建模。
本篇文章主要让大家对于数据画像建设有一个直观的感觉,后续的文章中,我们将逐一介绍数据画像更细看步骤和过程。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05数据治理是数字化时代企业实现数据价值最大化的核心前提,而CDA(Certified Data Analyst)数据分析师作为数据全生命周期的核心 ...
2026-03-05在实验检测、质量控制、科研验证等场景中,“方法验证”是确保检测/分析结果可靠、可复用的核心环节——无论是新开发的检测方法 ...
2026-03-04在数据分析、科研实验、办公统计等场景中,我们常常需要对比两组数据的整体差异——比如两种营销策略的销售额差异、两种实验方案 ...
2026-03-04在数字化转型进入深水区的今天,企业对数据的依赖程度日益加深,而数据治理体系则是企业实现数据规范化、高质量化、价值化的核心 ...
2026-03-04在深度学习,尤其是卷积神经网络(CNN)的实操中,转置卷积(Transposed Convolution)是一个高频应用的操作——它核心用于实现 ...
2026-03-03在日常办公、数据分析、金融理财、科研统计等场景中,我们经常需要计算“平均值”来概括一组数据的整体水平——比如计算月度平均 ...
2026-03-03在数字化转型的浪潮中,数据已成为企业最核心的战略资产,而数据治理则是激活这份资产价值的前提——没有规范、高质量的数据治理 ...
2026-03-03在Excel办公中,数据透视表是汇总、分析繁杂数据的核心工具,我们常常通过它快速得到销售额汇总、人员统计、业绩分析等关键结果 ...
2026-03-02在日常办公和数据分析中,我们常常需要探究两个或多个数据之间的关联关系——比如销售额与广告投入是否正相关、员工出勤率与绩效 ...
2026-03-02在数字化运营中,时间序列数据是CDA(Certified Data Analyst)数据分析师最常接触的数据类型之一——每日的营收、每小时的用户 ...
2026-03-02在日常办公中,数据透视表是Excel、WPS等表格工具中最常用的数据分析利器——它能快速汇总繁杂数据、挖掘数据关联、生成直观报表 ...
2026-02-28有限元法(Finite Element Method, FEM)作为工程数值模拟的核心工具,已广泛应用于机械制造、航空航天、土木工程、生物医学等多 ...
2026-02-28在数字化时代,“以用户为中心”已成为企业运营的核心逻辑,而用户画像则是企业读懂用户、精准服务用户的关键载体。CDA(Certifi ...
2026-02-28在Python面向对象编程(OOP)中,类方法是构建模块化、可复用代码的核心载体,也是实现封装、继承、多态特性的关键工具。无论是 ...
2026-02-27在MySQL数据库优化中,索引是提升查询效率的核心手段—— 面对千万级、亿级数据量,合理创建索引能将查询时间从秒级压缩到毫秒级 ...
2026-02-27