
大数据在京东的典型应用:京东用户画像技术曝光
一方面是海量信息的汇集,京东是一家大型全品类综合电商,海量商品和消费者产生了从网站前端浏览、搜索、评价、交易到网站后端支付、收货、客服等多维度全覆盖的数据体系,另一方面日益复杂的业务场景和逻辑使得信息的处理挖掘日益重要;也就是说,京东已经形成一个储量丰富、品位上乘且增量巨大的数据金矿,但是在相当长一段时间,很多业务童鞋经常面对宝山空回的局面,比如我们的数据“疯析狮”和“攻城狮”被业务童鞋反复追问,为什么我的促销活动做了这么久,力度也挺大,就是没有带来预期用户的增长呢?从用户画像分析来看,很可能是在错误的时间错误的地点对错误的人做了错误的促销活动。
用户画像就是在解决把数据转化为商业价值的问题,就是从海量数据中来挖金炼银。这些以TB计的高质量多维数据记录着用户长期大量的网络行为,用户画像据此来还原用户的属性特征、社会背景、兴趣喜好,甚至还能揭示内心需求、性格特点、社交人群等潜在属性。了解了用户各种消费行为和需求,精准刻画人群特征,并针对特定业务场景进行用户特征不同维度的聚合,就可以把原本冷冰冰的数据复原成栩栩如生的用户形象,从而指导和驱动业务场景和运营,发现和把握蕴藏在细分海量用户中的巨大商机。
从逻辑上说,是从具体的业务场景出发,结合数据表现,归纳学习出基准的规则或方法,然后通过反复迭代的学习过程,生成符合既定约束条件的最优化方案,然后把此方案泛化推广到类似的场景中去。很多时候用户画像都是从一个具体品类的业务场景或需求出发,有一些业务童鞋运营经验很丰富,结合对他们经验和需求的访谈,攻城狮会把业务语言抽象出来,结合数据语言转化成通用的技术语言,然后用他们神奇的大脑和给力的大数据平台生产出符合需求预期的结果,经过业务童鞋反复验证有效后,这个画像就宣告成功,然后,攻城狮童鞋会再次驱动其神奇的大脑,将此画像推广到京东全站应用中去,这种从群众中来到群众中去的方法由于其敏捷高效快速迭代的优点,产生了一大批性能优良的产品。
当然,对于一些对用户画像基本属性,由于其对所有品类或场景的通用型较强,攻城狮会跳过单品类测试,直接针对全站用户建模,效果也非常好。
用户画像应用服务支持京东集团全业务需求,其下游面向不同类型不同需求的人群,他们需求各不相同,从技术方案到使用方法也千差万别,因此有必要采取体系化多层次服务平台进行支持。对于公司内部,针对研发、采销、市场、客服、物流等各体系不同需求分别采取统一数据仓库、数据接口服务、产品化平台多种服务方式提供支持,针对各业务线需求场景不同,人员经验也不尽相同,用户画像的平台化给内部使用人员打造切合自身业务场景和使用经验的操作:对经验丰富的使用者提供更深入、综合参考并可自主订制或二次开发;给经验较浅的用户提供数据之外还培养其分析意识;对小白用户则可建立数据化分析运营的意识与习惯;对外部用户的支持力度也在逐步放开、加大,比如POP商家,可以满足商家针对自身店铺的个性化订制需求,并结合各种营销方式提供一站式服务解决方案。
在京东用户行为日志中,每天记录着数以亿计的用户来访及海量行为。我们通过对用户行为数据进行分析和挖掘,发掘用户的偏好,逐步勾勒出用户的画像。用户画像通常通过业务经验和建立模型相结合的方法来实现,但有主次之分,有些画像更偏重于业务经验的判断,有些画像更偏重于建立模型。
业务经验结合大数据分析为主勾画的人群,此类画像由于跟业务紧密相关,更多的是通过业务人员提供的经验来描述用户偏好。举个例子,比如:根据业务人员的经验,基于客户对金额、利润、信用等方面的贡献,建立多层综合指标体系,从而对用户的价值进行分级,生成用户价值的画像。一方面我们的产品经理可以根据用户价值的不同采取针对性的营销策略,另一方面通过分析我们的不同价值等级用户的占比,从而思考如何将低价值的用户发展成高价值的用户。
再比如,通过用户在下单前的浏览情况,业务人员可以区分用户的购物性格。有些用户总是在短时间内比较了少量的商品就下单,那么他的购物性格便是冲动型;有些用户总是在反复不停的比较少量同类商品最后才下单,那么他的购物性格便是理性型;有些用户总是长时间大量的浏览了很多商品最后才下单,那么他的购物性格便是犹豫型。对于不同购物性格的用户,我们可以推荐不同类型的商品,针对冲动型用户,我们直接推荐给他/她最畅销的同类商品,而理性型用户我们推荐给他/她口碑最好的商品。并且针对每一个用户,我们根据其购物性格定制了个性化的营销手段。
以建立模型为主勾画的人群,我们不能认为买过母婴类用品的用户家里就一定有小孩,因为这次购买很有可能是替别人代买或者送礼物。所以我们要判断这个用户所购买的母婴类商品是否是给自己买。根据用户下单前浏览情况、收货地址、对商品的评价等多种信息建立模型,最终判断出用户家庭是否有小孩。再根据购买的商品标签,比如奶粉的段数,童书适应年龄段等信息,建立孩子成长模型,在孩子所处不同的阶段进行精准营销。
京东拥有最全的品类,各品类间用户转化成为我们业务的一个重点。挖掘一个品类的潜在用户,首先要找出此品类已有的用户,然后通过这些用户的行为、偏好、画像等信息对用户细分,挖掘其独有的特征,最后通过这些特征建立模型定位出该品类的潜在用户。
这一阶段主要是为了验证我们为用户描绘的画像是否准确。比如一个用户的画像是:性别男、年龄在36岁~45岁之间、家里有小孩、未婚、有车一族、购买等级高。我们可以很快发现家里有小孩且未婚这一矛盾的结果。首先,我们可以判断对这个用户的画像肯定有问题的。接下来我们看这个用户的画像,似乎只有未婚这一条与其他画像格格不入。通过模型之间的验证,我们发现一些错误案例并分析原因,进而改进我们的模型。
明嘉靖朝著名内阁首辅徐阶主政后,在其工位上有个著名条幅,其著名水平堪与东哥在苏州街墙上“战斗!战斗!只争第一”相媲美,他写的是“以威福还主上 以政务还诸司 以用舍刑赏还诸公论”,我的理解,就是各司其职,各展其长,用户画像的服务也是针对各服务对象进行区别对待,方便用户使用,具体实现方法是:JDW+CUBE+BMP。
首先,对用户画像的结果进行标准化加工,同步至企业统一的JDW平台,解决数据孤岛,方便研发底层调用;同时,按主题建立多维分析的数据CUBE,直接面向疯析狮和攻城狮;另外,还进一步打通上下游关联数据和产品,尤其是大营销平台(BMP),这个主要针对产品经理和一线采销人员,他们可以在CUBE筛选出预定人群后直接调用营销平台进行发券、EDM等操作,减少了诸多中间环节,实现高效运营和精准营销,大大提升人效。其中,多维分析CUBE是用户画像产品化的出色应用之一,其用户画像的诸多维度和订单、商品、流量等指标的组合可以快速实现智能分析,并可根据数据对比分析提供专业有效的建议,将数据转化成知识和决策供大家使用。
用户画像提供统一数据服务接口供网站其他产品调用,提高与用户间的沟通效率、提升用户体验。比如提供给推荐搜索调用,针对不同用户属性特征、性格特点或行为习惯在他搜索或点击时展示符合该用户特点和偏好的商品,给用户以友好舒适的购买体验,能很大程度上提高用户的购买转化率甚至重复购买,对提高用户忠诚度和用户粘性有很大帮助;比如数据接口提供给网站智能机器人JIMI,可以基于用户画像的用户量身定做咨询应答策略,比如快速理解用户意图、针对性商品评测或商品推荐、个性化关怀等,大幅提升JIMI智能水平和服务力度,赢得用户欢迎和肯定。
今年618前夕京东范产品的数据接口服务,将用户画像模型充分应用到产品当中,根据族群的差异化特征,帮助业务部门找到营销机会、运营方向,全面提高产品的核心影响力,增强产品用户体验。应用模型包括:年龄、性格、购物偏好、购买力等用户特征,诠释勾勒出用户在京东上的体貌特征,赋予一定的潮流“范儿”的概念,贴近用户。
京东数聚汇也是用户画像的一个典型应用,通过深度分析年度网购用户的行为,挖掘网络购物趣味数据,结合用户画像,从用户的购物行为入手,结合年度流行热点,分析不同地域网购人群的购物习惯和喜好,为网民展现一场京东大数据的饕餮盛宴,同时给商家和消费者提供了经营和购物参考。
CDA数据分析师培训官网
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10在科研攻关、工业优化、产品开发中,正交试验(Orthogonal Experiment)因 “用少量试验覆盖多因素多水平组合” 的高效性,成为 ...
2025-10-10在企业数据量从 “GB 级” 迈向 “PB 级” 的过程中,“数据混乱” 的痛点逐渐从 “隐性问题” 变为 “显性瓶颈”:各部门数据口 ...
2025-10-10在深度学习中,“模型如何从错误中学习” 是最关键的问题 —— 而损失函数与反向传播正是回答这一问题的核心技术:损失函数负责 ...
2025-10-09本文将从 “检验本质” 切入,拆解两种方法的核心适用条件、场景边界与实战选择逻辑,结合医学、工业、教育领域的案例,让你明确 ...
2025-10-09在 CDA 数据分析师的日常工作中,常会遇到这样的困惑:某电商平台 11 月 GMV 同比增长 20%,但究竟是 “长期趋势自然增长”,还 ...
2025-10-09Pandas 选取特定值所在行:6 类核心方法与实战指南 在使用 pandas 处理结构化数据时,“选取特定值所在的行” 是最高频的操作之 ...
2025-09-30球面卷积神经网络(SCNN) 为解决这一痛点,球面卷积神经网络(Spherical Convolutional Neural Network, SCNN) 应运而生。它通 ...
2025-09-30