京公网安备 11010802034615号
经营许可证编号:京B2-20210330
阿里巴巴的“数据闭环”—信息图-CDA数据分析师
说到大数据,首当其冲的应该是已经围绕数据海洋中耕耘已久并衍生出金融借贷业务的阿里系。马云将集团下的阿里金融与支付宝两项核心业务合并成立阿里小微金融,并将之前呼声最高的接班人彭蕾安排到阿里小微金融掌舵,马云对未来数据战场的重视可见一斑。作为筹备中的阿里小微金融服务集团数据平台负责人,冯春培也对数据有着独到的见解,他向作者表示目前国内对于大数据的讨论更偏重技术方向,即“如何沉淀数据”,对于数据的应用则思考较少。数据如何产生价值?这需要要从大数据的本质说起。
线上数据才是大数据
要搞清楚什么是大数据,首先你要知道什么样的数据才是有用的。按照冯春培的理解,任何行为本身都会产生数据,但只有线上数据有可能被沉淀和利用。“比如不通过淘宝,原本人们的交易行为在线下也是产生数据的,只不过这种交易行为是私密的,除了买卖双方,其他人是不知道我的交易行为的,同时交易双方也是匿名的,从数据的性质上来说无法沉淀,从来源上来说也没有一个方法能有效地收集。”
大数据是什么?冯春培的理解似乎更贴近本质:“拥有数据的本质,是你对这个世界,你对这些人,你对这些企业,你对这个时代,有了一个更全面而清楚的认知,你能理解这些人的需求,你能理解这个世界的任何的变化。”
你可以这么理解,如果你是阿里系的深度用户(比如淘宝卖家),他们掌握了你足够多的数据,对你的信用评估也会更加全面,这个数据不仅可以在金融领域中起作用,比如帮助你在阿里小贷更方便的贷款,在生活中也可以反映你的信用状况,“比如相亲 ,你怎么证明你的收入?你拿出支付宝的账单,女孩子一看一年花了 100 万,你说你的信用良好,每个月信用卡还的都很及时,比你说破嘴皮有用多了吧?”
数据就是生产资料
如果数据仅仅是作为辅助参考信息,也没必要投入如此多的精力。从生产要素来说,数据到底是什么角色?冯春培的定义是“生产资料”。“我们部门的名字是‘商业智能部’,数据更多的像是一种业务的辅助决策,作为一个“参谋”的角色,现在我们要逐步的让这个数据融入到我们的业务和产品这个流程里面去,数据和业务就像两个齿轮,能扣在一起转。当我们对数据的挖掘和理解越来越强,最终数据不仅可以产生价值,还可以直接催生产品,比如阿里金融的一些数据,我们把它定义为生产资料。”
这就是阿里系未来要做的事情,把数据变成生产资料。与传统的生产资料不同的是,数据是可以无限次使用的,并且是越使用越丰富的。
近期阿里巴巴在移动互联网市场频频出手,未来也许有可能将数据进行融合,用户的各种信息得以呈现在一个全景图里面,即使在完全陌生的城市,借助这种服务,你也能知道附近哪家店支持支付宝付款,微博上哪个网友刚刚在附近的咖啡店歇脚。
数据分析是“大海捞针”
与大多数互联网产品存在的问题相同,互联网产生的数据是有可能被伪造的,同时也是无序的、碎片化的。
对于这一点,冯春培也毫不讳言,“短期的伪造数据当然是有可能的,用特定的维度去伪造数据也是完全可能的,但是因为我们的业务是基于长期数据进行跟踪分析的,采纳的维度也更广,伪造数据的成本和难度会越来越大。按照我们现在的信用模型,伪造数据的收益是不太可能覆盖成本的,那么我们可以基本判断,数据的真实性是有保障的。”
是否存在冗余数据?冯春培的答案是“NO”,“即使现在的场景需求,或者我现在的眼光来看这个数据我觉得没有用,但不意味着将来这个数据也是没用的。”这同时也造成了一个问题——存储的数据量会越来越大,但是在特定的应用场景中只需要用到一小部分数据,“确实,我们现在每一次的数据分析都是在‘大海捞针’”。
数据加工流水线
数据是怎么从每一次交易行为,最终变成一个个数据模型和最终产品的?
冯春培向作者简单描述了一个示意图:
用户通过 PC 或移动设备发生的交易行为会产生相当数量的原始数据
原始数据通过设备采集后进入分发中心
按照一定分发规则,数据被分发至各个集群服务器。零散的、无序的、没有关联的原始数据在集群服务器被加工成人或者机器可以理解的形式
数据进一步被挖掘 形成业务模型
据介绍,这一流程几乎适用于任何来源和性质的数据。此外,为了便于在内部解决数据的交换、安全和匹配等问题,阿里集团还搭建了一个数据交换平台。冯春培表示,在这个平台上,各个事业群可以实现数据的内部流转,实现价值最大化。
数据——信用——财富 阿里的新“闭环”
海量的碎片数据该怎么用?阿里小贷给出了一个很好的示范。在过去,因为无法采集足够的数据,在企业贷款时银行要求提供房产、购车证明,用资产做抵押。但现在,基于采集到的海量企业数据,阿里小贷可以借助技术手段,把碎片化的信息还原成对企业的信用认识。
“比如某个小企业有一个小工厂,用电量一直在持续的攀升,我可以认为他业务很好,信誉就可以调高”冯春培举了个最显而易见的例子:“这个维度银行是不可能采纳的,因为他们依然用的是上门调研的方式,人力、时间成本太高,并且也不可能长期跟踪。有时候碎片数据可以反映全局,这种数据在模型中的权重就会比较高。”
事实上,阿里内部对数据的运用不仅仅体现在商业产品上,数据也在大大缩短、简化内部的业务流程。冯春培强调,不要将数据的价值局限于“变现”,“数据最终的指向是积累的信用,包括个人信用也包括企业信用。我们所做的一切都是在为这个目标服务,首先将数据变成信用,良好的信用又可以取得贷款、获得更好的服务,增加你的财富,这是一个良性循环,也就是数据价值的‘闭环’。”
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16