京公网安备 11010802034615号
经营许可证编号:京B2-20210330
数据机器人帮你创造大数据商业价值
在大数据概念似乎与每个公司乃至每个人都紧密相关的今日,如果有人问大数据到底是什么?怎样才能让大数据为我创造实实在在的价值?大部分时候,你所得到的答案或者艰涩难懂,或者虚无缥缈,比如说3V(Volume(容量)、Velocity(速度)和Variety(多樣性)),甚至是5V (再加上Veracity(真實性)和Value(價值)),又或者“结构化数据”和“半结构化数据”。上到天体太空,下到海底勘探,大到教育文化,小到细胞DNA,总有一款可以迷惑你。
或许真相是,想在在大数据时代乘风破浪勇夺先机,你根本不需要知道这些。中国有句老话,术业有专攻。从大数据到商业价值,你需要的只是根据业务经验提出需求和目标,其他的一切都可以交给数据机器人来搞定。
听起来像是一个神话?其实这一切已经在发生。
“让天下没有难用的数据,让人人都可以成为数据科学家。”是桃树科技创始人最初的理想。桃树科技起源于2015年,其创始人杨滔和汪秦宇均为海归博士,在美中两国顶级互联网及金融公司具有资深的大数据技术和管理经验,因为看准了大数据领域全自动建模预测这一趋势,毅然放弃稳定高薪的大公司职位,转而投身创业这一荆棘艰险之旅。
如前文提到,大数据似乎可以在各个领域落地,但是能真正产生爆发效应的领域却并不多。根据多年的大数据应用经验,桃树选择了金融和电商大数据应用为公司起步的切入点。在金融领域,数据应用的需求属于刚需。尤其银行对贷款客户信用的评估关系到银行坏账率的比例。在电商领域,大数据应用可以产生规模化效应,形成数据积累的闭环,最终带动流量的获取。
信用风险评估机器人:CAN
“极客看什么不顺眼,就自己动手做一个。”以数据极客自诩的杨滔这样说,“大数据应用的广泛诉求,就是输入数据,输出结果。”于是他创造了第一个数据机器人CAN。CAN是一个专门应用于金融行业的风险评估机器人。在以民生银行为代表的多家知名银行和互联网金融机构中,都已经存在CAN的身影。当你给这台机器输入散落在各个角落的原始数据,它便如同一匹永不疲惫的战马夜以继日地飞奔,输出银行/p2p中申请贷款客户的信用打分及每个客户的风险点。这台机器,可以提早发现这些金融机构贷款业务中90%以上的贷款坏账,并且可以提早预测客户是否逾期归还贷款,预测准确率均在80%以上。传统的银行风险建模一般一个数据团队工作3到6个月,而CAN只需要3天。
无论是数据的清洗整理,还是算法的复杂处理,都是CAN的内在机制。对于银行客户经理,CAN提供的数据结果无比简单——客户经理负责客户的信用风险打分及对应的风险因子。CAN建立了这个数据提炼机制之后,自然把外部大量数据与内部数据动态整合,整合后的风险数据不仅包括客户的基本信息、金融行为、动态还款行为,并且还包括客户以及他的网络关系对应的央行征信数据、法院工商数据、房产资产数据以及在P2P平台上的贷款及表现数据等。从脏乱复杂的大数据到包含丰富预测信息的大数据,正是CAN的输入和输出。
当客户经理负责客户出现风险,他将第一时间获得风险预警,并可以根据CAN输出的风险因子去追踪事实真相。对于银行客户经理,大数据经过CAN的处理,成为在他们日常业务流程中的“决策抓手”。大数据远在天边,也近在眼前。
商品销量预测机器人:BOB
在CAN被多家银行客户高度认可之后,杨滔又带领他的团队开发了桃树机器人工厂的第二个机器人BOB。BOB是一款选品机器人,它可以基于商品的行业、类目、关键字、款式、价格、产地和营销渠道数据,预测商品在一定流量中,不同的场景、时间下,可获得的成交额(或转化率)。
电商运营的第一个环节就是选品。选品包括商品采购、营销活动爆款筛洗、商品排序规则等。B2C选品好坏直接关系库存积压,电商平台选品好坏直接关系流量分配机制,淘宝卖家如果无法打造爆款根本获得不到流量,导购网站其实也就是一个选品系统。传统电商选品主要依赖行业经验,运营人员通过对不同行业的经验来判断什么商品会卖得好。这种运营方式的局限在于难以规模化,并且还有腐败可能性。并且,在互联网上,所有商品信息都不是孤立的,消费者往往会比价,从多个电商平台找到性价比最优的商品。因此,综合电商自身与外部数据的选品,才有可能满足消费者需求。
选品机器人BOB的诞生,直击电商行业发展的基础痛点:1. 商家面对十几亿海量商品,不知如何选则适合自己平台的客群的商品; 2. 除了淘宝京东这样的大型平台,一般的中小电商迷失在海量数据中,缺乏利用数据帮助运营的知识。这些中小电商,在互联网时代依旧依赖传统的人工经验判断来进行决策,效率低下;3. 电商数据应用的技术门槛极高,商家面临大量非结构化文本数据,图像数据,中小卖家却往往没有能力建立数据科学团队,无法充分利用大数据帮助决策。
这一切问题,BOB都可以全自动化的解决。BOB起源于利用机器学习技术建立大规模商品销量预测模型。此模型成功帮助电商巨头淘宝旗下的聚划算平台实现数据化运营,挖掘爆款,提升运营效率80%,提升销售额235%。桃树科技成立的短短数月间,已经与多家电商网站展开洽谈,并与新兴电商网站街蜜以及风趣海淘签署了服务协议。
桃树的梦想,是让天下没有难用的数据,让人人都可以成为数据科学家。
在执着追寻这个梦想的路上,杨滔带领着他的团队不断壮大着他们的机器人工厂,这些机器人个个武艺高超,兼备从数据源自动清洗数据,抽取特征,并自动学习、预测、解释及强化自我的能力。它们内置了世界顶级数据科学家的智慧精华,拥有让数据价值最大化的计算程序,可以模拟数据科学家工作流,肩负着将各行各业的大数据高效率转化为商业价值的使命。
阿姆斯特朗踏上月球时曾经说过:“这是一个人的一小步,却是人类的一大步。”如今,人类凭着对知识无穷尽的渴望与狂热,已经迈出了一步又一步。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04