
一个大数据应用是如何炼成的
经历了多年的BI专题应用建设,有幸能在一个传统企业里探索大数据应用的建设过程,发现了很多不一样的地方,获得了不同的感受,在此以一个真实的案例的建设过程来品味其中的不同,也许能获得一些启示。
课题是怎么来的?
大数据应用最大的挑战,就是未来的不确定性,因此,传统公司动辄提前半年进行投资预算规划的方式是不太适合大数据的。
做大数据几年,虽然说现在靠谱的大数据的商业模式也就在广告、金融、公益等方面,但真要下决心干某个大数据应用项目,其突发性、偶然性也非常强,因为对于大数据这个不成熟事物,无论是哪类公司,观望占了很大部分,对大数据的质疑有之,对于大数据安全的惶恐有之,对于合作模式的疑惑有之,更多的是不停的提出想法,不停的被否定。
企业顺应大势成立了大数据团队,最痛苦的是不知道干什么,什么能干,什么不能干,也没啥可借鉴的经验,这跟当前创业公司也类似吧,不知道哪种模式是靠谱的。
大数据几乎无所不能,但真要做起来,其实当前是能者寥寥,虽然趋势不可挡,但这一波搞大数据应用的,似乎大多要死在黎明前,一个概念从提出到最终普世大众,的确路慢慢儿修远兮。
今天要聊的,是个公益课题,电话反欺诈,课题有一定的偶然性,安全部门提到了,问我们能不能做做看,感觉社会意义很大,比如腾讯有反欺诈盒子,360有拦截系统,本来某公司希望来做这个课题,但综合各方面因素,还是决定自己做。
作出这个决策的实际一天不到,所以决定自己做,基于以下几个因素:
一是这个大数据应用是有显著效益的。
二是很好评估,不像很多BI应用产出无法评估,备受质疑 。
三是公司大数据平台建立了,提供了基础条件。
四是自主建模团队建立了一年多了,不需要太依赖合作伙伴,因此也无需走那套冗长的招标流程,失败的代价也会小。团队如何组建?
跟传统的安排不同,抛出这个课题后,主动接受这个挑战的,却是一名从一线刚过来的同事,面对不确定性,想来大多数有资历的员工也会犹豫老半天吧,这个也有一定偶然性。
谷歌讲到了招聘人才,提到了无论多大代价也要找到创意精英,而做大数据,更加需要,需要主动型的创意精英,如果传统企业每个人仍然像传统那样局限在自己一亩三分地,很难有创新突破。
很幸运,我们有一只黑天鹅。
这种自愿组队模式的确有很大的好处,不按计划分配,尊重个人的意愿,更能激发人的主动性,团队组建也非常快,当天组队,第二天就开干,不存在类似项目的繁琐流程。
虽然团队成立有一定的偶然性,但的确与与企业近年来在大数据组织创新、人才引进和人员流动上的努力分不开。
假如没有大数据组织的成立,谁牵头都是个问题;假如不扔掉传统的包袱,很难有人专心做这个;假如没有企业内的人才流动和外部人才的引入,我们也干不了这个事。
平台资源如何解决?
在那个传统BI小型机时代,要做一个项目,抛开硬件资源环境的投资立项过程不说,光是一个新项目的集成估计也不止一个月。
而这个项目不同之处是:
一是基于大数据平台的租户能力,资源申请所见即所得,加上流程,一周内全部搞定。
二是提供的组件较为丰富,特别是流处理资源的快速提供,为反欺诈的实时性提供了坚实的基础,换在几年前基本不可能 。
三是公司技术团队的保障,使得大多技术问题得以尽快解决,这也有赖于公司在大数据平台上的末雨绸缪。
某人说过,凡是能用钱解决的问题都不是问题,但技术这个东西,虽然用钱的确可能解决,但对于大多数公司,钱都是个大问题,因此技术问题的解决又是何其艰难。
比如我们碰到Kafka的一些问题,长期难解决,大多企业的机制流程恐怕也不允许随便开价100万招个技术专家来解决吧,传统企业的自我技术进步是部血泪史,外面的专家开价开不起,自己的专家起来了,又怕被人家挖。
开发历程
敏捷开发现在提得很多了, 但感觉以前BI的建设就是最大的敏捷,最极致的情况,一个人搞定需求、开发、上线和维护,当然,现在软件工程的确还是要靠分工协作,需要一套方法论来解决显性迭代和维护配合的问题。
大数据创新太特殊了,没必要循规蹈矩,抛开全部的束缚,一切要为速度让步。原因是失败可能性很大,速度越快成本越低,同时既然对于公司原有业务没有影响,因此可以放手去干,什么文档都可以不要,什么既定流程都可以不遵守,反正光脚不怕穿鞋的。
因此,这个课题做的非常快。
第10天,做出一个反欺诈简单模型,包括了案例分析、数据准备、数据建模及验证等,我们的观点是第一个版本可以粗糙一点,希望尽快验证这个事情的可行性,否则一切都是徒劳,因此就是讨论和验证数据。
当时规定两个礼拜如果出不了结果,就会放弃,这类应用失败可能性很高, 但船小好调头,以后做一些创新,都建议给创新做个时间止损点。
第25天,生产完成部署,也就是具备系统支撑能力, 除了系统部署方案需要专业部门把关,其他基本是能省就省,当时的想法是,这类创新项目最好一个月就能搞上线,起码能测试吧,相对以前BI应用项目动辄半年甚至1年的节奏,的确大不同。
创新,速度始终是王道,因此日报变成刚需,也回忆起了某位离职运营商去创业的一个领导,他说每天凌晨就要看昨天的日报,以便安排当天的工作,我们可能做不到这么疯狂,但日报的节奏是对的。
第30天,一直在外呼现场进行验证迭代,直到36天,获得认可为止,以后就是持续调优,但这个数据已经可以投入生产了。一般电话诈骗很难在事中干预,但这个模型做到了,准确度达到90%以上,通过实时事中干预挽回收入损失超千万。
这个应用就是中国移动的天盾大数据反欺诈系统,它就是这么诞生的,没有什么大汇报,没有什么流程,就是很轻很轻的来了。
现在算法还有很多问题,反欺诈矛与盾的争夺是很艰辛的,面上的风光底下是每天建模师的艰苦卓绝的努力,上了很多新算法,很多很多失败,拉低了成功率,对于这个大家是异常焦虑的,群里总是不停的讨论,大家都知道这个是核心竞争力,路还很长,还需要坚持。
小结
这个应用还难言成功,只是传统企业在大数据应用上的一次不同的尝试,但不管怎样,互联网快速迭代的那套的确是给了很大的启示,自己做了,才知道原来的差距是如此巨大,自己的能力是如此脆弱。
从课题的角度讲,要认识到大数据这个事物的不确定性,选择它具有偶然性,没有规划能预料到这个,当前大数据变现商业模式也并不成熟,不要奢望投资大数据马上有产出,也许能力储备是第一位的。
从组织的角度讲,大数据人才属于稀缺人才,要么打破原有框架,不拘一格外部找人才,要么充分企业内挖潜,让人员能流动起来。流动的人才有一个特点,即至少有一颗骚动的心,主动性对于做成功一件事极为重要。
从能力的角度讲,假如要向大数据转型,则还是要对“没有一个大数据公司,能依靠合作伙伴获得成功”这句话有所敬畏,大数据的核心能力要掌握在自己手里。
从平台的角度讲,如果没有大数据平台的建立,这个项目能够有效果也许是半年以后的事情,但机会稍纵即逝,没人会等你这么久,因此此类基础设施建设不能犹豫,“书到用时方恨少”。
从开发的角度讲,先设定一个小目标,搞他个十万八万的,只要有点看得见的产出就行啊,快速迭代,始终是王道,失败了也没什么大不了,我们缺的就是经验,多头并行也不是不可以,只要有足够的创意精英。
当然说易行难,以上几点对于大多数公司来说是如此不易,也不能以一个应用的成功与否说明任何问题,大数据要成功,就像黑天鹅,有一定偶然性,但如果连准备的勇气都没有,没有一点实质改革的动作,就没有任何成功的可能了。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29CDA 数据分析与量化策略分析流程:协同落地数据驱动价值 在数据驱动决策的实践中,“流程” 是确保价值落地的核心骨架 ——CDA ...
2025-08-29CDA含金量分析 在数字经济与人工智能深度融合的时代,数据驱动决策已成为企业核心竞争力的关键要素。CDA(Certified Data Analys ...
2025-08-28CDA认证:数据时代的职业通行证 当海通证券的交易大厅里闪烁的屏幕实时跳动着市场数据,当苏州银行的数字金融部连夜部署新的风控 ...
2025-08-28