线上数据才是大数据-CDA数据分析师官网

热线电话：13121318867

线上数据才是大数据

2018-04-21

线上数据才是大数据

今日关于“大数据”的讨论达到了一个高峰，数据就是未来已经不置可否地成为了互联网企业的未来新战略发展的中心。什么是大数据，大数据是如何产生价值的，大数据是无所不能的吗，应用边界在哪里？这些问题，似乎人人都有一个模糊的概念，但始终没有一个统一的答案。

    说到大数据，首当其冲的应该是已经围绕数据海洋中耕耘已久并衍生出金融借贷业务的阿里系。马云将集团下的阿里金融与支付宝两项核心业务合并成立阿里小微金融，并将之前呼声最高的接班人彭蕾安排到阿里小微金融掌舵，马云对未来数据战场的重视可见一斑。作为筹备中的阿里小微金融服务集团数据平台，负责人冯春培也对数据有着独到的见解，他向作者表示目前国内对于大数据的讨论更偏重技术方向，即“如何沉淀数据”，对于数据的应用则思考较少。数据如何产生价值？这需要要从大数据的本质说起。
   线上数据才是大数据
    要搞清楚什么是大数据，首先你要知道什么样的数据才是有用的。按照冯春培的理解，任何行为本身都会产生数据，但只有线上数据有可能被沉淀和利用。“比如不通过淘宝，原本人们的交易行为在线下也是产生数据的，只不过这种交易行为是私密的，除了买卖双方，其他人是不知道我的交易行为的，同时交易双方也是匿名的，从数据的性质上来说无法沉淀，从来源上来说也没有一个方法能有效地收集。”
   大数据是什么？冯春培的理解似乎更贴近本质：“拥有数据的本质，是你对这个世界，你对这些人，你对这些企业，你对这个时代，有了一个更全面而清楚的认知，你能理解这些人的需求，你能理解这个世界的任何的变化。”
    你可以这么理解，如果你是阿里系的深度用户（比如淘宝卖家），他们掌握了你足够多的数据，对你的信用评估也会更加全面，这个数据不仅可以在金融领域中起作用，比如帮助你在阿里小贷更方便的贷款，在生活中也可以反映你的信用状况，“比如相亲，你怎么证明你的收入？你拿出支付宝的账单，女孩子一看一年花了 100 万，你说你的信用良好，每个月信用卡还的都很及时，比你说破嘴皮有用多了吧？”
   数据就是生产资料
    如果数据仅仅是作为辅助参考信息，也必要投入如此多的精力。从生产要素来说，数据到底是什么角色？冯春培的定义是“生产资料”。“我们部门的名字是‘商业智能部’，数据更多的像是一种业务的辅助决策，作为一个“参谋”的角色，现在我们要逐步的让这个数据融入到我们的业务和产品这个流程里面去，数据和业务就像两个齿轮，能扣在一起转。当我们对数据的挖掘和理解越来越强，最终数据不仅可以产生价值，还可以直接催生产品，比如阿里金融的一些数据，我们把它定义为生产资料。”
    这就是阿里系未来要做的事情，把数据变成生产资料。与传统的生产资料不同的是，数据是可以无限次使用的，并且是越使用越丰富的。
    近期阿里巴巴在移动互联网市场频频出手，未来也许有可能将数据进行融合，用户的各种信息得以呈现在一个全景图里面，即使在完全陌生的城市，借助这种服务，你也能知道附近哪家店支持支付宝付款，微博上哪个网友刚刚在附近的咖啡店歇脚。
   数据分析是“大海捞针”
    与大多数互联网产品存在的问题相同，互联网产生的数据是有可能被伪造的，同时也是无序的、碎片化的。
    对于这一点，冯春培也毫不讳言，“短期的伪造数据当然是有可能的，用特定的维度去伪造数据也是完全可能的，但是因为我们的业务是基于长期数据进行跟踪分析的，采纳的维度也更广，伪造数据的成本和难度会越来越大。按照我们现在的信用模型，伪造数据的收益是不太可能覆盖成本的，那么我们可以基本判断，数据的真实性是有保障的。”
    是否存在冗余数据？冯春培的答案是“NO”，“即使现在的场景需求，或者我现在的眼光来看这个数据我觉得没有用，但不意味着将来这个数据也是没用的。”这同时也造成了一个问题——存储的数据量会越来越大，但是在特定的应用场景中只需要用到一小部分数据，“确实，我们现在每一次的数据分析都是在‘大海捞针’”。
   数据加工流水线
    数据是怎么从每一次交易行为，最终变成一个个数据模型和最终产品的？