京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据能力?不是你想说有就能有
2016年可谓是中国的“大数据之年”,不仅国家推行“大数据战略”,倡导发展互联网新经济,各行各业也都在谈论大数据的前景。大数据一时成为了各大企业都争相推拥的热词。
单纯从字面理解,大数据描述的是一个巨量数据的概念。而在实际的应用上,“大数据”更类似“光年”一样,当光指引到时间中,就成为了描述距离的单位,而把海量的有效数据进行有针对性的整合分析时,他就可以对用户行为进行描述,为我们的生活提供各种各样的决策和指引。
随着国家大数据战略的推行,“数聚”、“精准”等概念纷纷涌现。然而,在各大品牌层出不穷的新玩法下,“大数据”概念被滥用的情况越来越严重。笔者之见,“大数据”能力需要有漫长积蓄过程,绝非“想用就能用”。
在品牌宣传上,大数据的概念常常被有意无意地偷换,主要表现在,“有数据”并不等于大数据。大数据存在5V的特征,即Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。除了存有数据的基本条件外,还需满足以上五个维度。因此,大数据是一个非常严格的概念。
一个企业的大数据实力如何,主要基于其拥有的数据资产的数量和质量,同时也取决于数据的维度,及对海量数据的开发运用能力(内部算法)。因此不少巨头在不断扩张自己数据库容量的同时,也在通过并购整合,拓宽其自身数据资产的覆盖度和完整度,同时提升自己对数据的运算能力。
以阿里巴巴为例,阿里拥有庞大的用户群体以及十多年的用户数据积累。其大数据资产,无论从数量还是质量上,在中国处于绝对领先地位。但究其根本,其主要数据维度主要集中在电商领域。随着阿里巴巴不断的跨领域扩张,其大数据维度也随之丰富起来。UC浏览器、高德地图、优酷土豆、新浪微博等多个领域产品的加入,阿里大数据基于移动信息领域的矩阵逐渐扩展。截至目前,据不完全统计,阿里大数据矩阵至少包含了电商、阅读、社交、搜索、地图、视频、应用、游戏等维度的用户行为数据,从覆盖率和完整度上,应该是目前BAT三大巨头中最具优势的。
然而,企业收集到“多维度”的数据只是第一步,如何运用、创造价值是接下来面临的考验。在数据价值的“落地”上,各个企业也正在积极探索。
移动互联时代深受“信息过载”的诟病,“如何实现信息与人更为精准的连接”是整个行业未来探索的方向。为了能够给用户提供最佳的内容获取决策,除了需要对数据宽度与厚度进行累积,还需要让数据变得更加“聪明”。通俗来讲,企业需要能够对用户产生的每个数据进行统计、分析与开发,并以此帮助用户做出决策。
以UC为例,从阿里大数据中的高德地图POI数据可以知道用户当下处于的特定场景,根据对“时间+地点”的描述分发用户当下最需要的资讯;此外,在淘宝、神马搜索、优酷等多维数据的互通下,可以知道用户对不同类型资讯的需求。此外,UC的算法还能实现根据不同领域按权重绘画属于该用户的用户画像,在基本的人群聚类下再继续进行需求分层。
以上用户数据的分析及处理,将形成个人定制化数据库,之后,再根据算法进行精准推送,目前常用的推荐算法有三种:
第一代基于“协同过滤”,即收集大量的用户浏览记录,通过相似行为进行关联推荐。由于算法简介,逻辑清晰,可行性强,这种算法被大多数企业采用,例如今日头条、天天快报等都是采用的这种算法,但其也存在缺陷。由于获取数据的手段有限,数据不能够真实的反应出用户对信息的需求,很容易让用户深陷在自己的“兴趣爱好”当中;
第二代基于“搜索”,在分析了用户的核心兴趣点之后,通过隐式搜索的方式,给用户结果,这是在搜索引擎全面普及后出现的数据算法。但是与第一代算法类似的是,不同的人搜索相同的信息有不同的目的,而不同的时间地点搜同样的信息也有不同的目的,用同样的标准衡量用户行为,容易产生误判;好处是,对第一代算法所产生的“信息孤岛”效应有了较大的减弱,较容易形成兴趣圈群。在这方面做得比较好的是一点资讯。
第三代基于“社群+场景”,从“人”的角度,切入到具体的社群,实现“人以群分”;从内容的角度,切入到具体场景,这也是目前算法的发展趋势,比较典型的是以阿里大数据矩阵为依托的UC头条。
不过,就目前而言,实现“社群+场景”精准分发还处于一个比较理想的阶段,体现在“社群+场景”有一系列苛刻的要求,基础要满足的就是精准的用户画像绘制。眼下有此能力的恐怕也只有BAT三家。
当然,一个行业的成功除了能够给用户带来改变,自身还应具备优秀的商业化能力,以实现行业的可持续发展。Facebook、Twitter等企业对大数据在信息流里的商业模式早有示范。其中,Facebook移动广告营收公司总营收的82%(2016年Q1财报),是基于大数据的精准定向广告流为收入带来快速增长。而这种模式能够适用并持续增长,其主要原因是B端与C端的互利,B端的广告在更为精准、高效推送到用户外,C端获取了精准的信息,不会影响用户体验。
如以上所列举的“在高德地图里形成固定的商圈,在UC头条相应商圈的资讯就会推送给你”,这样一次信息与人的精准连接,对用户来说,带来是获取价值信息时间成本的缩小;对内容提供者来说,是潜在受众价值的挖掘;而对广告主而言,是高效、精准传递受众的价值实现。在这里面,满足的是消费测、供给侧、商业测三方需求。
大数据时代不止于“大”,企业对数据资产的厚度与深度的积累成为了决定大数据成败的关键,在大数据被日益滥用的今天,笔者更希望在时代大趋势下,大数据能真正落地,至少不止一个阿里巴巴。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28