京公网安备 11010802034615号
			经营许可证编号:京B2-20210330
		如何让大数据真正产生价值_数据分析师考试
	
如果有一天你可以预测未来,你要做的第一件事情是什么?买彩票?第二件、第三件事情呢? 先卖个关子,我们后面再说这件事情。
大数据是个产业,广义上指的是在这个信息过载时代围绕着海量信息产生、传播、收集、处理、创造价值的整个产品链条;狭义上一般指大数据存储与处理、数据挖掘的相关产业。目前市场上利用大数据最多的一般在于分析和预测。
根据本人10年来在这个行业的从业经验,大数据与前两年的云计算、再往前的网格计算、并行计算都是相同产业链上几个环节,它是作为概念被媒体和从业者炒作起来的。但不可否认的是,我们的社会正处于信息爆炸的时代,各行业的信息量都在几何级数增长,高效利用好这些数据确实能为工作和生活带来巨大变革。
观点1:数据本身不产生价值,如何分析和利用大数据对实际业务产生帮助才是关键
例如,它可以帮助控制美国占17.6%GDP的医疗支出,为医药行业带来超过3000亿美元的成本节省和收益(来自麦肯锡的报告)
Netflix 制作《纸牌屋》的故事很多人都听过,说的是这家公司利用大数据分析了用户最喜欢的情节、最喜欢的演员组合、最喜欢的编剧等等,组合起来之后自己制作了一部电视剧最终取得巨大成功。
虽然听过故事的人很多,但几乎没有人注意到,这家公司是处于大数据应用链的顶端。与提供分析服务、提供大数据存储、提供数据清洗的基础产业中下游公司不同,Netflix除了自身产生数据且具备分析能力外,关键的是具备把分析结果转化为产品的能力,这才是产生高利润和竞争力的核心。
观点2:从事大数据的生意要重视投入与产出
大数据门槛很低,用一个Excel就可以起步,但随着研究的深入,想利用大数据分析进行获利,还是需要一定的预算和投入。
比如:需要专业的团队,如大数据分析师,10年前这个职位就存在,叫BI(商业智能),工作的内容就是分析大量的数据并通过建模等方式帮助制定战略或进行商业决策。
有了分析师就需要有配套的工程师配合,从海量的数据中挖掘出有价值的东西。
服务器:大数据另一个要消耗的资源就是服务器,从存储到计算再到带宽,都是需要不断的进行投入的。
所以商业公司进入这个行业前要考虑下是否有足够的预算,但同时上述的几点也孕育了不少新的机会,比如amazon就是全球最大的云计算基础设施厂商,splunk和前一段上市的Tableau都是对分析师提供数据处理服务的,相当于替代了一部分昂贵的工程师的工作。
观点3:大数据不是最近才有的,数据一直存在,分析数据的技术近几年有了革命性的突破
处理海量数据在技术界一直是个课题,几个革命性的技术在近10年相继出现,奠定了我们目前大数据的基础,其中包括虚拟化技术、Map-Reduce & Bigtable 、 NoSQL数据库、Deep Learning技术等。
虚拟化造就了今天的amazon云服务基础设施, map reduce造就了帮助我们进行高速云计算的hadoop开源软件,之前处理几天的数据现在几分钟就可以处理完。NoSQL数据库已经广泛应用在了拥有大量数据及高访问量的网站上,性能比传统数据库提升了许多。
观点4:许多人已经默默地通过大数据获利
商业公司通过长期研究,一旦发现了通过大数据获利的秘诀,多数情况下还是选择独乐乐而不是众乐乐。因为分析方法和数据源一旦公开,竞争对手必然会跟进,会导致了方法同质化最终体现在收益降低。
精准营销是个众所周知的领域,通过对每个人的信息进行分类建模,进行不同种类的营销。比如搜索引擎中,你长期搜索一些新的楼盘信息,搜索引擎会根据你的搜索历史判断你极有可能是潜在的买房者,美国target百货公司就曾因为根据用户的购物记录判断出一女孩怀孕并给其家里投送孕妇购物手册而名声大噪。在淘宝中搜索了旅行背包后,在新浪上都能看到相关旅游用品的广告。
但实际上大数据公司为了提高竞争优势,已经并不满足于这种有直接联系的数据,纷纷通过更多的途径收集数据。 根据笔者这些年的见闻,在保护行业机密的前提下在这里分享一些读者之前没听过的干货。
1、路由器,之前只是上网的小盒子,在数据采购市场是极为炙手可热的渠道。原因是近些年随着手机硬件的发展(路由器和手机等移动设备使用相似的芯片),尤其是处理器计算能力的几何式增长,小小的路由器里面已经可以运行很多程序,这些程序在用户上网时默默的分析着各种各样的数据,包括你常联系的好友信息,上网记录等。
2、网络运营商,运营商喜欢在用户浏览网页时插入一些广告,相信多数人都遇到过,和路由器的数据分析原理一样,运营商并不满足于千篇一律的固定展示广告,也在与时俱进,利用大数据进行精准的个性化广告营销。
3、基础软件,如浏览器、输入法。不仅是电脑还包括手机,你用输入法在各个软件里提交的查询请求,在浏览器里鼠标移到某个商品上却没有点击等等, 这些大数据都会被储存到了云上,供厂商进行分析。
4、金融公司。
提到革命性的技术,就不得不提到金融行业。我们在文中前面提到过的大数据成本问题在金融行业就不是问题了,因为在这个行业新技术带来的收益的提升都远高于成本,故我们可以看到每一项新技术往往都会第一时间在金融业应用。大数据也不例外,其实在很多年前大数据的数据挖掘已经广泛应用到了金融领域。这里我们要把博彩行业也归为金融业。
直到今年美国才有零星应用的"商场人流量大数据监测系统"其实在许多年前就被应用到了澳门和美国拉斯维加斯的赌场,一家赌场安装有上千个摄像头,从顾客进门开始就通过面部识别技术开始追踪,结合每个人的交易情况进行数据挖掘,除了找出老千等不受欢迎的人外,还能挑选大客户,鼓励非理性的赌客加大赌注等方式获取更多利润。
股市是除了博彩行业外另一个大数据市场,几十年前的股市就是一个利用信息不对称获利的市场,如今大数据分析成为了新一代有效的工具。股票市场每时每刻都有海量的交易信息,大数据分析技术一直伴随着证券行业发展成长。
之前很多写大数据的文章都会提到印第安纳大学的研究人员研究发现通过分析twitter信息中人们的情绪可以准确预测股市的涨跌,但在google搜索利用twitter数据进行交易的对冲基金只能找到伦敦的DCM一家。原因正如上一段提到的,商业公司尤其是对冲基金都不会轻易暴露自己的运算逻辑,这个道理和《三体》中的“黑暗森林”逻辑是相同的。
但实际上,我们可以通过种种蛛丝马迹发现twitter信息已经广泛被市场中的对冲基金使用。比如只要好莱坞女星海瑟薇出现在头条,"股神"沃伦-巴菲特的公司的A股股价就会上涨。原因很简单,女星海瑟薇的名字是Anne Hathaway,巴菲特的公司叫伯克希尔-哈撒韦公司(Berkshire Hathaway),两者都包括Hathaway这个词,说明不少对冲基金都使用了实时分析twitter和新闻大数据的技术。
另外一个例子:一则假消息在twitter发布:白宫发生了两起爆炸事件,总统奥巴马(Barack Obama)在事件中受伤,导致股市、欧元等相关全线在第一时间下挫,道指2分钟下跌100多点,欧元也是强势下行,美国股市市值短暂蒸发约1,400亿美元。 一次偶然的黑客恶作剧,又导致许多使用twitter数据对冲基金被暴露出来。
再举个发生在身边的例子,大家知道到券商开户为什么要填写一张详细的表格吗?上面会要求你填写你的收入、投资经历等,因为在华尔街,有非常成熟的模型可以通过你填写的表格预测你未来的收益,同时分析大量的交易记录针对不同种类的用户进行相应的营销与服务,目标同样是提高利润。
金融领域另一块大的领域是信贷市场,国内最近也异常火热,包括阿里巴巴等公司早已进入。新的P2P产业除了在商业模式、效率、用户来源等与传统银行不同外,最关键因素之一就是大数据。通过大数据可以解决信贷产业最核心的坏账率问题。阿里巴巴通过其平台上用户的交易数据、好评率等完整的结构化数据可以非常容易的对用户进行信用评估,但其他平台没有阿里巴巴的数据优势,就需要更多的数据挖掘才能降低坏账率从而盈利,国外最大的P2P公司比如Lending Club是经过了6年不断完善才首次实现盈利,可见这个巨大的市场中我们面对的挑战之大。
                  数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 DDPM(Denoising Diffusion Probabilistic Models)训练过程中,开发者最常困惑的问题莫过于:“我的模型 loss 降到多少才算 ...
2025-11-04在 CDA(Certified Data Analyst)数据分析师的工作中,“无监督样本分组” 是高频需求 —— 例如 “将用户按行为特征分为高价值 ...
2025-11-04当沃尔玛数据分析师首次发现 “啤酒与尿布” 的高频共现规律时,他们揭开了数据挖掘最迷人的面纱 —— 那些隐藏在消费行为背后 ...
2025-11-03这个问题精准切中了配对样本统计检验的核心差异点,理解二者区别是避免统计方法误用的关键。核心结论是:stats.ttest_rel(配对 ...
2025-11-03在 CDA(Certified Data Analyst)数据分析师的工作中,“高维数据的潜在规律挖掘” 是进阶需求 —— 例如用户行为包含 “浏览次 ...
2025-11-03在 MySQL 数据查询中,“按顺序计数” 是高频需求 —— 例如 “统计近 7 天每日订单量”“按用户 ID 顺序展示消费记录”“按产品 ...
2025-10-31在数据分析中,“累计百分比” 是衡量 “部分与整体关系” 的核心指标 —— 它通过 “逐步累加的占比”,直观呈现数据的分布特征 ...
2025-10-31在 CDA(Certified Data Analyst)数据分析师的工作中,“二分类预测” 是高频需求 —— 例如 “预测用户是否会流失”“判断客户 ...
2025-10-31在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27