京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据如何改变世界?不尽数据滚滚来
世纪之初,全球化概念大热,弗里德曼告诉人们,世界是平的。大数据来袭的今天,人们越来越感觉,世界是透明的。大数据让社会生活更便捷的同时,也把人们的生活痕迹印刻在互联网上。挑战与机遇并存,价值与风险同在,如何趋利避害用好这把双刃剑,将考验人类智慧。
凡有井水处,皆谈大数据。关于大数据,先说个段子。
必胜客店的电话铃响了,客服人员拿起电话,通过会员卡号,顾客的住址电话一目了然。客服婉拒了海鲜披萨的点餐要求,因为顾客的胆固醇偏高。客服接着又推荐了低脂健康食谱,因为顾客上周刚从图书馆借走一本书《低脂健康食谱》。
接下来的对话更有精彩,容我录下来——
顾客:可以刷卡吗?
客服:对不起,您的信用卡已经刷爆了,您现在还欠银行4807元,而且还不包括房贷利息。
顾客:那我先去附近的提款机提款。
客服:根据记录,您已经超过今日提款限额。
顾客:算了,你们直接把披萨送到我家吧,家里有现金。你们多久送到?
客服:大约30分钟。如果您不想等,可以自己骑车来。
顾客:为什么?
客服:根据全球定位系统的车辆行驶自动跟踪系统记录,您有一辆摩托车正行驶在我们店附近。
顾客当即晕倒。
希望读者不要晕倒。没错,这就是街谈巷议的大数据。在这个愈来愈讲究用数字说话的时代,大数据的概念始终如盛夏般火热。即使在冬季,仍会有“春运大数据”、“双12消费大数据”这样吸引眼睛的消息跳跃在媒体头条。
什么是大数据
大数据这个IT行业术语,通俗点来说,就是巨量数据集合。
再具体一点?那就是麦肯锡全球研究所给出的定义:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
大数据之前,人们喜欢抽样调查,随机抽取的捷径。有了大数据,就可以采用所有数据进行分析处理。
比如说,一张小小公交卡。北京公交一卡通每天产生4千万条刷卡记录,分析这些刷卡记录,可以清晰了解北京市民的出行规律,以有效改善城市交通。
再举个商铺选址的例子,对大数据概念的理解会更加一目了然。
南京路上的先施公司,是老上海永远无法抹去的风景。1914年,侨商黄焕南去上海选址时,南京路还比较冷清,他派人到各路口,用数豆子的办法测定人流量,最后决定在南京路北兴建先施公司。
黄焕南为新店选址的办法,当时堪称机智。后来,人们通过统计网站拉数据的方法,费时费力费钱,还未必十分精准。而且,如果选址的范围扩展到全国城市,个人和小团队仅凭商业直觉和有限的知识是远远不够的,这时候,就需要大数据登场了,利用商业地理数据进行商业选址及消费者地理细分让难题迎刃而解。
打开手机地图,我们在手机APP上的位置信息最后都进入了各大公司的后台,人流量、人流方向、人流随时间变化,通过实时路况或热力图,一目了然,这些数据,正好可以用来做新店选址。
除了地图,还有强大的搜索引擎。当将搜索+LBS技术打通后,倘若地处城乡结合部的上海闵行区频繁出现“火锅”关键词搜索后,海底捞、小天鹅们可以适时考虑开家分店了。
透过选址一件事,可以看出,大数据技术的战略意义不仅在于掌握庞大的数据信息,还在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
大数据的应用
“广西的人最爱点赞,河北人最爱看段子,最关心时政的是山西人,最关注八卦的是天津。”
这组有趣的数据,是今日头条根据用户习惯得出的。上线刚4年的今日头条,恰是一款基于数据化挖掘的个性化信息推荐引擎,目前已经累计用户5.5亿,日活跃用户超过了6000万,成为增长最快的资讯类客户端。
过去是依靠人总结知识,现在可以通过系统、学习用户的行为特征来储存智慧。当你拿着手机每看一篇文章,你的每一次点击和搜索,各种行为,都会被记录下来产生数据,形成推送——这是今日头条带来的启示。
还有比今日头条更精准的算法,发生在美国明尼苏达州。
在明州,一家塔吉特门店被客户投诉,原因是一位中年男子指控塔吉特将婴儿产品优惠券寄给他的女儿,一个高中生。但没多久男子来电道歉,因为女儿经他逼问后坦承自己真的怀孕了。塔吉特百货靠着分析用户所有的购物数据,然后通过相关关系分析得出事情的真实状况。
说到购物数据分析,太平洋西岸的义乌商人也毫不逊色。11月9日,美国总统选举结果揭晓,共和党总统候选人唐纳德·特朗普赢得总统选举,将成为美国第四十五任总统。这个多少有些出人意料的结果,其实精明的义乌人早就预测到了。
原来,美国大选大量竞选的旗帜都是浙江义乌制造的。川普和希拉里两种旗帜,谁的订单量大,说明谁的支持度高。旗帜工厂的小老板,根据双方竞选旗订单的大数据预测特朗普必胜,惊呆了一帮吃瓜群众。
上述三则案例,是再真实不过的大数据运用。大数据究竟给我们带来什么,答案不言自明。
我们就是生活在这样一个数据时代,阅读、购物、看病、旅游,打电话、刷微博、聊QQ、用微信,都在不断产生新数据。大数据已经与我们的工作生活息息相关、须臾难离。
没有人会否认,大数据时代已经来临,并将深刻地改变着人们的工作和生活。走进KTV,点歌机推荐的歌曲都是你的“拿手菜”;开车上路,可以避开“红蚯蚓”选择畅通路;网上购物,电商会预判用户的消费需求,提前在离用户最近的社区储备商品,大大缩短送货时间……细细一想,都是大数据在背后帮你。
放眼世界,洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生;google流感趋势利用搜索关键词预测禽流感的散布;麻省理工学院利用手机定位数据和交通数据建立城市规划。
有没有小小数据在手,世界尽在掌握的感觉?
大数据技术已在交通、医疗、金融、制造、通讯、推荐系统等行业中得到了广泛深度应用,大数据加速制造业转型,大数据助力交通更加便捷高效,大数据驱动金融精细化运营,大数据助推精准医疗快速发展……通过运用数据来催生新的服务,这是正在实现的改变,而不再是一张画饼。
大数据的发展趋势
种种迹象显示,从最初的大数据定义之争,到挖掘大数据应用价值、协商合作方向,大数据产业已经进入务实发展阶段。
务实发展也让人们对大数据的思考渐趋冷静:大数据尽管运用领域广阔,也没必要神话,它就是互联网发展到现今阶段的一种特征而已。在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,为人类创造更多的价值。
简单来说一下云计算,这是个和大数据形影不离的“小伙伴”。
技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据无法用单台的计算机进行处理,必须采用
分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。可以说,大数据相当于海量数据的“数据库”,云计算相当于计算机和操作系统,将大量的硬件资源虚拟化后在进行分配使用。
整体来看,未来的趋势是,云计算作为计算资源的底层,支撑着上层的大数据处理,而大数据的发展趋势是,实时交互式的查询效率和分析能力,“动一下鼠标就可以在秒级操作PB级别的数据”。
科普一下,PB是较高级的存储单位。1PB=1024TB。1TB=1024G。
之所以提到云计算,是因为,大数据与云计算的深度结合在将来会更加紧密。
自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。
大河奔涌,泥沙俱下,大数据的丰富,势必会带来大量低质量数据。想要成功,数据用户需要理解原始数据与数据分析之间的差距,从而消除低质量数据并通过商业智能获得更佳决策。所以,采用自助式商业智能工具进行大数据处理的企业将会脱颖而出。
大数据的野蛮成长,还会带来不少负面影响:未来几年数据泄露事件会接二连三,除非数据在源头就能够得到安全保障,企业需要从新的角度来确保自身以及客户数据的安全。
当然,数据泄露并不能阻拦数据科学成为一门专门学科的步伐。未来,各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。与此同时,基于数据这个基础平台,将建立起跨领域的数据共享平台,之后,数据共享将扩展到企业层面,并且成为未来产业的核心一环。
大数据让社会生活更智慧的同时,也把人们的生活痕迹印刻在互联网上。人们会担心,自己生活在四面透明的鱼缸里,难有秘密。网络安全,挑战与机遇并存,价值与风险同在,如何趋利避害用好这把双刃剑,将考验人类智慧。
大数据让世界更美好,这个时代愿景,随着防护手段的升级,会逐渐实现。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28