京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据:在信息的海洋里寻找洞见_数据分析师
什么是 「大数据」 (Big data)?研究机构 Gartner 给出了这样的定义。「大数据」是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据是数据分析的前沿技术。从各种类型的数据中,快速获得有价值信息的能力,就是大数据技术,这也正是促使大数据技术具备走向众多企业的潜力。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理,通过「加工」实现数据的「增值」。
近 10 年来,政府和企业在世界范围内收集了大量互联网用户的数据,不仅仅是姓名和数字,而是一连串数据—大数据。 国际数据公司 (International Data Corporation) 最近预测大数据行业复合年增长率将达到 26.4%,在 2018 年达到 415 亿美元。这意味着越来越多的企业和组织将花费巨资研究分析大数据并获得有价值的信息。负责美国宇航局在加州帕萨迪纳市的喷气推进实验室大数据的 Chris Mattmann 表示,NASA 总共管理着几百 PB 容量的数据,几乎达到 1EB。
1 EB(Exabyte,艾可萨字节或艾字节) 是多少容量?这意味着 10 亿 GB,像这样:1000000000 GB。
这些巨大的数据扩散的速度如此之快以至于传统的数据技术跟不上它们的节奏。TNS 市场研究公司 (Taylor Nelson Sofres)亚太地区首席执行官 Chris Riquier 告诉我大数据对市场研究有非常大的影响。Riquier 表示,市场研究是建立在调研和问卷调查之上的。他讲道,在过去,调研的过程或花费数周的时间,最终用呈现的数据来分析企业规模和相关信息,通过整合社交媒体数据、搜索数据以及其他形式的大数据来做成报告,而现在我们有机会来「重新思考研究是如何完成的。」Riquier 表示,由于大数据,我们对「市场和决策力的反应已经发生了很大的变化。」
在今天的数字世界里,大数据通过跨行业、政府、科学、公共健康和学术界来发现相关性。在过去,从信息里的海洋里获得有用的数据信息对大多数人来说一直是可望而不可即的事情。直到去年,哈佛杂志在 2014 年刊登的一篇文章,标题为「为什么大数据是一桩大买卖?」( Why「Big Data」is a Big Deal ),文中表示通过改进的统计和计算方法, 包括关联数据集、可视化数据以及创建「大算法」等这些关键的创新,能使我们快速处理这些数据并为我们所用。从物理学家到文天学家,他们长期与大数据打交道,数据科学家和社会学家通过结合定量与定性的方法来从大数据中获得有用的信息。实际上,大数据正在创造一个新领域,哈佛大学工程与应用科学学院为此开设数据科学硕士学位。
在《大数据-一场改变我们生活、工作和思考的革命》一书中,Viktor Mayer-Schonberger 和 Kenneth Cukier 谈到企业是如何改变方式来做出决策—基于对大数据的分析。例如,谷歌通过其收集的大数据来预测预测禽流感的散布,其反应速度比美国疾病控制中心还要迅速。
据 华尔街日报 最近的一篇文章,加拿大银行使用由开源软件开发商 Apache 开发的 Hadoop 来储存和处理大数据,并能识别洗钱和欺诈等犯罪行为。
大数据之于普通人
哈佛、NASA、谷歌和 Apache 利用大数据的分析能力在世界范围内带来先进的技术,但就像我之前提到的,这并不意味着科学家们能很快从大数据中受益。让我们来看一看一些企业和公司在收集和管理大数据的几个方面。
其中大数据最主要的一个用途就是在市场中的搜索引擎优化(SEO)。公司和企业能利用搜索引擎公司如谷歌和必应提供的工具,结合不同的社交媒体数据,收集有用的信息来进行网络营销。咨询公司 Hall Analysis 的研究员 Joe Hall 主要研究搜索引擎优化和大数据,他表示有两种方法能使用大数据来处理搜索引擎优化。
他说:「第一种是处理与大数据集有关联的业务。在大多数情况下这意昧着大品牌和大企业能获得非常多的数据。」Hall 引用一个例子,一个客户有 1600 万个反向链接,或者从其他网站链接指向客户的网站。这些链接对谷歌和其他搜索引擎来说是一个非常重要的排名因素。他解释说,数据集的大小需要像模式分析那样有强大的处理各种任务的能力,并在这种水准下为反向链接分析改变规则。
Hall 表示,第二种方法是公司能利用大数据使搜索引擎优化变得更具态势感知能力。这表明使用相关性研究能更好了解排名因素以及用户点击率、排名结果页面等用户行为分析。这两种分析类型都需要大数据分析来达到最终的目的,并能有效帮助 SEO 专家开阔一个「更大的局面」。
另一方面是大数据在商业活动中能获得用户的忠诚度。举个例子,比如我是一个创业公司的创始人,在我成功运作公司的第一年后,公司业绩蒸蒸日上,于是我给自己放个大假,去夏威夷度假。但在机场安检的时候,检票员告知我由于我的箱子超重,我需要付额外的费用。但是检票员可能不知道,作为一个成功创业公司的创始人和 CEO,我和我的员工将会在全世界各大城市奔波,为航空公司贡献更多的里程。如果航空公司使用大数据整合来自信用卡公司、社交媒体源、博客、酒店等相关信息,他们会可能取消这样的额外收费还能获得一个忠诚的客户。
无论是大公司的 CEO 或是研究癌症的医生,或是一个淘宝店老板,使用大数据分析都将会为他们带来有价值的信息。当我们进入到这样一个时代:基于大数据分析来作出决策,这将不可避免地改变我们思考世界的方式。
今天这一代人出生在数字化时代。而下一代人将进入大数据时代。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在企业经营决策中,销售额预测是核心环节之一——无论是库存备货、营销预算制定、产能规划,还是战略布局,都需要基于精准的销售 ...
2026-03-09金融数据分析的核心价值,是通过挖掘数据规律、识别风险、捕捉机会,为投资决策、风险控制、业务优化提供精准支撑——而这一切的 ...
2026-03-09在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心工作,是通过数据解读业务、支撑决策,而指标与指标体系 ...
2026-03-09在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05数据治理是数字化时代企业实现数据价值最大化的核心前提,而CDA(Certified Data Analyst)数据分析师作为数据全生命周期的核心 ...
2026-03-05在实验检测、质量控制、科研验证等场景中,“方法验证”是确保检测/分析结果可靠、可复用的核心环节——无论是新开发的检测方法 ...
2026-03-04在数据分析、科研实验、办公统计等场景中,我们常常需要对比两组数据的整体差异——比如两种营销策略的销售额差异、两种实验方案 ...
2026-03-04在数字化转型进入深水区的今天,企业对数据的依赖程度日益加深,而数据治理体系则是企业实现数据规范化、高质量化、价值化的核心 ...
2026-03-04在深度学习,尤其是卷积神经网络(CNN)的实操中,转置卷积(Transposed Convolution)是一个高频应用的操作——它核心用于实现 ...
2026-03-03在日常办公、数据分析、金融理财、科研统计等场景中,我们经常需要计算“平均值”来概括一组数据的整体水平——比如计算月度平均 ...
2026-03-03在数字化转型的浪潮中,数据已成为企业最核心的战略资产,而数据治理则是激活这份资产价值的前提——没有规范、高质量的数据治理 ...
2026-03-03在Excel办公中,数据透视表是汇总、分析繁杂数据的核心工具,我们常常通过它快速得到销售额汇总、人员统计、业绩分析等关键结果 ...
2026-03-02在日常办公和数据分析中,我们常常需要探究两个或多个数据之间的关联关系——比如销售额与广告投入是否正相关、员工出勤率与绩效 ...
2026-03-02在数字化运营中,时间序列数据是CDA(Certified Data Analyst)数据分析师最常接触的数据类型之一——每日的营收、每小时的用户 ...
2026-03-02在日常办公中,数据透视表是Excel、WPS等表格工具中最常用的数据分析利器——它能快速汇总繁杂数据、挖掘数据关联、生成直观报表 ...
2026-02-28有限元法(Finite Element Method, FEM)作为工程数值模拟的核心工具,已广泛应用于机械制造、航空航天、土木工程、生物医学等多 ...
2026-02-28