
数据融合的六个基本步骤
数据融合:大数据分析的瓶颈
数据处理新工具使数据科学家从数据准备的繁琐工作中解放出来,但如何根据每个数据分析项目量体定制,融合多源数据以形成有效的分析数据集仍是数据科学家必须面对的一个更具挑战性的瓶颈。
利用互联网购物的营销数据来追踪和勾画消费行为并以此为据促销是大数据应用的成功典型案例。有些人已此将大数据吹得神乎其神,好像它能成为万能药。其实,这只是大数据应用中的很小一部分。作为智能决策的支持手段之一,大数据在企业、事业、政府、社会管理和发展上的应用是更重要的挑战。在这里,多源数据的融合就成为大数据分析中的瓶颈。
每个亲身参加过大数据项目的数据科学家、数据分析师、数据库管理员都会告诉你,项目的80%的时间和经费花在数据的准备工作上。这其中多源数据的融合是最耗费资源的任务之一。难怪最近纽约时报惊呼:“数据科学家把高达 80%的时间用于数据准备而不是用来发现新的商业智能”。
传统的统计分析经常是对单一数据源(营销数据、行政报表、问卷调查、人口普查等)进行深入的追踪和分析。分析人员对数据的来源和结构有一定的控制和深层的了解。在大数据时代,数据源是多样的、自然形成的、海量的数据常常是半结构或无结构的。这就要求数据科学家和分析师驾驭多样、多源的数据,将它们梳理后进行挖掘和分析。在这个过程中,数据融合(data blending)就成为不可或缺的一步。
数据融合与数据仓库(Data Warehouse)、数据一体化(Data Integration)不同。它的目的不是将一个企业(Enterprise)或组织的所有数据集中在一起并标准化而产生唯一的真相(Single Truth)。它是以产生决策智能为目标将多种数据源中的相关数据提取、融合、梳理整合成一个分析数据集(Analytic Dataset)。这个分析数据集是个独立的和灵活的实体,可随数据源的变化重组、调整和更新。数据融合胜于数据仓库和数据一体化的另一点是它能包容多源数据。
数据融合有六个基本步骤:
连接所需多源数据库并获取相关数据,
研究和理解所获得的数据,
梳理和清理数据,
数据转换和建立结构,
数据组合,
建立分析数据集。
这个过程的每一步都需要数据工作者认真细致的思考、辨认、测试、清理、最后产生可信赖、有意义的分析数据库。在过去,这个数据准备过程很大程度上是通过手动,十分费时和艰辛。即使有数据处理的软件(如Excel, SAS, SPSS等),每个数据工作者也都是自己使用所熟悉的工具,形成个性化的,充其量是半自动的数据准备程序。最近几年,大数据技术公司将数据处理整合过程中相关技术集合,组合,提升后开发出专门用于数据融合的新工具。应用这些直观、可视、高效的软件工具,数据准备的过程的工效大大提高,在一定程度上解决了数据融合的技术瓶颈。
数据融合的另一瓶颈是思维。打个比方,数据融合就像水泥的现场合成。水泥制作可以从人工搅拌变为机械合成,提高了工效。但水泥配置仍需要正确的配方;沙、石、混凝土的比例,以及相关化学成份的添加对达到水泥的质量标准至关重要。数据处理新工具使数据科学家从数据准备的繁琐工作中解放了出来,但如何根据每个数据分析项目量体定制,融合多源数据以形成有效的分析数据集仍是数据科学家必须面对的一个更具挑战性的瓶颈。
多源的数据可以归纳为三大类:
一手数据(Primary Data),包括企业或组织直接采集掌控的内部运行数据和营销数据,
二级数据(Secondary Data),第三者采集、整理、和提供的二手数据,如经济指标、人口普查、民意调查、网路数据等,
科学数据(Scientific Data),包括科学研究 的成果、指数、算法、模型等。
这三类数据为数据为驱动的智能决策提供了不同的观察角度。一手数据具体、灵活、快速积累能够实时或接近实时地为决策者提供监测、追踪、描述信息。二级数据一般是定期公布的数据,它能提供国家、地区、行业的状况信息,成为数据分析中的可比性坐标。科学数据的更新是不定时的,但它代表着目前科研成果,对数据分析的建模和算法提供科学基础。在大数据分析项目中,数据科学家需要针对具体研究课题同时收集、整理、融合相关的三类数据。数据科学家的水平就体现在将三类数据合理、有效、有意义的融合上。
数据融合是目前大数据应用和智能决策过程中一个瓶颈。这个挑战引发了新一轮大数据工具的快速发展。根据2016年高德纳公司数据管理和分析软件工具的评估报告,自我服务式数据准备软件(Self-service Data Preparation)已成为发展最快的工具之一。这一发展趋势应引起我们的关注。同时,数据融合的思维瓶颈仍是所有数据科学家必须面对的更高层次的挑战。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“纲举目张,执本末从。”若想在数据分析领域有所收获,一套合适的学习教材至关重要。一套优质且契合需求的学习教材无疑是那关键 ...
2025-06-092025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-05-27CDA数据分析师证书考试体系(更新于2025年05月22日)
2025-05-26解码数据基因:从数字敏感度到逻辑思维 每当看到超市货架上商品的排列变化,你是否会联想到背后的销售数据波动?三年前在零售行 ...
2025-05-23在本文中,我们将探讨 AI 为何能够加速数据分析、如何在每个步骤中实现数据分析自动化以及使用哪些工具。 数据分析中的AI是什么 ...
2025-05-20当数据遇见人生:我的第一个分析项目 记得三年前接手第一个数据分析项目时,我面对Excel里密密麻麻的销售数据手足无措。那些跳动 ...
2025-05-20在数字化运营的时代,企业每天都在产生海量数据:用户点击行为、商品销售记录、广告投放反馈…… 这些数据就像散落的拼图,而相 ...
2025-05-19在当今数字化营销时代,小红书作为国内领先的社交电商平台,其销售数据蕴含着巨大的商业价值。通过对小红书销售数据的深入分析, ...
2025-05-16Excel作为最常用的数据分析工具,有没有什么工具可以帮助我们快速地使用excel表格,只要轻松几步甚至输入几项指令就能搞定呢? ...
2025-05-15数据,如同无形的燃料,驱动着现代社会的运转。从全球互联网用户每天产生的2.5亿TB数据,到制造业的传感器、金融交易 ...
2025-05-15大数据是什么_数据分析师培训 其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数 ...
2025-05-14CDA持证人简介: 万木,CDA L1持证人,某电商中厂BI工程师 ,5年数据经验1年BI内训师,高级数据分析师,拥有丰富的行业经验。 ...
2025-05-13CDA持证人简介: 王明月 ,CDA 数据分析师二级持证人,2年数据产品工作经验,管理学博士在读。 学习入口:https://edu.cda.cn/g ...
2025-05-12CDA持证人简介: 杨贞玺 ,CDA一级持证人,郑州大学情报学硕士研究生,某上市公司数据分析师。 学习入口:https://edu.cda.cn/g ...
2025-05-09CDA持证人简介 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度、美团、阿里等 ...
2025-05-07相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27