
大数据解决方案的原子模式和复合模式
如何将大数据分为不同的类别
大数据问题的分析和解决通常很复杂。大数据的量、速度和种类使得提取信息和获得业务洞察变得很困难。以下操作是一个良好的开端:依据必须处理的数据的格式、要应用的分析类型、使用的处理技术,以及目标系统需要获取、加载、处理、分析和存储数据的数据源,对大数据问题进行分类。
概述
大数据可通过许多方式来存储、获取、处理和分析。每个大数据来源都有不同的特征,包括数据的频率、量、速度、类型和真实性。处理并存储大数据时,会涉及到更多维度,比如治理、安全性和策略。选择一种架构并构建合适的大数据解决方案极具挑战,因为需要考虑非常多的因素。
这个 “大数据架构和模式” 系列提供了一种结构化和基于模式的方法来简化定义完整的大数据架构的任务。因为评估一个业务场景是否存在大数据问题很重要,所以我们包含了一些线索来帮助确定哪些业务问题适合采用大数据解决方案。
从分类大数据到选择大数据解决方案
如果您花时间研究过大数据解决方案,那么您一定知道它不是一个简单的任务。本系列将介绍查找满足您需求的大数据解决方案所涉及的主要步骤。
我们首先介绍术语 “大数据” 所描述的数据类型。为了简化各种大数据类型的复杂性,我们依据各种参数对大数据进行了分类,为任何大数据解决方案中涉及的各层和高级组件提供一个逻辑架构。接下来,我们通过定义原子和复合分类模式,提出一种结构来分类大数据业务问题。这些模式有助于确定要应用的合适的解决方案模式。我们提供了来自各行各业的示例业务问题。最后,对于每个组件和模式,我们给出了提供了相关功能的产品。
第 1 部分将介绍如何对大数据进行分类。本系列的后续文章将介绍以下主题:
♦ 定义大数据解决方案的各层和组件的逻辑架构
♦ 理解大数据解决方案的原子模式
♦ 理解用于大数据解决方案的复合(或混合)模式
♦ 为大数据解决方案选择一种解决方案模式
♦ 确定使用一个大数据解决方案解决一个业务问题的可行性
♦ 选择正确的产品来实现大数据解决方案
依据大数据类型对业务问题进行分类
业务问题可分类为不同的大数据问题类型。以后,我们将使用此类型确定合适的分类模式(原子或复合)和合适的大数据解决方案。但第一步是将业务问题映射到它的大数据类型。下表列出了常见的业务问题并为每个问题分配了一种大数据类型。
按类型对大数据问题分类,更容易看到每种数据的特征。这些特征可帮助我们了解如何获取数据,如何将它处理为合适的格式,以及新数据出现的频率。来自不同来源的数据具有不同的特征;例如,社交媒体数据包含不断传入的视频、图像和非结构化文本(比如博客文章)。
表 1. 不同类型的大数据业务问题
我们依据这些常见特征来评估数据,下一节将详细介绍这些特征:
♦ 内容的格式
♦ 数据的类型(例如,交易数据、历史数据或主数据)
♦ 将提供该数据的频率
♦ 意图:数据需要如何处理(例如对数据的临时查询)
♦ 处理是否必须实时、近实时还是按批次执行。
使用大数据类型对大数据特征进行分类
按特定方向分析大数据的特征会有所帮助,例如以下特征:数据如何收集、分析和处理。对数据进行分类后,就可以将它与合适的大数据模式匹配:
1、分析类型 — 对数据执行实时分析还是批量分析。请仔细考虑分析类型的选择,因为这会影响一些有关产品、工具、硬件、数据源和预期的数据频率的其他决策。一些用例可能需要混合使用两种类型:
2、欺诈检测;分析必须实时或近实时地完成。
3、针对战略性业务决策的趋势分析;分析可采用批量模式。
4、处理方法 — 要应用来处理数据的技术类型(比如预测、分析、临时查询和报告)。业务需求确定了合适的处理方法。可结合使用各种技术。处理方法的选择,有助于识别要在您的大数据解决方案中使用的合适的工具和技术。
5、数据频率和大小 — 预计有多少数据和数据到达的频率多高。知道频率和大小,有助于确定存储机制、存储格式和所需的预处理工具。数据频率和大小依赖于数据源:
♦ 按需分析,与社交媒体数据一样
♦ 实时、持续提供(天气数据、交易数据)
♦ 时序(基于时间的数据)
6、数据类型 — 要处理数据类型 — 交易、历史、主数据等。知道数据类型,有助于将数据隔离在存储中。
7、内容格式(传入数据的格式)结构化(例如 RDMBS)、非结构化(例如音频、视频和图像)或半结构化。格式确定了需要如何处理传入的数据,这是选择工具、技术以及从业务角度定义解决方案的关键。
8、数据源 — 数据的来源(生成数据的地方),比如 Web 和社交媒体、机器生成、人类生成等。识别所有数据源有助于从业务角度识别数据范围。该图显示了使用最广泛的数据源。
9、数据使用者 — 处理的数据的所有可能使用者的列表:
♦ 业务流程
♦ 业务用户
♦ 企业应用程序
♦ 各种业务角色中的各个人员
♦ 部分处理流程
♦ 其他数据存储库或企业应用程序
10、硬件 — 将在其上实现大数据解决方案的硬件类型,包括商用硬件或最先进的硬件。理解硬件的限制,有助于指导大数据解决方案的选择。
图 1 描绘用于分类大数据的各种类别。定义大数据模式的关键类别已识别并在蓝色方框中突出显示。大数据模式(将在下一篇文章中定义)来自这些类别的组合。
图 1. 大数据分类
结束语和致谢
在本系列剩余部分中,我们将介绍大数据解决方案的逻辑架构和各层,从访问到使用大数据。我们将提供数据源的完整列表,介绍专注于大数据解决方案的每个重要方面的原子模式。我们还将介绍复合模式,解释可如何结合使用原子模式来解决特定的大数据用例。本系列最后将提供一些解决方案模式,在广泛使用的用例与各个产品之间建立对应关系。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29CDA 数据分析与量化策略分析流程:协同落地数据驱动价值 在数据驱动决策的实践中,“流程” 是确保价值落地的核心骨架 ——CDA ...
2025-08-29CDA含金量分析 在数字经济与人工智能深度融合的时代,数据驱动决策已成为企业核心竞争力的关键要素。CDA(Certified Data Analys ...
2025-08-28CDA认证:数据时代的职业通行证 当海通证券的交易大厅里闪烁的屏幕实时跳动着市场数据,当苏州银行的数字金融部连夜部署新的风控 ...
2025-08-28