京公网安备 11010802034615号
经营许可证编号:京B2-20210330
精选大数据相关用语
大数据 (Big Data) 与数据科学 (Data Science) 已成为大众耳熟能详的词汇,各行各业正在积极运用且开发大数据的价值,这些巨量数据也带来了巨大的商机。
这时身处于大数据时代的我们,自然得对大数据有所认识,在这里为大家列出了一些经常跟大数据一起出现的陌生用语,认识了这些大数据相关字汇,下次看大数据的相关文章就不会一直卡了。
Algorithm 演算法
出自于数学用语,在这里指的是在有限步骤内,分析数据的具体方法,而且通常由软件来执行。
AIDC 自动识别技术
AIDC(Automatic Identification and Data Capture)是将讯息数据自动识读、自动输入电脑的重要方法和手段,它是以电脑技术和通信技术为基础的综合性科学技术。常见的 AIDC 例如条码(Bar codes)、磁条(magnetic strips)、生物识别(Biometrics)、RFID 等技术。
AWS 亚马逊网路服务系统
2006 年 Amazon 开始以 Web 服务的形式向企业提供各种云端运算服务,包括运算、储存、数据库、分析、应用程式和部署服务。现在许多科学家、开发人员以及各企业的技术人员都在利用 AWS (Amazon Web Services)进行大数据分析。
Avro 序列化系统
Avro 是 Hadoop 底下的子专案,是一个数据序列化系统(Data serialization system),被设计用来支援大量数据交换。
Behavioral analytics 行为分析
行为分析是指用科学方法分析环境刺激与行为之间的因果关系,藉着系统性的观察来了解行为的变化原则,进而有系统的操作刺激,以达到行为的学习、塑造或改变。简单来说,就是用一个有系统的方法去观察、测量、收集客观数据来分析目标的表现行为。
Big Data 大数据
大数据(or 巨量数据),顾名思义是指大量的资讯,当数据量庞大到数据库系统无法在合理时间内进行储存、运算、处理,分析成能解读的资讯时,就称为大数据。有兴趣深入了解请参考《巨量数据的时代,用「大、快、杂、疑」四字箴言带你认识大数据》以及《7 个你不可不知的大数据定义》。
BI 商业智慧
BI (Business Intelligence) 指用现代数据仓储技术、线上分析处理技术、数据挖掘进行数据分析,再以图形化的界面或报表呈现以实现商业价值。
Cassandra 数据库系统
是 Apache 软件基金会底下的开源分布式 NoSQL 数据库系统,适合用来管理巨量的结构化数据,由于其良好的可扩展性和性能,被 Digg、Twitter、Hulu、Netflix 等知名网站所采用。
CDR 详细通联记录
CDRs (Call Detail Record)是电信网路的使用纪录,例如通话时间、通话长度等资讯。CDR 是电信业者与企业分析网路营运和客户行为的重要资源。
Clickstream Analytics 点击流分析
点击流(Clickstream)就是使用者的在网页间来来去去的点选记录,也可以分成 Upstream –– 进入这个网站的「来源」,以及 Downstream —— 拜访完这个网站之後的「去向」。对于网路行销跟搜寻引擎来说,点击流分析是十分重要的参考。
Cloud Computing 云端运算
云端运算(Cloud Computing)是一种将数据、工具及程式放到网际网路上处理的资源利用方式,是一种分散式电脑运算(Distrubted computing)的概念,也就是让网路上不同的电脑同时帮你做一件事,可以大大的增加处理速度。
也因为所有资讯都被放置到网路的虚拟空间里,工程师在绘制示意图时常以一朵云来代表这个虚拟空间,因而有了「云端(Cloud)」一名。
Data Mining 数据探勘
顾名思义,就好比在地球上从一堆粗糙的石头中进行地物探勘、寻找有价值的矿脉,数据探勘就是从巨量数据中提取出未知的、有价值的潜在资讯。
Data Modelling 数据建模
数据模式(Data Model)在资讯系统中指的是数据如何被表达、储存及取用的方式,包括数据的格式、定义和属性,数据之间的关系,以及数据的限制,而数据模式的设计过程就称为「数据建模」。
Data Visualization 数据视觉化
是关于数据之视觉表现形式的研究,数据视觉化的技术可以帮助不同背景的工程人员沟通、理解,以达良好的设计与分析结果。
Data Experts 数据专家
数据专家就是能利用数据作出研究评估的专业人士,像是数据分析师、数据科学家、数据架构师等都可以被归类为数据专家,其工作内容细分请参考《数据分析师?科学家?架构师?大数据人才的工作内容及年薪比较》。
Exploratory Data Analysis 探索式分析
探索式数据分析是指在没有标准流程跟方法的情况下,在现有的数据中找寻数据的结构和特点、探索潜藏于数据中的讯息,这种数据分析方法强调的是探索式的分析而非严谨的模式确认。
Hadoop 技术
Hadoop 是一个能够储存并管理大量数据的云端平台,为 Apache 软件基金会底下的一个开放原始码、社群基础、而且完全免费的软件,Hadoop 的两大核心功能 —— 储存(Store)及处理(Process)数据所用到的分散式档案系统 HDFS 跟 MapReduce 平行运算架构。Hadoop 被广泛应用于大数据储存和大数据分析,成为大数据的主流技术。有兴趣深入了解请参考《认识大数据的黄色小象帮手 –– Hadoop》。
Internet of Things 物联网
物联网(Iots)是一个全球化的网路基础建设,透过数据撷取以及通讯能力以连结实体与虚拟物件,透过网际网路的发展,物连网可透过特定的机制,将所有装置连结在一起,以供控制、侦测、识别,并交换所有的资讯。
NoSQL 数据库系统
NoSQL 最早是指「No SQL」,号称不使用 SQL 作为查询语言的数据库系统。但近来则普遍将 NoSQL 视为「Not Only SQL」,也就是「不只是 SQL」的意思,希望结合 SQL 优点并混用关联式数据库和 NoSQL 数据库来达成最佳的储存效果。
在巨量数据所带动的潮流下,各种不同形态的NoSQL数据库如雨後春笋般窜起,其中 MongoDB 是众多 NoSQL 数据库软件中较为人熟知的一种。
Predictive Analytics 预测分析
是指透过预测模型、机器学习、数据挖掘等技术来分析现有和历史的事实数据对未来作出预测的数据分析方法。
R 语言
R 是一个开放原始码统计软件,提供统计计算和绘图功能,类似 Matlab 跟 SAS,而 R 不但免费 而且简单易上手,近年来成为数据科学界里的重要工具。
SaaS 软件即服务
SaaS (Software-As-A-Service)是随着网际网路技术和应用软件的成熟而兴起的一种软件应用模式。SaaS 提供商将软件统一部署在自己的伺服器上,藉由网路提供软件给客户,所以客户不用购买软件,而是根据需求向提供商订购所需的服务,且客户无需对软件进行维护,服务提供商会全权管理和维护软件;软件厂商在向客户提供网际网路应用的同时,也提供软件的离线操作和本地数据存储,让客户随时随地都可以使用其定购的软件和服务。
对于许多小型企业来说,SaaS 是采用先进技术的最好途径,它消除了企业购买、构建和维护基础设施和应用程式的需要。
Terabyte (1 000 000 000 000 Bytes)
TB 为兆位元组,是数据量的分级,相当于 10^12 bytes。其他数据量分级如下:
Bytes (8 Bits)
Kilobyte (1000 Bytes)
Megabyte (1 000 000 Bytes)
Gigabyte (1 000 000 000 Bytes)
Terabyte (1 000 000 000 000 Bytes)
Petabyte (1 000 000 000 000 000 Bytes)
Exabyte (1 000 000 000 000 000 000 Bytes)
Zettabyte (1 000 000 000 000 000 000 000 Bytes)
Yottabyte (1 000 000 000 000 000 000 000 000 Bytes)
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27