想玩大数据？这些专业术语你知道吗(2)_数据分析师-CDA数据分析师官网

热线电话：13121318867

想玩大数据？这些专业术语你知道吗(2)_数据分析师

2015-03-03

平台即服务(PaaS: Platform-as-a-Service)——为云计算解决方案提供所有必需的基础平台的一种服务
　　预测分析(Predictive analysis)——大数据分析方法中最有价值的一种分析方法，这种方法有助于预测个人未来(近期)的行为，例如某人很可能会买某些商品，可能会访问某些网站，做某些事情或者产生某种行为。通过使用各种不同的数据集，例如历史数据，事务数据，社交数据，或者客户的个人信息数据，来识别风险和机遇
　　隐私(Privacy)——把具有可识别出个人信息的数据与其他数据分离开，以确保用户隐私。
　　公共数据(Public data)——由公共基金创建的公共信息或公共数据集。
　　Q
　　数字化自我(Quantified Self)——使用应用程序跟踪用户一天的一举一动，从而更好地理解其相关的行为
　　查询(Query)——查找某个问题答案的相关信息
　　R
　　再识别(Re-identification)——将多个数据集合并在一起，从匿名化的数据中识别出个人信息
　　回归分析(Regression analysis)——确定两个变量间的依赖关系。这种方法假设两个变量之间存在单向的因果关系(译者注：自变量，因变量，二者不可互换)
　　RFID——射频识别; 这种识别技术使用一种无线非接触式射频电磁场传感器来传输数据
　　实时数据(Real-time data)——指在几毫秒内被创建、处理、存储、分析并显示的数据
　　推荐引擎(Recommendation engine)——推荐引擎算法根据用户之前的购买行为或其他购买行为向用户推荐某种产品
　　路径分析(Routing analysis)——针对某种运输方法通过使用多种不同的变量分析从而找到一条最优路径，以达到降低燃料费用，提高效率的目的
　　S
　　半结构化数据(Semi-structured data)——半结构化数据并不具有结构化数据严格的存储结构，但它可以使用标签或其他形式的标记方式以保证数据的层次结构
　　情感分析(Sentiment Analysis)——通过算法分析出人们是如何看待某些话题
　　信号分析(Signal analysis)——指通过度量随时间或空间变化的物理量来分析产品的性能。特别是使用传感器数据。
　　相似性搜索(Similarity searches)——在数据库中查询最相似的对象，这里所说的数据对象可以是任意类型的数据
　　仿真分析(Simulation analysis)——仿真是指模拟真实环境中进程或系统的操作。仿真分析可以在仿真时考虑多种不同的变量，确保产品性能达到最优
　　智能网格(Smart grid)——是指在能源网中使用传感器实时监控其运行状态，有助于提高效率
　　软件即服务(SaaS: Software-as-a-Service)——基于Web的通过浏览器使用的一种应用软件
　　空间分析(Spatial analysis)——空间分析法分析地理信息或拓扑信息这类空间数据，从中得出分布在地理空间中的数据的模式和规律SQL——在关系型数据库中，用于检索数据的一种编程语言
　　结构化数据(Structured data) -可以组织成行列结构，可识别的数据。这类数据通常是一条记录，或者一个文件，或者是被正确标记过的数据中的某一个字段，并且可以被精确地定位到。
　　T
　　T字节(TB: Terabytes)——约等于1000 GB(gigabytes)。1 TB容量可以存储约300小时的高清视频。
　　时序分析(Time series analysis)——分析在重复测量时间里获得的定义良好的数据。分析的数据必须是良好定义的，并且要取自相同时间间隔的连续时间点。
　　拓扑数据分析(Topological Data Analysis)——拓扑数据分析主要关注三点：复合数据模型、集群的识别、以及数据的统计学意义。
　　交易数据(Transactional data)——随时间变化的动态数据透明性(Transparency)——消费者想要知道他们的数据有什么作用、被作何处理，而组织机构则把这些信息都透明化了。
　　U
　　非结构化数据(Un-structured data)——非结构化数据一般被认为是大量纯文本数据，其中还可能包含日期，数字和实例。
　　V
　　价值(Value)——(译者注：大数据4V特点之一) 所有可用的数据，能为组织机构、社会、消费者创造出巨大的价值。这意味着各大企业及整个产业都将从大数据中获益。
　　可变性(Variability)——也就是说，数据的含义总是在（快速）变化的。例如，一个词在相同的推文中可以有完全不同的意思。
　　多样(Variety)——(译者注：大数据4V特点之一) 数据总是以各种不同的形式呈现，如结构化数据，半结构化数据，非结构化数据，甚至还有复杂结构化数据
　　高速(Velocity)——(译者注：大数据4V特点之一) 在大数据时代，数据的创建、存储、分析、虚拟化都要求被高速处理。
　　真实性(Veracity)——组织机构需要确保数据的真实性，才能保证数据分析的正确性。因此，真实性(Veracity)是指数据的正确性。
　　可视化(Visualization)——只有正确的可视化，原始数据才可被投入使用。这里的“可视化”并非普通的图型或饼图，可视化指是的复杂的图表，图表中包含大量的数据信息，但可以被很容易地理解和阅读。
　　大量(Volume)——(译者注：大数据4V特点之一) 指数据量，范围从Megabytes至BrontobytesW
　　天气数据(Weather data)——是一种重要的开放公共数据来源，如果与其他数据来源合成在一起，可以为相关组织机构提供深入分析的依据X
　　XML数据库(XML Databases)——XML数据库是一种以XML格式存储数据的数据库。XML数据库通常与面向文档型数据库相关联，开发人员可以对XML数据库的数据进行查询，导出以及按指定的格式序列化Y
　　Y字节 (Yottabytes)——约等于1000 ZB (Zettabytes), 约等于250万亿张DVD的数据容量。现今，整个数字化宇宙的数据量为1 YB, 并且将每18年翻一番。
　　Z
　　Z字节 (ZB: Zettabytes)——约等于1000 EB (Exabytes), 约等于1百万 TB。据预测，到2016年全球范围内每天网络上通过的信息大约能达到1 ZB。
　　附：存储容量单位换算表：
　　1 Bit(比特) = Binary Digit
　　8 Bits = 1 Byte(字节)
　　1,000 Bytes = 1 Kilobyte
　　1,000 Kilobytes = 1 Megabyte
　　1,000 Megabytes = 1 Gigabyte
　　1,000 Gigabytes = 1 Terabyte
　　1,000 Terabytes = 1 Petabyte
　　1,000 Petabytes = 1 Exabyte
　　1,000 Exabytes = 1 Zettabyte
　　1,000 Zettabytes = 1 Yottabyte
　　1,000 Yottabytes = 1 Brontobyte
　　1,000 Brontobytes = 1 Geopbyte。