京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据:创造崭新的生存环境_数据分析师
大数据,已经为人类创造出一个崭新的环境。信息技术使人类置身于一个崭新的数字化的数据环境,这个环境一方面扩大了人类的理解,另一方面,作为个体则必须在这个特定的环境中对自己的目的、价值和意图进行重建,从而达到强调自己个性和分享他人个性的理解。
各行各业,当下是言必称数据。那么究竟何为大数据呢?根据我的理解,如果说互联网是关于“物”的,那么大数据就是关于“人”的,所以说只有关于人的数据才能称之为大数据。大数据并非数据大。纯粹从量上看,大数据在互联网上早就存在了,在其基础之上,催生了整个搜索产业。可当下时髦的“大数据”一词却有所不同,它所展示的是以网络为依托的新型社会媒体的一个方面。由于直接与人相关,大数据成了金矿,有待人们进行数据挖掘,并从中寻求各种机会。数据挖掘已是相当成熟的领域,它把人的行为的结构化数据与其背景和人口统计学的信息相结合,已经产生出很多成果和应用,如有的放矢的广告和营销等。人们可以把社会媒体大数据中提取出的自然语言文本的情感挖掘视为一种数据挖掘的自然延伸。由于大数据的无限开放性,未来的潜力甚至更大。
人的行为维度具有无限的可能性,但人的资源却又是有限的。那么如何协调无限和有限的关系?由于有了海量的数据和强大的计算处理能力,有了人与人、人与物的互联互通,就是可以成就人的行为的无限可能性。举个例子来说,电子商务把这一点体现得淋漓尽致。但传统的数据由于属性有限,个体参与度较低,其价值预期比例大,即数据处于压缩状态,而无法协调无限和有限的关系。大数据体现的结果就是将传统的数据“解压缩”,使其数据密度大大减小,从而放大个体数据的效应。由于大数据是关于人的,那么它就不单是一个技术问题,而且也是一个管理问题。认识到这一点就要破除传统的管理办法,将数据打通,使其不断更新,避免产生“数据孤岛”现象。那么,首先就要给出“全量数据”,也就是说,关键的数据不能缺失;其次,那些关键信息是不能靠专家规定。
大数据是关于人的,可是它们却都要被计算机处理。因此关于人的数据一定要有关于原始大数据的“元数据”,它们是为机器服务的。必须通过元数据的语义标示并赋予其意义,才能被机器处理。因此,若想从数据中发现知识,就必需大量的元数据。元数据就好比影视剧中的“桥段”,将机器中的原始数据与人的行为连接起来。而大数据挖掘技术恰恰就是针对元数据的。尽管如此,大数据还是有其无法企及的地方。大致可以归纳为以下几点:不能没有有效的商业模式,不能替代管理的决策力,不能保证消除噪音,不能进行无目的的知识发现,不能一次建模终身受益,不能替代领域专家,不能忽略数据标注,等等。同时也要看到,大数据并非一个终极阶段,它的出现不过是人类历史进程的一个环节,其重要意义在于是计算机技术为整个人类带来变革中的一步。回顾历史,计算机从上个世纪50年代起就在人类历史上开始了潜移默化的革命,其根本标志就是“数字化”,以及物理世界和虚拟世界的无缝接合。
既然是历史的一个发展环节,那么也就可以对未来趋势做出一定的预测。与以往历史上其他重要变革都是一样的,要通过资源——大数据——的原始积累,再过渡到商业和社会服务的差异化(即因人而异),直到人类对虚拟世界的行业和社会服务加以规范以实现公平合理的数据资源分配。始于18世纪的工业革命经历了一百多年,但这次数字的革命将以更快的形式发生。由大数据引发的下一代技术很可能是更大规模的、面向数字化行业的转变。因而,使得现在物理世界的众多传统行业将向数字世界全面或部分转换和融合。这种转变也让许多现在需要众多专家的领域以另一种形式出现。具体可以体现在很多行业的在整体的“食物链”的上下游的改变。医生、科学家和教师等,到了那一天或许变成为大数据输送原料的数据采集者和分析结果的“工人”。
在工业社会,通过利用人们日常生活所留下的各种数据,便可以掌控人的生活方式、习惯、下落以及社会关系等。而到了信息社会,这些数据必然会被数字化,因而人们的各种道德行为、伦理准则和社会生活也会随之产生相应的改变。信息技术使人类置身于一个崭新的数字化的数据环境,这个环境一方面扩大了人类的理解,另一方面,作为个体则必须在这个特定的环境中对自己的目的、价值和意图进行重建,从而达到强调自己个性和分享他人个性的理解。任何技术都倾向于创造一个新的人类环境。而信息技术、电脑网络乃至最近问世的大数据,已经为人类创造出一个崭新的环境。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01