
大数据需去其糟粕取精华_数据分析师考试
互联网的出现拉近了人们之间的距离,吐槽也成为了互联网上的一道独特风景。每一年春节都会将吐槽推向高潮,无论是吐槽春晚,还是吐槽12306等等,总之人们对于吐槽是百“吐”不厌。在互联网上吐槽就会产生各种各样的数据了,而这些数据汇集到一起,那就是人们经常提到的大数据。今天我们就来吐槽一下这个当下的IT热点。
谈到大数据,可能有人会问,大数据是个什么东西?大数据跟我们每个人有什么关系?
简单来说,大数据就是各种各样的数据的一个集合。“我你他”都可能是这个数据的创造者,当然我们还可能是这些数据的受益者。例如,“百度迁徙”就是利用大数据技术,对其拥有的LBS(基于地理位置的服务)大数据进行计算分析,全程、动态、即时、直观地展现中国春节前后人口大迁徙的轨迹与特征。
如今,人们吐槽春晚节目的热度更胜看春晚的热情,然而萝卜白菜可以说各有所爱,对于各个节目如何很难有个让大家比较认可的评价。然而,在春晚完成后,腾讯公布了再各个节目演出时的QQ消息量。
在歌曲“情非得已”的时候,庾澄庆,李敏镐的表演时用户发QQ信息量最少,可以从侧面反映出当时更多的人是在看节目而减少了发信息的数量。两个不相干的数据也能够分析出有价值的信息。这种通过对互联网消息的收集、分析得出来的关注度结果可能更能体现用户的意愿。
大数据尚处在发展初期,但是大数据的优势已经尽显,在我们的生活中,工作中,大数据都在发生着巨大的作用。未来,大数据将为电商业、零售业、医疗行业、安全以及教育等领域带来巨大的变化。医生可以根据个人的DNA为病人定制自己的诊疗建议,预测病人身体未来健康走势;电商网站可以利用人们浏览网站的信息以及各种数据对其购买进行预测,进行有针对性的推荐;等等!
互联网让我们每个人都相互关联,大数据就是我们联系产生的数据,而对这些数据进行有效的分析,将给我们的生活和工作带来巨大的改善,可以说是取之于民,用之于民。下面我们就来详细介绍一下大数据的具体性质。
大数据从何而来?
数据由来已久,但大数据真正成为行业流行词语还是在2009年,随着互联网、移动设备、云计算等技术的发展,数据呈现爆炸式增长。美国的互联网数据中心调查显示,数据如今每两年就会翻一番,目前世界上90%以上的数据是近几年才产生的。
大数据从何而来?
大数据可能来源于我们每个人,例如,我们上网聊天、浏览网页、购买货物、发表文章……我们在互联网上的每一步操作都可以产生数据,这些数据集合在一起就是一个大数据。
但大数据的数据又并非单纯指人们在互联网上产生的信息,工业设备、汽车制造、仪表等都会产生数据,而这些东西与我们人类产生的信息也都可以称之为大数据。
大数据有何变化?
为何以前产生的数据叫数据,如今叫大数据呢?
其实数据市场正在发生着一系列的变化。例如,数据生产速度越来越快;数据量方面也如今已经超过了TB级到PB级甚至ZB级;数据关系也已经从简单发展到复杂,数据来源已经从数据录入转变到各种来源,数据模型也从结构化的数据转变为半结构化或非结构化……这一系列的变化催生出了大数据时代。
大数据时代的来临,使得与传统数据相匹配的应用随之发生改变。大数据产生的速度越来越快,这就要求我们的存储设备的存储速度要更快;大数据量越来越大,这就要求我们的存储设备要越来越大,要能够满足数据爆炸式增长所带来的侵袭;而数据类型开始出现非结构化数据,这就对数据的处理平台、架构平台等等都带来挑战。
大数据有何价值?
大数据的数据数量很大,但这并不是大数据的全部,大数据还包含着巨大的价值。有人将大数据比作科技时代的原油,能够让我们从这些数据资源中获取我们需要的“价值”,推动我们的发展。这样才是大数据的真正价值,我们需要从数据资源中发掘这些数据的价值,来我们服务,来为社会进步提供新的动力。
虽然大数据尚处在发展初期,但利用大数据来发现价值的案例如今已经很多。例如,京东商城中的猜你喜欢栏目,就是对用户搜索产品、浏览页面等信息进行分析,然后推荐用户可能感兴趣的产品。国外某零售商,会通过对销售额、定价以及经济学、人口统计学和天气数据进行分析,藉此在特定的连锁店中选择合适的上架产品,并基于这些分析来判定商品减价的时机。
大数据需去其糟粕取精华
不可否认,大数据具有着巨大的价值,但是笔者看来,大数据如今看来更像是一个大饼,但并没有我们想象的那么美好,在浩瀚繁杂的数据中发展对用户有价值的信息,这就好比在垃圾场捡拾宝贝一样,垃圾永远都比宝贝多。
大数据包罗万象
在生活中,各种垃圾数据无处不在,例如,网络水军的存在就是对数据价值的一种深深的伤害。例如,在去年夏天上映的某国产电影,观看后的观众对其评价极低,但是在豆瓣等影评网上,该电影宣传方雇佣了大批水军进行刷分,结果造成了评分很高,口碑很差,最后主办方也不得不得出面道歉息事宁人。这些网络水军产生的数据可以说毫无意义。
当然,类似的例子还有很多,淘宝卖家刷钻,微博用户刷粉,网站论坛刷回复等等,这些网络垃圾无处不在,大数据如今发展还并不完善, 还需要针对这些垃圾数据推出十分有效的方法来加以鉴别。
大数据时代的隐私问题
大数据具有巨大的价值,我们可以通过对图像、文本以及视频等信息的挖掘,甚至可以判断出一个人的整天的活动,甚至能够预判这个人即将要做的事情,这个时候大数据分析就遇到了一个人们比较关心的问题,那就是隐私。
大数据的隐私问题
电话推销的事很多,人们对这些事件已经非常反感,这些都是隐私被透露的结果,有的犯罪分子甚至利用从互联网上得到的信息来实施犯罪,这些都是大数据时代需要解决的问题。目前,针对数据保护方面的相关法律法规并不完善,个人信息在大数据时代泄露的时间比比皆是,需要有一个完善的保护机制来保护大数据时代的个人隐私。
大数据不是神 以辅为主
大数据时代,每一个Byte中都藏有不可思议的数据信息,对这些信息进行整理归纳,可以提炼出一些信息,这些信息可以帮助企业或公司作出更好的决定。但是我们也不能盲目的相信这些信息,除了上述提到的数据真实性问题外,就是市场变化是不可预期的,决策者的创造性思维并不能通过数据得以体现,相反,数据在压制创新。
最显而易见的例子,就是当年诺基亚和摩托罗拉在手机市场如日中天的时候,那首关于这两款手机的数据可以说是满天飞。但当ios和安装这些新势力崛起的时候,这两家手机霸主被打的溃不成军,最后落得双双被收购的下场,所以说,在市场上,大数据分析只能作为辅助,市场瞬息万变,还需要时刻关注市场上的变化,做出最正确的判断。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
用 SQL 验证业务逻辑:从规则拆解到数据把关的实战指南 在业务系统落地过程中,“业务逻辑” 是连接 “需求设计” 与 “用户体验 ...
2025-09-11塔吉特百货孕妇营销案例:数据驱动下的精准零售革命与启示 在零售行业 “流量红利见顶” 的当下,精准营销成为企业突围的核心方 ...
2025-09-11CDA 数据分析师与战略 / 业务数据分析:概念辨析与协同价值 在数据驱动决策的体系中,“战略数据分析”“业务数据分析” 是企业 ...
2025-09-11Excel 数据聚类分析:从操作实践到业务价值挖掘 在数据分析场景中,聚类分析作为 “无监督分组” 的核心工具,能从杂乱数据中挖 ...
2025-09-10统计模型的核心目的:从数据解读到决策支撑的价值导向 统计模型作为数据分析的核心工具,并非简单的 “公式堆砌”,而是围绕特定 ...
2025-09-10CDA 数据分析师:商业数据分析实践的落地者与价值创造者 商业数据分析的价值,最终要在 “实践” 中体现 —— 脱离业务场景的分 ...
2025-09-10机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03