京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据需去其糟粕取精华_数据分析师考试
互联网的出现拉近了人们之间的距离,吐槽也成为了互联网上的一道独特风景。每一年春节都会将吐槽推向高潮,无论是吐槽春晚,还是吐槽12306等等,总之人们对于吐槽是百“吐”不厌。在互联网上吐槽就会产生各种各样的数据了,而这些数据汇集到一起,那就是人们经常提到的大数据。今天我们就来吐槽一下这个当下的IT热点。
谈到大数据,可能有人会问,大数据是个什么东西?大数据跟我们每个人有什么关系?
简单来说,大数据就是各种各样的数据的一个集合。“我你他”都可能是这个数据的创造者,当然我们还可能是这些数据的受益者。例如,“百度迁徙”就是利用大数据技术,对其拥有的LBS(基于地理位置的服务)大数据进行计算分析,全程、动态、即时、直观地展现中国春节前后人口大迁徙的轨迹与特征。
如今,人们吐槽春晚节目的热度更胜看春晚的热情,然而萝卜白菜可以说各有所爱,对于各个节目如何很难有个让大家比较认可的评价。然而,在春晚完成后,腾讯公布了再各个节目演出时的QQ消息量。
在歌曲“情非得已”的时候,庾澄庆,李敏镐的表演时用户发QQ信息量最少,可以从侧面反映出当时更多的人是在看节目而减少了发信息的数量。两个不相干的数据也能够分析出有价值的信息。这种通过对互联网消息的收集、分析得出来的关注度结果可能更能体现用户的意愿。
大数据尚处在发展初期,但是大数据的优势已经尽显,在我们的生活中,工作中,大数据都在发生着巨大的作用。未来,大数据将为电商业、零售业、医疗行业、安全以及教育等领域带来巨大的变化。医生可以根据个人的DNA为病人定制自己的诊疗建议,预测病人身体未来健康走势;电商网站可以利用人们浏览网站的信息以及各种数据对其购买进行预测,进行有针对性的推荐;等等!
互联网让我们每个人都相互关联,大数据就是我们联系产生的数据,而对这些数据进行有效的分析,将给我们的生活和工作带来巨大的改善,可以说是取之于民,用之于民。下面我们就来详细介绍一下大数据的具体性质。
大数据从何而来?
数据由来已久,但大数据真正成为行业流行词语还是在2009年,随着互联网、移动设备、云计算等技术的发展,数据呈现爆炸式增长。美国的互联网数据中心调查显示,数据如今每两年就会翻一番,目前世界上90%以上的数据是近几年才产生的。
大数据从何而来?
大数据可能来源于我们每个人,例如,我们上网聊天、浏览网页、购买货物、发表文章……我们在互联网上的每一步操作都可以产生数据,这些数据集合在一起就是一个大数据。
但大数据的数据又并非单纯指人们在互联网上产生的信息,工业设备、汽车制造、仪表等都会产生数据,而这些东西与我们人类产生的信息也都可以称之为大数据。
大数据有何变化?
为何以前产生的数据叫数据,如今叫大数据呢?
其实数据市场正在发生着一系列的变化。例如,数据生产速度越来越快;数据量方面也如今已经超过了TB级到PB级甚至ZB级;数据关系也已经从简单发展到复杂,数据来源已经从数据录入转变到各种来源,数据模型也从结构化的数据转变为半结构化或非结构化……这一系列的变化催生出了大数据时代。
大数据时代的来临,使得与传统数据相匹配的应用随之发生改变。大数据产生的速度越来越快,这就要求我们的存储设备的存储速度要更快;大数据量越来越大,这就要求我们的存储设备要越来越大,要能够满足数据爆炸式增长所带来的侵袭;而数据类型开始出现非结构化数据,这就对数据的处理平台、架构平台等等都带来挑战。
大数据有何价值?
大数据的数据数量很大,但这并不是大数据的全部,大数据还包含着巨大的价值。有人将大数据比作科技时代的原油,能够让我们从这些数据资源中获取我们需要的“价值”,推动我们的发展。这样才是大数据的真正价值,我们需要从数据资源中发掘这些数据的价值,来我们服务,来为社会进步提供新的动力。
虽然大数据尚处在发展初期,但利用大数据来发现价值的案例如今已经很多。例如,京东商城中的猜你喜欢栏目,就是对用户搜索产品、浏览页面等信息进行分析,然后推荐用户可能感兴趣的产品。国外某零售商,会通过对销售额、定价以及经济学、人口统计学和天气数据进行分析,藉此在特定的连锁店中选择合适的上架产品,并基于这些分析来判定商品减价的时机。
大数据需去其糟粕取精华
不可否认,大数据具有着巨大的价值,但是笔者看来,大数据如今看来更像是一个大饼,但并没有我们想象的那么美好,在浩瀚繁杂的数据中发展对用户有价值的信息,这就好比在垃圾场捡拾宝贝一样,垃圾永远都比宝贝多。
大数据包罗万象
在生活中,各种垃圾数据无处不在,例如,网络水军的存在就是对数据价值的一种深深的伤害。例如,在去年夏天上映的某国产电影,观看后的观众对其评价极低,但是在豆瓣等影评网上,该电影宣传方雇佣了大批水军进行刷分,结果造成了评分很高,口碑很差,最后主办方也不得不得出面道歉息事宁人。这些网络水军产生的数据可以说毫无意义。
当然,类似的例子还有很多,淘宝卖家刷钻,微博用户刷粉,网站论坛刷回复等等,这些网络垃圾无处不在,大数据如今发展还并不完善, 还需要针对这些垃圾数据推出十分有效的方法来加以鉴别。
大数据时代的隐私问题
大数据具有巨大的价值,我们可以通过对图像、文本以及视频等信息的挖掘,甚至可以判断出一个人的整天的活动,甚至能够预判这个人即将要做的事情,这个时候大数据分析就遇到了一个人们比较关心的问题,那就是隐私。
大数据的隐私问题
电话推销的事很多,人们对这些事件已经非常反感,这些都是隐私被透露的结果,有的犯罪分子甚至利用从互联网上得到的信息来实施犯罪,这些都是大数据时代需要解决的问题。目前,针对数据保护方面的相关法律法规并不完善,个人信息在大数据时代泄露的时间比比皆是,需要有一个完善的保护机制来保护大数据时代的个人隐私。
大数据不是神 以辅为主
大数据时代,每一个Byte中都藏有不可思议的数据信息,对这些信息进行整理归纳,可以提炼出一些信息,这些信息可以帮助企业或公司作出更好的决定。但是我们也不能盲目的相信这些信息,除了上述提到的数据真实性问题外,就是市场变化是不可预期的,决策者的创造性思维并不能通过数据得以体现,相反,数据在压制创新。
最显而易见的例子,就是当年诺基亚和摩托罗拉在手机市场如日中天的时候,那首关于这两款手机的数据可以说是满天飞。但当ios和安装这些新势力崛起的时候,这两家手机霸主被打的溃不成军,最后落得双双被收购的下场,所以说,在市场上,大数据分析只能作为辅助,市场瞬息万变,还需要时刻关注市场上的变化,做出最正确的判断。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在分类变量关联分析中(如 “吸烟与肺癌的关系”“性别与疾病发病率的关联”),卡方检验 P 值与 OR 值(比值比,Odds Ratio)是 ...
2025-11-05CDA 数据分析师的核心价值,不在于复杂的模型公式,而在于将数据转化为可落地的商业行动。脱离业务场景的分析只是 “纸上谈兵” ...
2025-11-05教材入口:https://edu.cda.cn/goods/show/3151 “纲举目张,执本末从。” 若想在数据分析领域有所收获,一套合适的学习教材至 ...
2025-11-05教材入口:https://edu.cda.cn/goods/show/3151 “纲举目张,执本末从。” 若想在数据分析领域有所收获,一套合适的学习教材至 ...
2025-11-04【2025最新版】CDA考试教材:CDA教材一级:商业数据分析(2025)__商业数据分析_cda教材_考试教材 (cdaglobal.com) ...
2025-11-04在数字化时代,数据挖掘不再是实验室里的技术探索,而是驱动商业决策的核心能力 —— 它能从海量数据中挖掘出 “降低成本、提升 ...
2025-11-04在 DDPM(Denoising Diffusion Probabilistic Models)训练过程中,开发者最常困惑的问题莫过于:“我的模型 loss 降到多少才算 ...
2025-11-04在 CDA(Certified Data Analyst)数据分析师的工作中,“无监督样本分组” 是高频需求 —— 例如 “将用户按行为特征分为高价值 ...
2025-11-04当沃尔玛数据分析师首次发现 “啤酒与尿布” 的高频共现规律时,他们揭开了数据挖掘最迷人的面纱 —— 那些隐藏在消费行为背后 ...
2025-11-03这个问题精准切中了配对样本统计检验的核心差异点,理解二者区别是避免统计方法误用的关键。核心结论是:stats.ttest_rel(配对 ...
2025-11-03在 CDA(Certified Data Analyst)数据分析师的工作中,“高维数据的潜在规律挖掘” 是进阶需求 —— 例如用户行为包含 “浏览次 ...
2025-11-03在 MySQL 数据查询中,“按顺序计数” 是高频需求 —— 例如 “统计近 7 天每日订单量”“按用户 ID 顺序展示消费记录”“按产品 ...
2025-10-31在数据分析中,“累计百分比” 是衡量 “部分与整体关系” 的核心指标 —— 它通过 “逐步累加的占比”,直观呈现数据的分布特征 ...
2025-10-31在 CDA(Certified Data Analyst)数据分析师的工作中,“二分类预测” 是高频需求 —— 例如 “预测用户是否会流失”“判断客户 ...
2025-10-31在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29