
大数据背后的价值和隐忧_数据分析师考试
有人曾调侃,人活几十年,用一张表格竟然就能概括。这话虽然不完全中肯,但也道出了信息数据的奥秘。最近在2015年夏季世界O2O 博览会上,腾讯宣布QQ钱包下一步要将服务延伸至线下支付场景,如洗衣、洗车、美甲等。而这一招棋,腾讯其实要挖掘的正是消费者每一笔支付背后的数据信息价值。互联网的飞速发展,加速了各类数据、信息的汇集融合,大数据时代扑面而来。刷脸记考勤、数据找商机、数据保健康……这些变革如今都已现端倪。但同时,大数据时代也给个人信息保护带来了莫大挑战。
大数据构建的未来
你的一天可能是这样子
在强大数据的构建下,你未来的一天可能是这样子:早晨7点,你被身下的智能床温柔叫醒,“主人主人起床啦”;如果还想赖床,它可能会动粗,左右摇晃或者上下颠簸,直到你揉着惺忪睡眼离开卧室。洗漱完毕之后,你的某一样穿戴设备,比如手表、项链、眼镜等,会将昨晚记录的睡眠、心跳、血压等数据报告给你,并给出科学的早餐建议。接下来该准备上班了,今天周一,下雨,早上8点路况怎么样?问问手机APP就知道了,包括接下来几小时方圆2公里内的天气、中午吃什么营养又美味,你都可以咨询它。下班回家路上,顺便逛逛超市,最近皮肤干燥该用什么洗浴用品呢?只要在机器上输入会员号,设备便会根据你所在城市的气候、会员年龄性别消费历史等信息,给出合理的商品类型和导购位置,下单支付,就有专人配送到家……
是不是很神奇?而这还仅仅是个人生活中的一个小碎片,可以想见,在医疗、交通、科技、社会治安、政府管理等各行各业,数据都将发挥出神奇的点化功能。
如医生可以通过参考平台数据库,调取相似基因、年龄、人种、身体状况相同的有效治疗方案,快速制定出适合病人的治疗方案;科学家将数据技术应用于基因分析上,让父母对未出生宝宝的健康状况了如指掌,帮助人类预测和战胜未来疾病等;政府机构甚至能够利用数据来更准确地了解各地经济发展状况,实现科学决策、数据治国。
“水这个东西大家都见过。当你有一杯水的时候,你可以喝它。当你有一盆水的时候,你可以用它洗脸。当你有一浴缸水的时候,你可以用它泡澡。当你有一游泳池水的时候,你可以用它游泳。当你有一西湖水的时候,你可以用它划船泡妹子。当你有一运河水的时候,你可以用它运粮食。当你有一长江水的时候,你可以来往于中国的西部和东部。当你有一大西洋水的时候,你就可以发现新大陆了!”
明道副总裁许维曾用水来比喻数据能够带来的效应,这段评论亦得到了广泛认同。舆论公认,随着互联网云时代的到来,数据将更深入地浸透生活的方方面面,数据之上的生活必将更加私人、个性、智能。
依托数据建模
考勤刷个脸就可以搞定
今年三月,马云在德国的一场“刷脸支付”秀让人脸识别着实火热了一把,不过,一些业内人士告诉记者,其实“看脸的时代”早就来了。而这背后所依托的正是神奇的数据采集与建模。
在苏州某家专门从事生物智能分析与识别技术研发生产的企业门口,右侧约1米高的位置,安装着一台黑色机器,运营总监汤啸峰走到离机器约50厘米的地方站定,微微俯下上身,让脸庞出现在机器平面正中3.5英寸的显示屏上,很快屏幕上就亮起绿灯,并跳出几个字“识别结束”,与此同时,可以听到哒的一声轻响,门锁已经打开。整个过程前后不到一秒。
汤啸峰所演示的就是一台智能三维人脸识别门禁考勤机。每天早晨和下午,他所在公司的员工都要向这台机器“报到”。在这里,刷脸早就取代了一般的打卡签到。
“当员工选择人脸识别进入大门的方式时,站在人脸识别门禁终端机前,采集盒开始对人的脸部及特定骨骼曲率差进行脸部特征数据采集,采集成功则建模完毕。下次同一员工站在识别仪前时,系统就会自动核实当前人脸特征是否存在数据库中。若存在,则识别成功,触发现场控制器,门将自动打开。若有陌生人强行进入装有人脸识别门禁系统的大门时,现场控制器可触发人脸识别安防系统自动报警。”
汤啸峰介绍,因为产品采集的是人脸和骨骼轮廓的主要参数,形成三维立体模型,不受肤色、性别影响,一般的面部表情、发型、胡须、化妆等变化也不会影响识别精度,除非是削骨;相反,这套系统具有智能自学功能,能随着发型、肤色、年龄等变化动态更新人脸数据库存,保证数据库的模板始终为用户最近信息资料。
“一般人在成年前后脸部骨骼可能会逐步发生变化,这时仪器在捕捉你的脸部特征,比对认证为同一个人后更新为新的模板,这样数据库就会一点点地进行微调。另外,如果你刷脸的次数越多,系统就会对你越熟悉,识别的速度也就越快”。当然,拿着照片或视频等二维图像企图蒙混过关,也是会被系统拒之门外的。
据了解,这套系统采用近红外线双摄像头捕获人脸,应用最新的“Face Image+V4.0”人脸识别算法,用户容量最高达到5000人,记录容量25万条,验证速度小于1秒,其价格也相对较高,约在4000多元。
在汤看来,舆论热烈关注的扫脸支付仅仅是小试牛刀,人脸识别技术真正的应用范围非常之广,诸如公安刑侦、门禁考勤、网络应用都在其中。仅就该公司而言,除这套门禁考勤系统外,公司研发的“人脸”系列还包括有人脸二代身份证识别认证系统、智能楼宇人脸识别对讲系统、学生人脸识别宿管系统等等。而不管哪个系统,其核心原理都是一致的,那就是数据采集、建模与分析比对。
大数据的背后
创业商机就看你能否抓住
对于在互联网电商平台摸爬滚打的大小店主来说,数据是他们窥探商机、赚取利益的基本法宝。
余洛,是吴江一家广告设计公司的员工,年收入约八九万。去年,在朋友的撺掇下,在阿里旗下的速卖通平台开了一家网店,小生意做得红红火火,每个月都有三四千的收益。“速卖通是专门面向海外客户的,全英文界面。”余洛告诉记者,“我做的主要是‘倒’活,客户下了单,我再去淘宝上订货、发货,赚个差价,所以基本无亏损。”
每天空余时看看网店,下下单发发货,一个月还稳赚三四千,这样的好事谁都想掺乎。当记者询问余洛的商机诀窍时,他显得很大方,“其实,只要多关注下平台提供的数据,自己好好分析下,就能有收获。”
谈起他如何发现商机创业,余洛打开了话匣子。“许多电商平台都有搜索关键词,关键词后面的搜索数据可以关注下。”余洛说。在速卖通平台上,只要输入关键词,就会出现一系列的数据,店家可以检测有意愿售卖的产品搜索率是否高,产品销售竞争是否激烈,市场空间是否还存在。甚至是某种产品的某个款式,用关键词搜索也能获得相关数据信息,从而判断流行趋势。
而这只是入门级别的商机判断,平台后台提供的各类商机数据更详尽。利用余洛的账号,记者在其指导下打开了速卖通后台。在“数据纵横”下,后台提供了“商机发现”的数据。据余洛介绍,只要店家选择搜索某个行业,该行业的访客数量、浏览量、成交额、成交订单等占比以及供需指数立马会有图表伴随着趋势图清晰显示。而该行业的客户群体主要来自哪些国家,后台也会给予图表分析以供参考。“先结合自己情况选择行业,然后再利用平台提供的数据精细选品类。”余洛说。
记者发现,对于某个行业中的大小品类,后台也给予了充足精细的数据。拿家居用品行业为例,不论是棉的、天鹅绒的、丝绸的,还是枕头、靠垫或四件套。平台数据都清晰地用圆圈大小及不同的颜色,显示该品类的销售量大小以及竞争激烈程度。“选择哪个品类,往往都要在销售热度和竞争激烈度中取一个平衡。”余洛说。“有时候平台还会发布些其他数据供参考,比如哪个国家的注册人数上升迅猛,比如夏天到了,某些产品的需求量上升等。”
“其实,网店看着很光鲜,但那么多卖家,能真正赚钱的有几个?要想店铺保证不亏还能赚钱,需要用好后台帮你统计好的相关数据,查缺补漏,好好经营店铺。”余洛说。他指向了后台的“经营分析”一项。据介绍,该模块的数据分为“实时风暴”、“商铺概况”、“商铺流量来源”、“商铺装修”及“商品分析”五大类。记者既能从数据中发现每天店铺的访客数、浏览量、店铺排名等,还可以精确锁定商铺流量的来源,是直接访问、站内搜索、收藏夹还是直通车等广告。
“‘商品分析’是最重要的。”余洛表示。记者惊奇发现,在该项数据下,该店铺内的每一件产品都有专属的数据分析。搜索曝光量多少、浏览量多少、访客数多少、支付订单数多少、成交转化率多少以及流量的来源都有数据及图表显示。“一个商品卖的不好,是在哪个环节出了问题,这些数据都能告诉你。是商品搜索图片不够醒目还是内部信息完善度不够,哪些方面需要改进,通过数据也许就能看出端倪。”余洛说。
警惕大数据泄露
个人隐私保护更要注意
互联网时代下,数据信息爆炸式地膨胀,每个人都能享受数据富足带来的红利。可是,在歆享数据带来利益的同时,每一个体的信息也无疑被曝露。
晨玉是一位新妈妈,刚出院没几天,正在娘家坐月子。可是这些天接连收到短信电话,不是问她宝宝是否要拍满月照,就是邀请她来体验宝宝游泳与抚触。“连我叫什么名字,宝宝什么时候哪家医院出生的,出生时几斤几两都清清楚楚。”晨玉有点无奈。而这样由于信息泄露造成的困扰,相信绝大多数的人都碰到过。如今的诈骗越来越难防范,也与个人信息的泄露相关。一个诈骗电话,往往那头能准确叫出你的名字,说出你的信息以及现阶段的需求,当你头脑一热,放松警惕后,上钩便不再是难事。如果说以上这些都已见怪不怪,那你是否知道,只要有人愿意搜集与分析,识别一个人只需要33个字节的信息量。
如果有专业公司搜集,那淘宝网就能曝露人们的购物习惯,百度、360可能会曝露人们的网页浏览习惯,微信、陌陌、微博似乎都能窥见我们的社交关系,直指我们内心。比如你的搜索引擎中的浏览记录,就会记录下连自己都已忘掉的过往。你曾经在什么时间去过哪个地方,你某段时间最为关心的事情是什么,这些记录将展露无遗。即使是不涉及内容的元数据也可能会辨识定位到个人。以电话元数据为例,甚至不需要监听到个人打电话时说的具体内容,只需要根据谈话的时机、长度、频率与对象,就能推算出谈话人之间的密切程度以及个人信息。
在互联网发展迅速,不小心就会泄密的时代,我们能如何保护自己的隐私少泄露呢?据了解,目前我国针对个人信息安全保护的立法和修法进程进展缓慢,而在监管层面也缺少相应的专门监管机构,即使有市民的个人隐私被扭曲、恶化,严重影响生活,实施者一方也很难受到严厉惩罚。
那么作为市民个人,应该怎样保护自己的隐私呢。专业人士提醒:个人信息被泄露、盗用与滥用,往往和个人信息保护意识不强有关。市民在办理一些必须提供自己信息的事务时,应尽量与对方约定保密责任。而在网络上,个人更是不应该随意输入自己的关键信息,注意保护和删除。一旦发现自己的隐私泄露造成不良后果时,应当积极维权,作出反击。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29CDA 数据分析与量化策略分析流程:协同落地数据驱动价值 在数据驱动决策的实践中,“流程” 是确保价值落地的核心骨架 ——CDA ...
2025-08-29CDA含金量分析 在数字经济与人工智能深度融合的时代,数据驱动决策已成为企业核心竞争力的关键要素。CDA(Certified Data Analys ...
2025-08-28CDA认证:数据时代的职业通行证 当海通证券的交易大厅里闪烁的屏幕实时跳动着市场数据,当苏州银行的数字金融部连夜部署新的风控 ...
2025-08-28PCU:游戏运营的 “实时晴雨表”—— 从数据监控到运营决策的落地指南 在游戏行业,DAU(日活跃用户)、MAU(月活跃用户)是衡量 ...
2025-08-28Excel 聚类分析:零代码实现数据分群,赋能中小团队业务决策 在数字化转型中,“数据分群” 是企业理解用户、优化运营的核心手段 ...
2025-08-28CDA 数据分析师:数字化时代数据思维的践行者与价值推动者 当数字经济成为全球经济增长的核心引擎,数据已从 “辅助性信息” 跃 ...
2025-08-28