京公网安备 11010802034615号
经营许可证编号:京B2-20210330
最近几年IT都成长在一个大数据的环境下,大家动不动就要分布式,想想就搞大数据。有的网站明明访问量几台普通的服务器就可以搞定,非要弄分布式,挂着云计算的名字,却做着屌丝的事情。
虽然,大环境如此,但是为了沾上这种高大上的气息,也着手看一下这方面的书。
刚刚看完《大数据时代》这本书,感觉收获也蛮多的。习惯性的整理了一下书籍的思维导图
这本书是国外人写的,但是内容上还比较符合国内目前的环境,毕竟国内的大数据发展起步还是要晚一点的。
就从法律这方面来说,感觉国内的个人隐私方面法律就不怎么看重,因此即便某些软件或者网站侵犯了用户的个人隐私,用户也极少会采取一定的措施。况且很多网站或者软件在不显眼或者让人不在意的地方使用了 声明许可......简直是推卸责任的最佳方案。
就这点来说,书中提倡,不应该采用个人许可这种类似的手段来避免大数据的使用责任,而是应该由使用方来承担责任。
这样,使用数据的人就会在使用过程中,去了解什么地方可能触犯了用户的隐私,什么地方可能会让用户陷入尴尬的困境,从而使用模糊化或者匿名化的手段来避免。
模糊化就是不给出数据的具体内容,只是粗略的描述。
而匿名化就好理解了,就是隐藏掉用户的关键信息。
就目前的互联网公司,也有很多公司根本不注重这种细节,就我特别反感的一点来说:
京东目前应该说是互联网产业很火的一个产品了...由于它的东西很多都是京东自营的,质量上总是感觉比淘宝要有保障。因此,我买东西能在京东上买,就绝对不会去淘宝。但是京东的购物历史,却很是让人尴尬!
比如下面这些标红的地方,是购物的评价区
点击上面的用户名,就直接可以看到这个人的消费历史。当然这个历史记录是可以关闭,不显示的。但是默认上来都是开启的,一般用户也不会在意。但是如果查看某XX斯这种尴尬的产品,查看其用户,就可以发现很多有意思的购物历史。
这里就当做一个吐槽吧!这虽然不是什么大数据,购物历史应该说是简单的历史数据了。但是这也算是泄露了用户的隐私吧。
其次呢,我们目前的这种生活环境,每天会产生大量的数据,这些数据利用好了,可以为我们进行一定的数据可视化,分析或者预测出生活中一些即将发生,我们有意去关注的事情。
因此好坏参半,大数据的使用还要看具体来做什么。
总的来说,其中的商机以及潜在的机会都是非常大的,如何有效的搜集数据,如何有效的利用分析数据才是目前最应该关注的事情。
大体上无非都是这些步骤:
1 数据一般都是某些应用的记录,或者消息
2 有了数据,需要对数据进行有效的采集,存储,查询。
这里就涉及到 一定的技术了,采集需要对业务进行分析,在有效的地方进行记录。存储需要考虑数据的增长量,或者安全性,是否会由于庞大的数据而存不存下,是否会因为某些 故障而漏掉信息,这个时候就要高一些分布式存储之类的了。最后的查询,可能会设计到一些搜索啊,MapReduce之类的。
3 数据已经有了,就要对数据进行分析了。这一块基于某些业务肯定有不同的搜集方法,具体看业务而定吧。
4 数据的用途:既可以采取数据的可视化进行数据的直观展现,也可以利用数据进行一些趋势动向的分析预测,还可以进行某些特定预测的预警等等。
大数据的时代,重要的是数据的搜集,相关的技术,以及如何使用这些数据。
以上的博文,纯属个人的无聊记录与吐槽,设计到某些互联网的公司的部分,也是纯属希望能够做得更好。
正如书中的最后一句话,凡是过去,皆为序曲。
个人理解,过去的历史数据可能就直接丢掉了,但是现在我们应该利用这些数据,去做更有价值的事情。
最近几年IT都成长在一个大数据的环境下,大家动不动就要分布式,想想就搞大数据。有的网站明明访问量几台普通的服务器就可以搞定,非要弄分布式,挂着云计算的名字,却做着屌丝的事情。
虽然,大环境如此,但是为了沾上这种高大上的气息,也着手看一下这方面的书。
刚刚看完《大数据时代》这本书,感觉收获也蛮多的。习惯性的整理了一下书籍的思维导图
这本书是国外人写的,但是内容上还比较符合国内目前的环境,毕竟国内的大数据发展起步还是要晚一点的。
就从法律这方面来说,感觉国内的个人隐私方面法律就不怎么看重,因此即便某些软件或者网站侵犯了用户的个人隐私,用户也极少会采取一定的措施。况且很多网站或者软件在不显眼或者让人不在意的地方使用了 声明许可......简直是推卸责任的最佳方案。
就这点来说,书中提倡,不应该采用个人许可这种类似的手段来避免大数据的使用责任,而是应该由使用方来承担责任。
这样,使用数据的人就会在使用过程中,去了解什么地方可能触犯了用户的隐私,什么地方可能会让用户陷入尴尬的困境,从而使用模糊化或者匿名化的手段来避免。
模糊化就是不给出数据的具体内容,只是粗略的描述。
而匿名化就好理解了,就是隐藏掉用户的关键信息。
就目前的互联网公司,也有很多公司根本不注重这种细节,就我特别反感的一点来说:
京东目前应该说是互联网产业很火的一个产品了...由于它的东西很多都是京东自营的,质量上总是感觉比淘宝要有保障。因此,我买东西能在京东上买,就绝对不会去淘宝。但是京东的购物历史,却很是让人尴尬!
比如下面这些标红的地方,是购物的评价区
点击上面的用户名,就直接可以看到这个人的消费历史。当然这个历史记录是可以关闭,不显示的。但是默认上来都是开启的,一般用户也不会在意。但是如果查看某XX斯这种尴尬的产品,查看其用户,就可以发现很多有意思的购物历史。
这里就当做一个吐槽吧!这虽然不是什么大数据,购物历史应该说是简单的历史数据了。但是这也算是泄露了用户的隐私吧。
其次呢,我们目前的这种生活环境,每天会产生大量的数据,这些数据利用好了,可以为我们进行一定的数据可视化,分析或者预测出生活中一些即将发生,我们有意去关注的事情。
因此好坏参半,大数据的使用还要看具体来做什么。
总的来说,其中的商机以及潜在的机会都是非常大的,如何有效的搜集数据,如何有效的利用分析数据才是目前最应该关注的事情。
大体上无非都是这些步骤:
1 数据一般都是某些应用的记录,或者消息
2 有了数据,需要对数据进行有效的采集,存储,查询。
这里就涉及到 一定的技术了,采集需要对业务进行分析,在有效的地方进行记录。存储需要考虑数据的增长量,或者安全性,是否会由于庞大的数据而存不存下,是否会因为某些 故障而漏掉信息,这个时候就要高一些分布式存储之类的了。最后的查询,可能会设计到一些搜索啊,MapReduce之类的。
3 数据已经有了,就要对数据进行分析了。这一块基于某些业务肯定有不同的搜集方法,具体看业务而定吧。
4 数据的用途:既可以采取数据的可视化进行数据的直观展现,也可以利用数据进行一些趋势动向的分析预测,还可以进行某些特定预测的预警等等。
大数据的时代,重要的是数据的搜集,相关的技术,以及如何使用这些数据。
以上的博文,纯属个人的无聊记录与吐槽,设计到某些互联网的公司的部分,也是纯属希望能够做得更好。
正如书中的最后一句话,凡是过去,皆为序曲。
个人理解,过去的历史数据可能就直接丢掉了,但是现在我们应该利用这些数据,去做更有价值的事情。CDA数据分析师培训官网
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17在数字化转型的浪潮中,企业积累的数据日益庞大且分散——用户数据散落在注册系统、APP日志、客服记录中,订单数据分散在交易平 ...
2026-03-17在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16数据是CDA(Certified Data Analyst)数据分析师开展一切工作的核心载体,而数据读取作为数据生命周期的关键环节,是连接原始数 ...
2026-03-16在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10