成为一名数据科学家后，我的学习道路发生了怎样的变化-CDA数据分析师官网

热线电话：13121318867

首页大数据时代成为一名数据科学家后，我的学习道路发生了怎样的变化

成为一名数据科学家后，我的学习道路发生了怎样的变化

2022-02-28

我对数据科学的热情始于大约两年半前。我在做一份与数据科学无关的工作。对我来说，转行是一个很大的挑战，因为我有很多东西要学。

经过两年的学习和奉献，我终于找到了第一份数据科学家的工作。当然，我的学习之旅并没有停止。当我做数据科学家的时候，我学到了很多新东西。

学习部分不会改变。然而，我学什么和怎么学发生了巨大的变化。在本文中，我想详细说明这些变化。如果你正在努力成为一名数据科学家，你可能会经历同样的事情。

重要的是要强调，作为一名数据科学家需要不断学习。数据科学仍在发展，你需要时刻保持新鲜。我认为数据科学还不是一个成熟的领域，所以新的技术和概念经常被引入。

数据的大小

对于一个现实生活中的问题来说，1000万行并不多。

对我来说，最明显的变化是数据的大小。当我自己学习的时候，我正在练习最多有10万行的数据集。我现在认为它是一个小数据集。数据的大小取决于您正在处理的字段和问题。一般来说，1000万行对于一个实际的问题来说并不多。

使用大型数据集有其自身的挑战。首先，我需要学习能够处理此类数据集的新工具。在我开始做数据科学家之前，熊猫对我来说绰绰有余。然而，它并不是一个拥有大规模数据的高效工具。

允许分布式计算的工具更受青睐。Spark是其中最受欢迎的一个。它是一个用于大规模数据处理的分析引擎。Spark允许您将数据和计算分散到集群中，以实现性能的大幅提升。

幸运的是，可以将Spark与Python代码一起使用。PySpark是一个用于Spark的Python API，它结合了Python的简单性和Spark的高效性。

云计算

另一个大的变化是从本地环境到云环境。当我学习的时候，我在电脑里做所有的事情（即本地工作）。这对练习和学习来说已经足够了。

然而，一家公司在当地经营的可能性极小。大多数公司都在云中工作。数据存储在云中，计算在云中完成，等等。

为了高效地完成工作，获得对云工具和服务的全面理解是非常重要的。云提供商多种多样，但主要参与者是AWS、Azure、Google云平台。我必须学习如何使用他们的服务和管理存储在云中的数据。

Git

作为一名数据科学家，我经常使用的另一个工具是ISGit。我在学习的时候学会了基本的git命令。但是，在生产环境中工作时就不同了。Git是一个版本控制系统。它维护对代码所做的所有更改的历史记录。

Git允许协作工作。你可能会作为一个团队在项目上工作。因此，即使你在一家小型初创企业工作，git也是一项必备技能。项目是用Git开发和维护的。

Git比它从外部看起来要复杂一点。然而，你在做了几个项目后就习惯了。

不仅仅是工具！

工具并不是我学习过程中唯一改变的东西。我处理数据的方式也发生了变化。当您处理一个可随时使用的数据集时，在清理和处理数据方面，您无能为力。例如，在机器学习任务的情况下，您可以在几个简单的步骤后应用模型。

在你的工作中情况会不同。一个项目的很大一部分花费在准备数据上。我不是说只是清理原始数据。这也是重要的一步。然而，探索数据中的底层结构和理解特征之间的关系是至关重要的。

如果您正在处理一个新问题，定义数据需求也将是您的工作。这是另一个需要一套特殊技能的挑战。领域知识是其中必不可少的一部分。

特征工程比机器学习模型的超参数调整重要得多。通过超参数调优可以实现的功能是有限的，因此可以在一定程度上提高性能。另一方面，一个信息特性有可能大大改善一个模型。

在我作为一名数据科学家开始工作之前，我专注于理解机器学习算法和如何调整模型。我现在把大部分时间都花在准备数据上。

我所说的就绪包括许多步骤，例如

清洗和处理数据
重新格式化数据
探索和理解数据

统计知识对这些步骤非常重要。因此，我强烈建议提高你在这方面的知识。它会在你的数据科学生涯中帮助你很多。

结论

有大量的资源来学习数据科学。您可以使用它们来提高您在数据科学的任何构建块中的技能。然而，这些资源并不能提供真正的工作经验。没有错。当你找到第一份工作时，让自己准备好学习一套不同的材料。

谢谢你的阅读。如果你有任何反馈请让我知道。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

机器学习特征数据处理超参数调优特征工程云计算数据存储集群

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇如何成为一名自由数据科学家-4个实用技巧

下一篇数据科学家与ML工程师的区别

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

成为一名数据科学家后，我的学习道路发生了怎样的变化

数据的大小

云计算

Git

不仅仅是工具！

结论

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

从“杂乱信号”到“有序资产”：CDA数据分析师视角 ...

CDA持证人专访：周婧博谈会计行业数据分析与经营诊 ...

【CDA干货】问卷调查卡方检验：原理、前提与实战应 ...

从“整体波动”到“因子归因”：CDA数据分析师视角 ...

【CDA干货】单因素方差分析：三组及以上独立样本的 ...

【CDA干货】次日付费留存计算方法、统计口径与业务 ...

从“点状静态”到“时序动态”：CDA数据分析师视角 ...

CDA持证人专访：王晓琳谈数据分析备考与秋招实战经 ...

【CDA干货】用户决策流程全解析：核心环节、影响因 ...

从“标签”到“人”：CDA数据分析师视角下的用户画 ...

【CDA干货】透视表跨表数据应用原理与实战方法 ...

【CDA干货】正态分布异常事件识别与处理方法：数据 ...

从“raw”到“ready”：CDA数据分析师视角下的标签 ...

CDA持证人专访：孙尚亮谈制造行业数据分析与生产采 ...

【CDA干货】DataFrame数据归一化：核心原理、常用方 ...

从“零散标识”到“结构资产”：CDA数据分析师视角 ...

【CDA干货】数据分析如何辅助商业谈判决策：从经验 ...

【CDA干货】T检验完整实操教程：核心原理、分类场景 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载