利用Python,四步掌握机器学习-CDA数据分析师官网

热线电话：13121318867

利用Python,四步掌握机器学习

2017-05-18

利用Python,四步掌握机器学习

为了理解和应用机器学习技术，你需要学习 Python 或者 R。这两者都是与 C、Java、PHP 相类似的编程语言。但是，因为 Python 与 R 都比较年轻，而且更加“远离”CPU，所以它们显得简单一些。相对于R 只用于处理数据，使用例如机器学习、统计算法和漂亮的绘图分析数据， Pthon 的优势在于它适用于许多其他的问题。因为 Python 拥有更广阔的分布（使用 Jango 托管网站，自然语言处理 NLP，访问 Twitter、Linkedin 等网站的 API），同时类似于更多的传统语言，比如 C python 就比较流行。

在Python中学习机器学习的四个步骤

1首先你要使用书籍、课程、视频来学习 Python 的基础知识

2、然后你必需掌握不同的模块，比如 Pandas、Numpy、Matplotlib、NLP (自然语言处理)，来处理、清理、绘图和理解数据。

3、接着你必需能够从网页抓取数据，无论是通过网站API，还是网页抓取模块Beautiful Soap。通过网页抓取可以收集数据，应用于机器学习算法。

4、最后一步，你必需学习机器学习工具，比如 Scikit-Learn，或者在抓取的数据中执行机器学习算法(ML-algorithm)。

1.Python入门指南：

有一个简单而快速学习Python的方法，是在 codecademy.com 注册，然后开始编程，并学习 Python 基础知识。另一个学习Python的经典方法是通过 learnpythonthehardway ，一个为广大 Python 编程者所推荐的网站。然后还有一个优秀的 PDF， byte of python 。python社团还为初学者准备了一个Python资源列表list of python resources。同时，还有来自 O’Reilley 的书籍《Think Python》，也可以从这里免费下载。最后一个资源是 Python 用于计量经济学、统计学和数据分析的介绍：《Introduction to Python for Econometrics, Statistics and Data Analysis 》，其中也包含了 Python 的基础知识。

2.机器学习的重要模块

关于机器学习最重要的模块是：NumPy, Pandas, Matplotlib 和 IPython 。有一本书涵盖了其中一些模块：《Data Analysis with Open Source Tools》。然后来自于1.的免费书籍《Introduction to Python for Econometrics, Statistics and Data Analysis》，同时也包括 Numpy，Pandas，Matplotlib 和 IPython这几个模块。还有一个资源是 Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython，也包含了一些很重要的模块。以下是其他免费模块的相关链接： Numpy (Numerical Python, Numpy Userguide, Guide to NumPy), Pandas (Pandas, Powerful Python Data Analysis Toolkit，Practical Business Python，Intros to Pandas Data Structure) 和 Matplotlib books。

其它资源:

10 minutes to Pandas

Pandas for machine learning

100 NumPy exercises

3.从网站通过API挖掘和抓取数据

一旦理解了Python的基础知识和最重要的模块，你必需要学习如何从不同的源收集数据。这个技术也被称作网页抓取。传统的源是网站文本，通过API进入twitter或linkedin一类网站得到的文本数据。网页抓取方面的优秀书籍包括：《 Mining the Social Web》（免费书籍），《Web Scraping with Python》和《 Web Scraping with Python: Collecting Data from the Modern Web》。

最后这个文本数据必须要转换为数值数据，通过自然语言处理（NLP）技术完成， Natural language processing with Python 和 Natural Language Annotation for Machine Learning 上面有相应的资料。其它的数据包括图片和视频，可以使用计算机图像技术分析： Programming Computer Vision with Python，Programming Computer Vision with Python: Tools and algorithms for analyzing images 和 Practical Python and OpenCV ，这些是图片分析方面的典型资源。

以下例子中包括可以用基本的Python命令行实现，有教育意义，而且有趣的例子，以及网页抓取技术。

Mini-Tutorial: Saving Tweets to a Database with Python （微型教程：使用Python保存推文到数据库）

Web Scraping Indeed for Key Data Science Job Skills （网页抓取关键数据科学工作技巧）

Case Study: Sentiment Analysis On Movie Reviews （案例学习：电影评论中的情感分析）

First Web Scraper （第一网页抓取）

Sentiment Analysis of Emails （邮件的情感分析）

Simple Text Classification （简单文本分类）

Basic Sentiment Analysis with Python （Python基础情感分析）

Twitter sentiment analysis using Python and NLTK （使用Python和NLTK 做Twitter情感分析）

Second Try: Sentiment Analysis in Python （第二个尝试：Python情感分析）

Natural Language Processing in a Kaggle Competition for Movie Reviews （电影评论相关Kaggle Competition中的NLP自然语言处理）

4. Python 中的机器学习

机器学习可以分为四组：分类，聚类，回归和降维。

“分类”也可以称作监督学习，有助于分类图片，用来识别图片中的特征或脸型，或者通过用户外形来分类用户，并给他赋不同的分数值。“聚类”发生在无监督学习的情况，允许用户在数据中识别组/集群。“回归”允许通过参数集估算一个值，可以应用于预测住宅、公寓或汽车的最优价格。

modules, packages and techniques 罗列了 Python、C、Scala、Java、Julia、MATLAB、Go、R 和 Ruby等语言中所有学习机器学习的重要模块、包和技巧。有关Python机器学习的书籍，我特别推荐《Machine learning in action》。尽管有点短，但它很可能是机器学习中的经典，因为它提到了“集体智慧编程时代”：Programming Collective Intelligence。这两本书帮助你通过抓取数据建立机器学习。最近关于机器学习的出版物大多都是基于模块 scikit-learn 。由于所有的算法在模块中都已实现，使得机器学习非常简单。你唯一要做的事就是告诉 Python ，应该使用哪一个机器学习技巧 (ML-technique) 来分析数据。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；