首页 > 行业图谱 >
- python数据清洗时,经常用到的工具有哪几种?
2020-07-06
-
数据清洗是整个数据分析过程的第一步,也是整个数据分析项目中最耗费时间的一步,下面小编整理了几种常用的python数据清洗工具,希望对大家有所帮助。
目前在python中, numpy和pandas是最主流的数据清洗工具,N ...
- SVC,NuSVC,LinearSVC有什么区别
2020-07-03
-
相信大家在机器学习中,一定常见到;SVC,NvSVC,LinearSVC,今天我们就来看看这三者的区别。
SVC(C-Support Vector Classification):
支持向量分类,基于libsvm实现的,数据拟合的时间复杂度是数据样本的二 ...

- 手把手教你用直方图、饼图和条形图做数据分析(Python代码)
2020-06-24
-
导读:对数据进行质量分析以后,接下来可通过绘制图表、计算某些特征量等手段进行数据的特征分析。
作者:张良均 谭立云 刘名军 江建明
来源:大数据DT(ID:hzdashuju)
内容摘编自《Python数据 ...

- 线上服务器崩溃,线下门店破万,社交新宠「剧本杀」是如何迅速爆火的?
2020-06-20
-
【导语】:今天我们来聊聊最近的社交游戏新宠--剧本杀,Python技术部分请看第三部分。
Show me data,用数据说话
今天我们聊一聊 剧本杀
如果问,线下聚会可以玩儿什么?狼人杀?密室逃脱?
nonono,说 ...

- pandas数据结构:Series
2020-06-16
-
pandas有Series和DataFrame两种数据结构,我们之前已经讲过了DataFrame,接下来给大家介绍下另一种数据结构Series。
什么是Series?
# 自定义Series索引
arr = np.random.rand(5)
s = pd.Series(arr, ind ...

- 交叉验证:评估模型的泛化能力表现
2020-06-16
-
注明:本文章所有代码均来自scikit-learn官方网站
在实际情况中,如果一个模型要上线,数据分析员需要反复调试模型,以防止模型仅在已知数据集的表现较好,在未知数据集上的表现较差。即要确保模型的泛化能力 ...

- pandas数据结构:DataFrame
2020-06-12
-
刚刚接触pandas的朋友,想了解数据结构,就一定要认识DataFrame,接下来给大家详细介绍!
初识pandas数据结构:DataFrame
import numpy as np
import pandas as pd
data = {\"name\": [\"Jack\", \"Tom\ ...

- 机器学习基础:无监督异常检测和半监督异常检测!
2020-06-12
-
异常值检测一般要求新发现的数据是否与现有观测数据具有相同的分布或者不同的分布,相同的分布可以称之为内点(inlier),具有不同分布的点可以称之为离群值。离群点和新奇点检测是不同的,有一个重要的区分必须掌 ...

- 【案例】用支持向量机SVM进行新奇点检测!
2020-06-12
-
异常值检测一般要求新发现的数据是否与现有观测数据具有相同的分布或者不同的分布,相同的分布可以称之为内点(inlier),具有不同分布的点可以称之为离群值。
下图是一个使用支持向量机SVM进行新奇点检测 ...

- 机器学习经典算法之k-means聚类
2020-06-10
-
K-means算法旨在选择一个质心, 能够最小化惯性或簇内平方和的标准:
K-means算法原理分析
首先随机选取K个初始质心,最基本的方法是从数据集$X$中选择$K$个样本。
将每 ...

- 百闻不如一练:随机森林等可视化调试模型超参数
2020-06-10
-
以下使用scikit-learn中数据集进行分享。
如果选用随机森林作为最终的模型,那么找出它的最佳参数可能有1000多种组合的可能,你可以使用使用穷尽的网格搜索(Exhaustive Grid Seaarch)方法,但时间成本将会很 ...

- 层次聚类算法:Affinity Propogation算法学习指南
2020-06-10
-
Affinity Propogation最初是由Brendan Frey 和 Delbert Dueck于2007年在Science上提出的。相比其它的层次聚类算法,Affinity Propogation算法不需要预先指定聚类个数。
Affinity Propogation算法的原理可以简单 ...

- python散点图:如何添加拟合线并显示拟合方程与R方?
2020-06-08
-
python散点图:如何添加拟合线并显示拟合方程与R方?我们可以使用polyfit()函数,使用最小二乘法将一些点拟合成一条曲线.
numpy.polyfit(x, y, deg, rcond=None, full=False, w=None, cov=False)
# x:要拟合点的 ...

- 加快python算法的四个方法:Dask篇
2020-06-08
-
CDA数据分析师 出品
相信大家在做一些算法经常会被庞大的数据量所造成的超多计算量需要的时间而折磨的痛苦不已,接下来我们围绕四个方法来帮助大家加快一下python的计算时间,减少大家在算法上的等待 ...

- 加快python算法的四个方法:Numba篇
2020-06-09
-
CDA数据分析师 出品
相信大家在做一些算法经常会被庞大的数据量所造成的超多计算量需要的时间而折磨的痛苦不已,接下来我们围绕四个方法来帮助大家加快一下Python的计算时间,减少大家在算法上的等待 ...

- 为什么商界大佬潘石屹也学Python,TA魅力大吗?
2020-06-02
-
56岁生日当天,房地产大佬、SOHO中国董事长潘石屹发布了一条微博,表示自己要开始学Python。
很多人以为他只是开玩笑,然而潘石屹本人并不这样认为,至此以后,潘石屹的个人微博时不时会晒出一些Python学习 ...

- Kmeans优化算法:二分K-means聚类算法
2020-05-29
-
算法的理解
Bi这里是的意思就是Binary,二进制的意思,所以有时候叫这个算法为二进Kmeans算法。为什么我们需要用BiKmeans呢,就是为了解决初始化k个随机的质心点时其中一个或者多个点由于位置太极端而导致迭代 ...

- 使用python构建一个推荐系统需要几步?
2020-05-29
-
在我看来,作为一位中国人的我们不管做什么决定都在面临多种选择。例如,如果我这个时候想要买一本书,但是我却不知道我想看什么书、不知道类型、不知道方向,那么这个时候打开各种进行软件搜索可能会出现各种各样 ...

- Kmeans算法精简版(无for loop循环)
2020-05-27
-
大家在学习算法的时候会学习到关于Kmeans的算法,但是网络和很多机器学习算法书中关于Kmeans的算法理论核心一样,但是代码实现过于复杂,效率不高,不方便阅读。这篇文章首先列举出Kmeans核心的算法过程 ...

- 机器学习python算法应用,监督学习、无监督学习等!
2020-05-25
-
本系列文章主要介绍机器学习在实践中的应用,介绍利用 python 的生态环境,使用机器学习的算法来解决工程实践中的问题,而不是介绍算法本身。本系列文章参考了《机器学习Python实践》,会通过例子一步一步地引导大 ...