八大工具，透析Python数据生态圈最新趋势！-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读八大工具，透析Python数据生态圈最新趋势！

八大工具，透析Python数据生态圈最新趋势！

2015-08-31

文 | 刘旭坤

来自数盟

我们前一阵子参加了在旧金山举办的Dato数据科学峰会。来自业界和学界的千余名数据科学研究人员在大会上对数据科学、机器学习和预测应用方面的最新发展进行了交流和探讨。

以下是大会中讨论的数据科学家在未来可能使用的八个Python工具。

SFrame和SGraph

峰会上的一个重磅消息是Dato将在BSD协议下开源SFrame和SGraph。SFrame(Scaleable Data Frame)是一个为大数据处理优化内存和性能的数据框(DataFrame)结构。SGraph是一个类似的概念，但代表的不是数据框而是图。这两个数据结构的好处是即便数据量太大难以全部加载到内存中，数据科学家依然可以进行分析。

这一消息无论对Dato还是对Python社区来说都是一个分水岭。它显示了Dato对支持开源Python数据生态圈的诚意。在此之前有一种认识就是Dato提供的免费版本只是将数据科学家捆绑在自家的平台最终还是得收费，因为Dato确实有自己的商业产品。但从这次开源我们看到Dato并不打算耍这种小把戏。我们也希望其他开发者(没错，Pandas说的就是你)能够抛开收费的顾虑来使用SFrame和SGraph以便打破内存的限制。

Bokeh

Bokeh是一个不需服务器就可以在浏览器中实现互动可视化的Python库。它可以处理非常大的数据集而且速度很快也能嵌入在网页当中。想要快速方便地创建互动图表和数据应用的话这个库非常有用。

Bokeh对处理大型数据集时的性能问题着墨颇多。还有另外一点就是开发这些互动图表只需要Python一种语言即可。

Dask

Dask是一款主要针对单机的Python调度工具。它能帮助你将数据分成块并负责并行处理的调度工作。Dask是用纯Python写成的，它自己也使用了一些开源的Python库。

Dask有两种用法：普通用户主要使用Dask提供的集合类型，用法就和NumPy跟Pandas的差不多，但Dask内部会生成任务图。Dask开发人员则可以直接与Dask任务图打交道因为Dask任务图并不依赖于它提供的集合类型。

现在Python生态圈中有很多库看起来功能都差不多比如说Blaze、Dask和Numba，但其实应该用在数据处理的不同层面上，做一个类比的话Blaze就相当于数据库中的查询优化器，而Dask则相当于执行查询的引擎。

如果你是一名数据科学家的话你可能每天都会用到Python。Python是非常不错，但也不是完全没有问题。它最大的问题是处理大型数据集的时候会有点力不从心。这时候你可能会采用采样的方法来解决数据集的规模问题，但仅仅采样肯定会多多少少影响到你的研究结果。

Ibis

Ibis是Cloudera Labs推出的一个新项目，目前还是预览版。它试图解决的就是数据集规模的问题，但对用户提供的确是单机上Python的体验，而且能够与现有的Python数据生态圈(Pandas、Scikit-learn、Numpy)进行集成。未来它还计划加入与机器学习和高级分析集成的功能。

Splash

抓取网页数据的时候通常会碰到大量的JavaScript，而网页抓取工具又不能很好地执行JavaScript，所以最后很可能只拿到了原始的Html数据。Splash是由网页数据抓取的鼻祖ScrapingHub所推出的JavaScript渲染服务。它由Python写成，使用了Twisted和Qt。你可以把它当成是一个轻量级的浏览器，但它可以并行处理多个网页并执行JavaScript，它也可以关闭图片以便提高渲染速度。