当前位置：首页 > 数码 > 使用Python库优化机器学习工作流程 (使用PYTHON编写程序)

使用Python库优化机器学习工作流程 (使用PYTHON编写程序)

admin11个月前 (05-15)数码3769

在现今这个数据驱动的时代，机器学习已经成为了一种不可或缺的技术。对于日常工作者来说，他们可能会被复杂的机器学习算法和代码所困扰。别担心，今天我们将介绍一些Python库，它们将极大地简化您的工作流程，提升效率。

1. Scikit-learn

Scikit-learn，也被称为sklearn，是Python中最流行的机器学习库之一。它提供了大量的算法和工具，包括分类、回归、聚类、降维等，并提供了易于使用的API。使用scikit-learn，您可以快速地训练模型，进行预测，以及评估模型的性能。

2. Pandas

Pandas是一个强大的数据分析库，它可以让您更轻松地处理和分析数据。通过Pandas，您可以加载和保存数据、转换数据格式、合并数据集、计算统计信息等。Pandas的DataFrame对象提供了一种强大的方式来处理表格数据，而Series对象则提供了一种灵活的方式来处理单个数据序列。

3. NumPy

NumPy是一个Python库，用于处理大型多维数组和矩阵，支持高级数学函数和逻辑函数。它是Pandas的核心依赖项之一，也是许多其他Python库的基础。使用NumPy可以更高效地处理数据，加快计算速度。

4. Matplotlib

Matplotlib是一个用于创建高质量图表的Python库。它提供了丰富的接口，可以创建各种类型的图表，包括折线图、散点图、柱状图、饼图等。通过Matplotlib，您可以轻松地将您的数据可视化，更好地理解数据。

5. Seaborn

Seaborn是一个基于Matplotlib的高级数据可视化库。它提供了一个更高级别的接口，可以帮助您创建各种复杂的图表类型，包括热力图、Prplot等。Seaborn的图表通常比Matplotlib的图表更具可读性和吸引力。

6. TensorFlow

TensorFlow是一个用于机器学习和深度学习的开源框架。它提供了一个灵活的API，可以用于构建和训练各种类型的神经网络模型，包括卷积神经网络（CNN）、循环神经网络（RNN）、转换器等。通过TensorFlow，您可以快速地构建和训练深度学习模型。

7. PyTorch

PyTorch是另一个用于机器学习和深度学习的开源框架。与TensorFlow相比，它更加灵活和易于使用。PyTorch支持动态计算图，使得构建神经网络模型变得更加简单和直观。它也支持GPU加速，可以大大提高训练速度。

结论

这些Python库都是机器学习领域中非常流行的工具，它们可以帮助您更高效地处理和分析数据、构建和训练模型、可视化数据等。通过使用这些库，您可以极大地改变您的机器学习工作流程，提高效率和生产力。

优化Python编程的4个妙招

1. () – 特征工程瑰宝

Pandas 库已经非常优化了，但是大部分人都没有发挥它的最大作用。想想它一般会用于数据科学项目中的哪些地方。一般首先能想到的就是特征工程，即用已有特征创造新特征。其中最高效的方法之一就是()，即Pandas中的apply函数。

在()中，可以传递用户定义功能并将其应用到Pandas Series的所有数据点中。这个函数是Pandas库最好的扩展功能之一，它能根据所需条件分隔数据。之后便能将其有效应用到数据处理任务中。

2. – Python数据操作绝妙技巧

所有和数据处理打交道的数据科学家(差不多所有人了!)都应该学会这个方法。

很多时候，数据科学家需要根据一些条件更新数据集中某列的某些值。就是此类问题最优的解决方法。

3. Python函数向量化

另一种解决缓慢循环的方法就是将函数向量化。这意味着新建函数会应用于输入列表，并返回结果数组。在Python中使用向量化能至少迭代两次，从而加速计算。

事实上，这样不仅能加速代码运算，还能让代码更加简洁清晰。

4. Python多重处理

多重处理能使系统同时支持一个以上的处理器。

此处将数据处理分成多个任务，让它们各自独立运行。处理庞大的数据集时，即使是apply函数也显得有些迟缓。

关于优化Python编程的4个妙招，青藤小编就和您分享到这里了。如果您对python编程有浓厚的兴趣，希望这篇文章可以为您提供帮助。如果您还想了解更多关于python编程的技巧及素材等内容，可以点击本站的其他文章进行学习。

13个最常用的Python深度学习库介绍

13个最常用的Python深度学习库介绍如果你对深度学习和卷积神经网络感兴趣，但是并不知道从哪里开始，也不知道使用哪种库，那么这里就为你提供了许多帮助。在这篇文章里，我详细解读了9个我最喜欢的Python深度学习库。这个名单并不详尽，它只是我在计算机视觉的职业生涯中使用并在某个时间段发现特别有用的一个库的列表。这其中的一些库我比别人用的多很多，尤其是Keras、mxnet和sklearn-theano。其他的一些我是间接的使用，比如Theano和TensorFlow（库包括Keras、deepy和Blocks等）。另外的我只是在一些特别的任务中用过（比如nolearn和他们的Deep Belief Network implementation）。这篇文章的目的是向你介绍这些库。我建议你认真了解这里的每一个库，然后在某个具体工作情境中你就可以确定一个最适用的库。我想再次重申，这份名单并不详尽。此外，由于我是计算机视觉研究人员并长期活跃在这个领域，对卷积神经网络（细胞神经网络）方面的库会关注更多。我把这个深度学习库的列表分为三个部分。第一部分是比较流行的库，你可能已经很熟悉了。对于这些库，我提供了一个通俗的、高层次的概述。然后，针对每个库我详细解说了我的喜欢之处和不喜欢之处，并列举了一些适当的应用案例。第二部分进入到我个人最喜欢的深度学习库，也是我日常工作中使用最多的，包括：Keras、mxnet和sklearn-theano等。最后，我对第一部分中不经常使用的库做了一个“福利”板块，你或许还会从中发现有用的或者是在第二板块中我还没有尝试过但看起来很有趣的库。接下来就让我们继续探索。针对初学者：Caffe提到“深度学习库”就不可能不说到Caffe。事实上，自从你打开这个页面学习深度学习库，我就敢打保票你肯定听说Caffe。那么，究竟Caffe是什么呢？Caffe是由Berkeley Vision and Learning Center（BVLC）建立的深度学习框架。它是模块化的，速度极快。而且被应用于学术界和产业界的start-of-the-art应用程序中。事实上，如果你去翻阅最新的深度学习出版物（也提供源代码），你就很可能会在它们相关的GitHub库中找到Caffe模型。虽然Caffe本身并不是一个Python库，但它提供绑定到Python上的编程语言。我们通常在新领域开拓网络的时候使用这些绑定。我把Caffe放在这个列表的原因是它几乎被应用在各个方面。你可以在一个空白文档里定义你的模型架构和解决方案，建立一个JSON文件类型的配置文件。 Caffe二进制文件提取这些文件并培训你的网络。 Caffe完成培训之后，你可以把你的网络和经过分类的新图像通过Caffe二进制文件，更好的就直接通过Python或MATLAB的API。虽然我很喜欢Caffe的性能（它每天可以在K40 GPU上处理60万张图片），但相比之下我更喜欢Keras和mxnet。主要的原因是，在文件内部构建架构可能会变得相当乏味和无聊。更重要的是， Caffe不能用编程方式调整超参数！由于这两个原因，在基于Python的API中我倾向于对允许我实现终端到终端联播网的库倾斜（包括交叉验证和调整超参数）。 Theano在最开始我想说Theano是美丽的。如果没有Theano，我们根本不会达到现有的深度学习库的数量（特别是在Python）。同样的，如果没有numpy，我们就不会有SciPy、scikit-learn和 scikit-image,，同样可以说是关于Theano和深度学习更高级别的抽象。非常核心的是，Theano是一个Python库，用来定义、优化和评估涉及多维数组的数学表达式。 Theano通过与numpy的紧密集成，透明地使用GPU来完成这些工作。虽然可以利用Theano建立深度学习网络，但我倾向于认为Theano是神经网络的基石，同样的numpy是作为科学计算的基石。事实上，大多数我在文章中提到的库都是围绕着Theano，使自己变得更加便利。不要误会我的意思，我爱Theano，我只是不喜欢用Theano编写代码。在Theano建设卷积神经网络就像只用本机Python中的numpy写一个定制的支持向量机（SVM），当然这个对比并不是很完美。你可以做到吗？当然可以。它值得花费您的时间和精力吗？嗯，也许吧。这取决于你是否想摆脱低级别或你的应用是否需要。就个人而言，我宁愿使用像Keras这样的库，它把Theano包装成更有人性化的API，同样的方式，scikit-learn使机器学习算法工作变得更加容易。 TensorFlow与Theano类似，TensorFlow是使用数据流图进行数值计算的开源库（这是所有神经网络固有的特征）。最初由谷歌的机器智能研究机构内的Google Brain Team研究人员开发，此后库一直开源，并提供给公众。相比于Theano ，TensorFlow的主要优点是分布式计算，特别是在多GPU的环境中（虽然这是Theano正在攻克的项目）。除了用TensorFlow而不是Theano替换Keras后端，对于TensorFlow库我并没有太多的经验。然而在接下来的几个月里，我希望这有所改变。 LasagneLasagne是Theano中用于构建和训练网络的轻量级库。这里的关键词是轻量级的，也就意味着它不是一个像Keras一样围绕着Theano的重包装的库。虽然这会导致你的代码更加繁琐，但它会把你从各种限制中解脱出来，同时还可以让您根据Theano进行模块化的构建。简而言之：Lasagne的功能是Theano的低级编程和Keras的高级抽象之间的一个折中。我最喜欢的：Keras如果我必须选出一个最喜欢的深度学习Python库，我将很难在Keras和mxnet中做出抉择——但最后，我想我会选Keras。说真的，Keras的好处我说都说不完。 Keras是一个最低限度的、模块化的神经网络库，可以使用Theano或TensorFlow作为后端。 Keras最主要的用户体验是，从构思到产生结果将会是一个非常迅速的过程。在Keras中架构网络设计是十分轻松自然的。它包括一些state-of-the-art中针对优化（Adam，RMSProp）、标准化（BatchNorm）和激活层（PReLU，ELU，LeakyReLU）最新的算法。 Keras也非常注重卷积神经网络，这也是我十分需要的。无论它是有意还是无意的，我觉得从计算机视觉的角度来看这是非常有价值的。更重要的是，你既可以轻松地构建基于序列的网络（其中输入线性流经网络）又可以创建基于图形的网络（输入可以“跳过”某些层直接和后面对接）。这使得创建像GoogLeNet和SqueezeNet这样复杂的网络结构变得容易得多。我认为Keras唯一的问题是它不支持多GPU环境中并行地训练网络。这可能会也可能不会成为你的大忌。如果我想尽快地训练网络，那么我可能会使用mxnet。但是如果我需要调整超参数，我就会用Keras设置四个独立的实验（分别在我的Titan X GPUs上运行）并评估结果。 mxnet我第二喜欢的深度学习Python库无疑就是mxnet（重点也是训练图像分类网络）。虽然在mxnet中站立一个网络可能需要较多的代码，但它会提供给你惊人数量的语言绑定（C ++、Python、R、JavaScript等）。 Mxnet库真正出色的是分布式计算，它支持在多个CPU / GPU机训练你的网络，甚至可以在AWS、Azure以及YARN集群。它确实需要更多的代码来设立一个实验并在mxnet上运行（与Keras相比），但如果你需要跨多个GPU或系统分配训练，我推荐mxnet。 sklearn-theano有时候你并不需要终端到终端的培养一个卷积神经网络。相反，你需要把CNN看作一个特征提取器。当你没有足够的数据来从头培养一个完整的CNN时它就会变得特别有用。仅仅需要把你的输入图像放入流行的预先训练架构，如OverFeat、AlexNet、VGGNet或GoogLeNet，然后从FC层提取特征（或任何您要使用的层）。总之，这就是sklearn-theano的功能所在。你不能用它从头到尾的训练一个模型，但它的神奇之处就是可以把网络作为特征提取器。当需要评估一个特定的问题是否适合使用深度学习来解决时，我倾向于使用这个库作为我的第一手判断。 nolearn我在PyImageSearch博客上用过几次nolearn，主要是在我的MacBook Pro上进行一些初步的GPU实验和在Amazon EC2 GPU实例中进行深度学习。 Keras把 Theano和TensorFlow包装成了更具人性化的API，而nolearn也为Lasagne做了相同的事。此外，nolearn中所有的代码都是与scikit-learn兼容的，这对我来说绝对是个超级的福利。我个人不使用nolearn做卷积神经网络（CNNs），但你当然也可以用（我更喜欢用Keras和mxnet来做CNNs）。我主要用nolearn来制作Deep Belief Networks (DBNs)。 DIGITSDIGITS并不是一个真正的深度学习库（虽然它是用Python写的）。 DIGITS（深度学习GPU培训系统）实际上是用于培训Caffe深度学习模式的web应用程序（虽然我认为你可以破解源代码然后使用Caffe以外其他的后端进行工作，但这听起来就像一场噩梦）。如果你曾经用过Caffe，那么你就会知道通过它的终端来定义文件、生成图像数据、运行网络并监管你的网络训练是相当繁琐的。 DIGITS旨在通过让你在浏览器中执行这些任务来解决这个问题。此外，DIGITS的用户界面非常出色，它可以为你提供有价值的统计数据和图表作为你的模型训练。另外，你可以通过各种输入轻松地可视化网络中的激活层。最后，如果您想测试一个特定的图像，您可以把图片上传到你的DIGITS服务器或进入图片的URL，然后你的Caffe模型将会自动分类图像并把结果显示在浏览器中。干净利落！Blocks说实话，虽然我一直想尝试，但截至目前我的确从来没用过Blocks（这也是我把它包括在这个列表里的原因）。就像许多个在这个列表中的其他库一样，Blocks建立在Theano之上，呈现出一个用户友好型的API。 deepy如果让你猜deepy是围绕哪个库建立的，你会猜什么？没错，就是Theano。我记得在前一段时间用过deepy（做了初始提交），但在接下里的大概6-8个月我都没有碰它了。我打算在接下来的博客文章里再尝试一下。 pylearn2虽然我从没有主动地使用pylearn2，但由于历史原因，我觉得很有必要把它包括在这个列表里。 Pylearn2不仅仅是一般的机器学习库（地位类似于scikit-learn），也包含了深度学习算法的实现。对于pylearn2我最大的担忧就是（在撰写本文时），它没有一个活跃的开发者。正因为如此，相比于像Keras和mxnet这样的有积极维护的库，推荐pylearn2我还有些犹豫。 Deeplearning4j这本应是一个基于Python的列表，但我想我会把Deeplearning4j包括在这里，主要是出于对他们所做事迹的无比崇敬——Deeplearning4j为JVM建立了一个开源的、分布式的深度学习库。如果您在企业工作，你可能会有一个塞满了用过的Hadoop和MapReduce服务器的储存器。也许这些你还在用，也许早就不用了。你怎样才能把这些相同的服务器应用到深度学习里？事实证明是可以的——你只需要Deeplearning4j。总计以上就是本文关于13个最常用的Python深度学习库介绍的全部内容

免责声明：本文转载或采集自网络，版权归原作者所有。本网站刊发此文旨在传递更多信息，并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题，请联系本网，我们将在第一时间删除。同时，本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证，请读者仅作参考，并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失，本网站不承担任何责任。

标签: Python库