Python学习100天-Day12(数据分析篇）

科技 06-24 来源： NewPythoner

Day12(数据分析篇）

从今天开始，我们进入新一个数据分析篇章的学习，主要是针对python数据分析的基础。说到python数据分析不得不提到以下的库。

我们来了解一下什么是库，首先是模块的概念：就是.py文件，里面定义了一些类，函数和变量，这些我们之前学到的一些概念的东西。库：库的概念是具有相关功能模块的集合。这也是Python的一大特色之一，即具有强大的标准库、第三方库以及自定义模块。
简答的理解就是库里面有很多模块，模块里面定义了很多方法，函数，类别等。等于的大神弄好的一个工具包，我们需要用的时候就可以调用这个工具包里面的工具。

NumPy是Python中科学计算的基础库，许多库使用NumPy数组作为它们的基本输入和输出。简而言之，NumPy为多维数组和矩阵引入对象，允许开发人员在对这些数组矩阵上执行高级数学和统计功能时尽可能地减少代码的书写。而NumPy库也是深度学习的基础，涉及高级的矩阵计算，以后有机会我会介绍一下深度学习。（因为现在工作需要，也有在学习中）
Pandas增加了用于金融、统计学、社会科学和工程的实际数据分析的数据结构和工具。Pandas可以很好地处理不完整的、混乱的和未标记的数据（即在现实世界中可能遇到的数据类型），并提供用于成形、合并、改造和切片数据集的工具。简而言之，pandas库提供了数据框结构，处理数据更加快捷高效，可以理解为是一个高效的excel。
matplotlib是创建2D绘图和图形的标准Python库。它的级别很低，这意味着它比起那些更高级的库需要更多的命令来生成漂亮的图形。然而，matplotlib具有灵活性，只要有了足够的命令，你就可以用matplotlib制作任何类型的图形。
Scipy是一款方便、易于使用、专门为科学和工程设计的Python包，它包括统计、优化、整合、线性代数模块、傅里叶变换、信号和图像处理、常微分方程求解器等。Scipy依赖于Numpy，并提供许多对用户友好的和有效的数值例程，如数值积分和优化。
Scikit-learn在NumPy和SciPy上为普通的机器学习和数据挖掘任务添加了一组算法，包括聚类、回归和分类。作为一个程序库，scikit-learn有很多优势。更重要的是，它是一个经过精心提炼的库，这意味着开发者不必在同一算法的不同版本之间进行选择。它的强大和易用性使它深受许多数据密集型初创企业的欢迎。简而言之，Scikit-learn多用于对于机器学习。

数据分析主要也是使用到这5个第三方工具包，包括机器学习的一些算法实现，例如回归分析，聚类分析，决策树等。