1、准备工作
重要的Python库
- pandas
- matplotlib
- IPython和Jupyter
- SciPy
- scikit-learn
- statsmodels
NumPy NumPy(Numerical Python的简称)是Python科学计算的基础包。本书大部分内容都基于NumPy以及构建于其上的库。它提供了以下功能(不限于此):
- 快速高效的多维数组对象ndarray。
- 用于对数组执行元素级计算以及直接对数组执行数学运算的函数。
- 用于读写硬盘上基于数组的数据集的工具。
- 线性代数运算、傅里叶变换,以及随机数生成。
NumPy在数据分析方面的主要作用
- 为Python提供快速的数组处理能力
- 作为在算法和库之间传递数据的容器。对于数值型数据,NumPy数组在存储和处理数据时要比内置的Python数据结构高效得多。
- 由低级语言(比如C和Fortran)编写的库可以直接操作NumPy数组中的数据,无需进行任何数据复制工作。
pandas提供了快速便捷处理结构化数据的大量数据结构和函数。
本书用得最多的pandas对象是DataFrame,它是一个面向列(column-oriented)的二维表结构,另一个是Series,一个一维的标签化数组对象。
Python社区已经广泛采取了一些常用模块的命名惯例:
1 | import numpy as np |