【笔记】利用Python进行数据分析

  1. 1、准备工作
    1. 重要的Python库

1、准备工作

重要的Python库

  • pandas
  • matplotlib
  • IPython和Jupyter
  • SciPy
  • scikit-learn
  • statsmodels

NumPy NumPy(Numerical Python的简称)是Python科学计算的基础包。本书大部分内容都基于NumPy以及构建于其上的库。它提供了以下功能(不限于此):

  • 快速高效的多维数组对象ndarray。
  • 用于对数组执行元素级计算以及直接对数组执行数学运算的函数。
  • 用于读写硬盘上基于数组的数据集的工具。
  • 线性代数运算、傅里叶变换,以及随机数生成。

NumPy在数据分析方面的主要作用

  • 为Python提供快速的数组处理能力
  • 作为在算法和库之间传递数据的容器。对于数值型数据,NumPy数组在存储和处理数据时要比内置的Python数据结构高效得多。
  • 由低级语言(比如C和Fortran)编写的库可以直接操作NumPy数组中的数据,无需进行任何数据复制工作。

pandas提供了快速便捷处理结构化数据的大量数据结构和函数。
本书用得最多的pandas对象是DataFrame,它是一个面向列(column-oriented)的二维表结构,另一个是Series,一个一维的标签化数组对象。

Python社区已经广泛采取了一些常用模块的命名惯例:

1
2
3
4
5
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
import statsmodels as sm