PYTHON数据分析库-Numpy学习

本文转载自查看原文 2021-09-02 18:36 127 数据分析与数学建模

引言

要想学的更好，还是要看官方网站

https://www.numpy.org.cn/

创建数组

通过列表

import numpy as np
a=np.array([1,2,3,4],dtype=np.float64)

dtype 函数是为了调整numpy数组数据类型

object ：列表、元组等。
dtype ：数据类型。如果未给出，则类型为被保存对象所需的最小类型。
copy ：布尔类型，默认 True，表示复制对象。
order ：顺序。 subok ：布尔类型，表示子类是否被传递。
ndmin ：生成的数组应具有的最小维数。

特殊方法

arange-指定首尾和步长

除了直接使用 array 方法创建 ndarray ，在 NumPy 中还有一些方法可以创建一些有规律性的多维数。首先，我们来看一看 arange() 。 arange() 的功能是在给定区间内创建一系列均匀间隔的值。方法如下：

numpy.arange(start, stop, step, dtype=None)

注意：起始位置是左闭右开区间

linspace-指定首尾和数目

创建数值有规律的数组。 linspace 用于在指定的区间内返回间隔均匀的值。其方法如下：

numpy.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)

start ：序列的起始值。
stop ：序列的结束值。
num ：生成的样本数。默认值为50。
endpoint ：布尔值，如果为真，则最后一个样本包含在序列内。
retstep ：布尔值，如果为真，返回间距。
dtype ：数组的类型。

ones方法

numpy.ones用于快速创建数值全部为1的多维数组

numpy.ones 用于快速创建数值全部为 1 的多维数组。其方法如下：

numpy.ones(shape, dtype=None, order='C')

其中：

shape ：用于指定数组形状，例如（1， 2）或 3。
dtype ：数据类型。
order ： {'C'，'F'} ，按行或列方式储存数组。

zeros方法创建

zeros 方法和上面的 ones 方法非常相似，不同的地方在于，这里全部填充为 0 。 zeros 方法和 ones 是一致的。

eye方法创建

numpy.eye 用于创建一个二维数组，其特点是 k 对角线上的值为 1 ，其余值全部为 0 。方法如下：

numpy.eye(N, M=None, k=0, dtype=<type 'float'>)

其中：

N ：输出数组的行数。
M ：输出数组的列数。
k ：对角线索引：0（默认）是指主对角线，正值是指上对角线，负值是指下对角线。

从已知数据文件创建

创建 frombuffer（buffer）：将缓冲区转换为 1 维数组。
fromfile（file，dtype，count，sep）：从文本或二进制文件中构建多维数组。
fromfunction（function，shape）：通过函数返回值来创建多维数组。
fromiter（iterable，dtype，count）：从可迭代对象创建 1 维数组。
fromstring（string，dtype，count，sep）：从字符串中创建 1 维数组

对数组的操作

数组的格式改变

b=a.astype(int)

数组的转置

ndarray.T 用于数组的转置，与 .transpose() 相同

a.T

transpose 类似于矩阵的转置，它可以将 2 维数组的横轴和纵轴交换。其方法如下：

numpy.transpose(a, axes=None)

其中：

a ：数组。
axis ：该值默认为 none ，表示转置。如果有值，那么则按照值替换轴。

对于此函数的解释：

在高二维的矩阵运算中转置可能导致维度混乱，用参数二可以对维度进行调整

正常转置

此时是直接把维度调过来了

然而，加上参数，可以对维度的排列进行调整

[1, 0, 2]指的是原来的第二维到了第一的位置，第一维到了第二的位置，第三维不变

重设数组形状

reshape 可以在不改变数组数据的同时，改变数组的形状。其中， numpy.reshape() 等效于 ndarray.reshape() 。 reshape 方法非常简单：

numpy.reshape(a, newshape)

其中，a 表示原数组， newshape 用于指定新的形状(整数或者元组)。

resize 用法相似：

resize(a，new_shape) ：对数组尺寸进行重新设定。

reshape 在改变形状时，不会影响原数组，相当于对原数组做了一份拷贝。而 resize 则是对原数组执行操作。

数组展开

ravel 的目的是将任意形状的数组扁平化，变为 1 维数组。 ravel 方法如下：

numpy.ravel(a, order='C')

其中，a 表示需要处理的数组。 order 表示变换时的读取顺序，默认是按照行依次读取，当 order='F' 时，可以按列依次读取排序。

轴移动

moveaxis 可以将数组的轴移动到新的位置。其方法如下：

numpy.moveaxis(a, source, destination)

a ：数组。
source ：要移动的轴的原始位置。
destination ：要移动的轴的目标位置。

1,0就是意味着将数组的第二维移动到第一维的位置

轴交换

和 moveaxis 不同的是， swapaxes 可以用来交换数组的轴。其方法如下：

numpy.swapaxes(a, axis1, axis2)

a ：数组。
axis1 ：需要交换的轴 1 位置。
axis2 ：需要与轴 1 交换位置的轴 1 位置。

数组连接

concatenate 可以将多个数组沿指定轴连接在一起。其方法为：

numpy.concatenate((a1, a2, ...), axis=0)

其中：

(a1, a2, ...) ：需要连接的数组。
axis ：指定连接轴。

数组堆叠

stack(arrays，axis) ：沿着新轴连接数组的序列。
column_stack() ：将 1 维数组作为列堆叠到 2 维数组中。
hstack() ：按水平方向堆叠数组。
vstack() ：按垂直方向堆叠数组。
dstack() ：按深度方向堆叠数组。

横着堆叠

数组删除行或列

首先是 delete 删除：

delete(arr，obj，axis) ：沿特定轴删除数组中的子数组。

数组插入行或列

insert 插入，用法和 delete 很相似，只是需要在第三个参数位置设置需要插入的数组对象：

insert(arr，obj，values，axis) ：依据索引在特定轴之前插入值。

append插入

append 的用法也非常简单。只需要设置好需要附加的值和轴位置就好了。它其实相当于只能在末尾插入的 insert ，所以少了一个指定索引的参数。

append(arr，values，axis) ：将值附加到数组的末尾，并返回 1 维数组。

数组的拆分

split 及与之相似的一系列方法主要是用于数组的拆分，列举如下，ary指的是待操作的数组

split(ary，indices_or_sections，axis) ：将数组拆分为多个子数组。
dsplit(ary，indices_or_sections) ：按深度方向将数组拆分成多个子数组。
hsplit(ary，indices_or_sections) ：按水平方向将数组拆分成多个子数组。
vsplit(ary，indices_or_sections) ：按垂直方向将数组拆分成多个子数组。

ary
ary的类型为ndarray（n维数组），表示待分割的原始数组
indices_or_sections
indices_or_sections的类型为int或者一维数组，表示一个索引，也就是切的位置所在。indices_or_sections的值如果是一个整数的话，就用这个数平均分割原数组。

indices_or_sections的值如果是一个数组的话，就以数组中的数字为索引切开.

数组信息获取

输出数据类型

ndarray.dtype用来输出数组包含元素的数据类型。

a.dtype

输出形状/大小

ndarray.ndim 用来输出数组维度。

ndarray.shape 用来输出数组形状。

ndarray.size 用来输出数组中的总包含元素数。

输出实部/虚部

ndarray.imag 用来输出数组包含元素的虚部。

ndarray.real 用来输出数组包含元素的实部。

a.imaga.real

Numpy随机数

生成[0,1]随机数

numpy.random.rand(d0, d1, ..., dn) 方法的作用为：

指定一个数组，并使用 [0, 1) 区间随机数据填充，这些数据均匀分布。如果传入的数是一个，则生成一个一维数组如果传入的数是两个，则生成一个二维数组

randn 方法与 rand 用法相同，不同的是 randn 服从正态分布

生成左闭右开区间内的随机整数

randint(low, high, size, dtype) 方法将会生成 [low, high) 的随机整数。注意这是一个半开半闭区间。

np.random.randint(2, 5, (2,5))

在数组中随机抽取

import numpy as np# 参数意思分别 是从a 中以概率P，随机选择3个, p没有指定的时候相当于是一致的分布a1 = np.random.choice(a=5, size=3, replace=False, p=None)print(a1)# 非一致的分布，会以多少的概率提出来 p表示的即为频率a2 = np.random.choice(a=5, size=3, replace=False, p=[0.2, 0.1, 0.3, 0.4, 0.0])print(a2)# replacement 代表的意思是抽样之后还放不放回去，如果是False的话，那么出来的三个数都不一样

满足概率密度的随机数

除了上面介绍的 6 种随机数生成方法，NumPy 还提供了大量的满足特定概率密度分布的样本生成方法。它们的使用方法和上面非常相似，列举如下：

numpy.random.beta(a，b，size) ：从 Beta 分布中生成随机数。
numpy.random.binomial(n, p, size) ：从二项分布中生成随机数。
numpy.random.chisquare(df，size) ：从卡方分布中生成随机数。
numpy.random.dirichlet(alpha，size) ：从 Dirichlet 分布中生成随机数。
numpy.random.exponential(scale，size) ：从指数分布中生成随机数。
numpy.random.f(dfnum，dfden，size) ：从 F 分布中生成随机数。
numpy.random.gamma(shape，scale，size) ：从 Gamma 分布中生成随机数。
numpy.random.geometric(p，size) ：从几何分布中生成随机数。
numpy.random.gumbel(loc，scale，size) ：从 Gumbel 分布中生成随机数。
numpy.random.hypergeometric(ngood, nbad, nsample, size) ：从超几何分布中生成随机数。
numpy.random.laplace(loc，scale，size) ：从拉普拉斯双指数分布中生成随机数。
numpy.random.logistic(loc，scale，size) ：从逻辑分布中生成随机数。
numpy.random.lognormal(mean，sigma，size) ：从对数正态分布中生成随机数。
numpy.random.logseries(p，size) ：从对数系列分布中生成随机数。
numpy.random.multinomial(n，pvals，size) ：从多项分布中生成随机数。
numpy.random.multivariate_normal(mean, cov, size) ：从多变量正态分布绘制随机样本。
numpy.random.negative_binomial(n, p, size) ：从负二项分布中生成随机数。
numpy.random.noncentral_chisquare(df，nonc，size) ：从非中心卡方分布中生成随机数。
numpy.random.noncentral_f(dfnum, dfden, nonc, size) ：从非中心 F 分布中抽取样本。
numpy.random.normal(loc，scale，size) ：从正态分布绘制随机样本。
numpy.random.pareto(a，size) ：从具有指定形状的 Pareto II 或 Lomax 分布中生成随机数。
numpy.random.poisson(lam，size) ：从泊松分布中生成随机数。
numpy.random.power(a，size) ：从具有正指数 a-1 的功率分布中在 0，1 中生成随机数。
numpy.random.rayleigh(scale，size) ：从瑞利分布中生成随机数。
numpy.random.standard_cauchy(size) ：从标准 Cauchy 分布中生成随机数。
numpy.random.standard_exponential(size) ：从标准指数分布中生成随机数。
numpy.random.standard_gamma(shape，size) ：从标准 Gamma 分布中生成随机数。
numpy.random.standard_normal(size) ：从标准正态分布中生成随机数。
numpy.random.standard_t(df，size) ：从具有 df 自由度的标准学生 t 分布中生成随机数。
numpy.random.triangular(left，mode，right，size) ：从三角分布中生成随机数。
numpy.random.uniform(low，high，size) ：从均匀分布中生成随机数。
numpy.random.vonmises(mu，kappa，size) ：从 von Mises 分布中生成随机数。
numpy.random.wald(mean，scale，size) ：从 Wald 或反高斯分布中生成随机数。
numpy.random.weibull(a，size) ：从威布尔分布中生成随机数。
numpy.random.zipf(a，size) ：从 Zipf 分布中生成随机数。

numpy函数计算

外部计算

三角运算

numpy.sin(x) ：三角正弦。
numpy.cos(x) ：三角余弦。
numpy.tan(x) ：三角正切。
numpy.arcsin(x) ：三角反正弦。
numpy.arccos(x) ：三角反余弦。
numpy.arctan(x) ：三角反正切。
numpy.hypot(x1,x2) ：直角三角形求斜边。
numpy.degrees(x) ：弧度转换为度。
numpy.radians(x) ：度转换为弧度。
numpy.deg2rad(x) ：度转换为弧度。
numpy.rad2deg(x) ：弧度转换为度。
numpy.sinh(x) ：双曲正弦。
numpy.cosh(x) ：双曲余弦。
numpy.tanh(x) ：双曲正切。
numpy.arcsinh(x) ：反双曲正弦。
numpy.arccosh(x) ：反双曲余弦。
numpy.arctanh(x) ：反双曲正切。指对数运算

指对数计算

numpy.exp(x) ：计算输入数组中所有元素的指数。
numpy.log(x) ：计算自然对数。
numpy.log10(x) ：计算常用对数。
numpy.log2(x) ：计算二进制对数。

内部计算

numpy.prod(a, axis, dtype, keepdims) ：返回指定轴上的数组元素的乘积。
numpy.sum(a, axis, dtype, keepdims) ：返回指定轴上的数组元素的总和。
numpy.nanprod(a, axis, dtype, keepdims) ：返回指定轴上的数组元素的乘积, 将 NaN 视作 1。
numpy.nansum(a, axis, dtype, keepdims) ：返回指定轴上的数组元素的总和, 将 NaN 视作 0。
numpy.cumprod(a, axis, dtype) ：返回沿给定轴的元素的累积乘积。 numpy.cumsum(a, axis, dtype) ：返回沿给定轴的元素的累积总和。
numpy.nancumprod(a, axis, dtype) ：返回沿给定轴的元素的累积乘积, 将 NaN 视作 1。
numpy.nancumsum(a, axis, dtype) ：返回沿给定轴的元素的累积总和, 将 NaN 视作 0。
numpy.diff(a, n, axis) ：计算沿指定轴的第 n 个离散差分。
numpy.ediff1d(ary, to_end, to_begin) ：数组的连续元素之间的差异。
numpy.gradient(f) ：返回 N 维数组的梯度。
numpy.cross(a, b, axisa, axisb, axisc, axis) ：返回两个(数组）向量的叉积。
numpy.trapz(y, x, dx, axis) ：使用复合梯形规则沿给定轴积分。

相互计算

numpy.add(x1, x2) ：对应元素相加。
numpy.reciprocal(x) ：求倒数 1/x。
numpy.negative(x) ：求对应负数。
numpy.multiply(x1, x2) ：求解乘法。
numpy.divide(x1, x2) ：相除 x1/x2。
numpy.power(x1, x2) ：类似于 x1^x2。
numpy.subtract(x1, x2) ：减法。
numpy.fmod(x1, x2) ：返回除法的元素余项。
numpy.mod(x1, x2) ：返回余项。
numpy.modf(x1) ：返回数组的小数和整数部分。
numpy.remainder(x1, x2) ：返回除法余数。
numpy.dot(a, b) ：求解两个数组的点积。
numpy.vdot(a, b) ：求解两个向量的点积。
numpy.inner(a, b) ：求解两个数组的内积。
numpy.outer(a, b) ：求解两个向量的外积。
numpy.matmul(a, b) ：求解两个数组的矩阵乘积。
numpy.tensordot(a, b) ：求解张量点积。
numpy.kron(a, b) ：计算 Kronecker 乘积。

线性代数矩阵计算

numpy.linalg.cholesky(a) ：Cholesky 分解。
numpy.linalg.qr(a ,mode) ：计算矩阵的 QR 因式分解。
numpy.linalg.svd(a ,full_matrices,compute_uv) ：奇异值分解。
numpy.linalg.eig(a) ：计算正方形数组的特征值和右特征向量。
numpy.linalg.eigh(a, UPLO) ：返回 Hermitian 或对称矩阵的特征值和特征向量。
numpy.linalg.eigvals(a) ：计算矩阵的特征值。
numpy.linalg.eigvalsh(a, UPLO) ：计算 Hermitian 或真实对称矩阵的特征值。
numpy.linalg.norm(x ,ord,axis,keepdims) ：计算矩阵或向量范数。
numpy.linalg.cond(x ,p) ：计算矩阵的条件数。
numpy.linalg.det(a) ：计算数组的行列式。
numpy.linalg.matrix_rank(M ,tol) ：使用奇异值分解方法返回秩。
numpy.linalg.slogdet(a) ：计算数组的行列式的符号和自然对数。
numpy.trace(a ,offset,axis1,axis2,dtype,out) ：沿数组的对角线返回总和。
numpy.linalg.solve(a, b) ：求解线性矩阵方程或线性标量方程组。
numpy.linalg.tensorsolve(a, b ,axes) ：为 x 解出张量方程 a x = b
numpy.linalg.lstsq(a, b ,rcond) ：将最小二乘解返回到线性矩阵方程。
numpy.linalg.inv(a) ：计算逆矩阵。
numpy.linalg.pinv(a ,rcond) ：计算矩阵的（Moore-Penrose）伪逆。
numpy.linalg.tensorinv(a ,ind) ：计算 N 维数组的逆。

数组的引用和分割

下标引用

一维数据

二维数据

数组的切片

Ndarray[start:stop:step]

对于二维数组，只需要用逗号分隔维度

排序，搜索和计数

排序

最后，再介绍几个 NumPy 针对数组元素的使用方法，分别是排序、搜索和计数。我们可以使用 numpy.sort 方法对多维数组元素进行排序。其方法为：

numpy.sort(a, axis=-1, kind='quicksort', order=None)

其中：

a ：数组。
axis ：要排序的轴。如果为 None ，则在排序之前将数组铺平。默认值为 -1 ，沿最后一个轴排序。
kind ： {'quicksort'，'mergesort'，'heapsort'} ，排序算法。默认值为 quicksort 。

搜索与计数

argmax(a ,axis,out) ：返回数组中指定轴的最大值的索引。
nanargmax(a ,axis) ：返回数组中指定轴的最大值的索引,忽略 NaN。
argmin(a ,axis,out) ：返回数组中指定轴的最小值的索引。
nanargmin(a ,axis) ：返回数组中指定轴的最小值的索引,忽略 NaN。
argwhere(a) ：返回数组中非 0 元素的索引,按元素分组。
nonzero(a) ：返回数组中非 0 元素的索引。
flatnonzero(a) ：返回数组中非 0 元素的索引,并铺平。
where(条件,x,y) ：根据指定条件,从指定行、列返回元素。
searchsorted(a,v ,side,sorter) ：查找要插入元素以维持顺序的索引。
extract(condition,arr) ：返回满足某些条件的数组的元素。
count_nonzero(a) ：计算数组中非 0 元素的数量。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Python数据分析之numpy学习 (转)Python数据分析之numpy学习数据分析之Numpy库入门 Python数据分析之numpy的应用 Python数据分析(二): Numpy技巧 (1/4) python数据分析进阶之numpy 数据分析之 NumPy Python数据分析学习（一）：Numpy与纯Python计算向量加法速度比较数据分析与展示——NumPy库入门 Python数据分析之Numpy库的使用详细讲解一、简介二、安装三、数组的创建