In [1]:
# numpy高性能科学计算和数据分析的基础包,是 pandas等其他各种工具的基础
# 主要功能:
 # dbarray 一个多纬数组结构,高效节省空间
 # 无需循环对整组数据 进行快速运算的数学函数
 # 线性代数,随机数生成和佛里叶变换功能

In [2]:
import numpy as np
import random

In [3]:
# 首先补习一下 random 方法
random.randint(1,10) # 从1-10中 生成随机整数

7

In [4]:
random.random() # 生成一个随机数

0.01012065801267803

In [5]:
random.uniform(1, 5) # 方法将随机生成一个实数,它在(3,5) 范围内。

3.234220387581025

In [6]:
# 把普通列表转换为 数组
a = [1,2,4,5,6,8]
np.array(a)

array([1, 2, 4, 5, 6, 8])

In [7]:
# 案例一: 已知道若干公司的市值(美元), 将其换算为人民币
a = [random.uniform(100.0,200.0) for i in range(5)]
print(a)
a = np.array(a)
x = 6.8
a * x

[114.8113445129365, 105.03026077646373, 126.40819668276984, 144.02771362642457, 188.69914082688803]


array([ 780.71714269, 714.20577328, 859.57573744, 979.38845266,
 1283.15415762])

In [8]:
# 求和
np.arange(10).sum()

45

In [9]:
# 案例二: 已知每件商品的价格和数量 求 每件商品的总价格和所有商品的总价格
a = [random.uniform(100.0,200.0) for i in range(10)]
a = np.array(a)
b = [random.randint(1 ,20) for i in range(10)]
b = np.array(b)

In [10]:
# 求每件上面的总价格
a*b

array([ 536.91451279, 505.93632213, 2330.99761339, 327.7136931 ,
 388.23558067, 3015.30411445, 341.09819457, 930.55884079,
 3188.44631204, 1824.75147264])

In [11]:
# 所有商品的总价格
(a*b).sum()

13389.956656579325

In [12]:
# 数组
# numpy 提供 ndarray 多纬数组对象
 # 数组和列表的区别
 # 1.数组对象内的元素类型必须相同
 # 2. 数组大小不可以修改
 
# ndarray 数据类型
 # 布尔型: bool_
 # 整型: int_ int8 int16 int32 int64
 # 无符号整型: uint8 uint16 uint32 uni64
 # 浮点型: float_ float_16 float_32 float_64
 # 复数型: complex_ complex64 complex128

In [13]:
a = np.array(range(10))
# 数据类型
a.dtype

dtype('int64')

In [14]:
# 元素的个数
a.size

10

In [15]:
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [16]:
a.shape # 几纬 返回 几个数

(10,)

In [17]:
# 二维数组
a = np.array([[1,2,3],[4,5,6]])
a.size # size 返回数组的元素个数

6

In [18]:
a

array([[1, 2, 3],
 [4, 5, 6]])

In [19]:
# 返回数组是 几*几
a.shape # 2行 3列

(2, 3)

In [20]:
# 三维数组
a = np.array([[[1,2,3,4],[4,5,6,6]],[[7,3,4,5],[7,8,9,5]],[[7,3,4,5],[7,8,9,1]]])

In [21]:
a

array([[[1, 2, 3, 4],
 [4, 5, 6, 6]],

 [[7, 3, 4, 5],
 [7, 8, 9, 5]],

 [[7, 3, 4, 5],
 [7, 8, 9, 1]]])

In [22]:
a.size # 元素个数

24

In [23]:
a.shape # 3页 2行 4列 

(3, 2, 4)

In [24]:
a = np.array([[1,2,3],[4,5,6]])

In [25]:
a

array([[1, 2, 3],
 [4, 5, 6]])

In [26]:
a.T # 转置 

array([[1, 4],
 [2, 5],
 [3, 6]])

In [27]:
# ndim

In [28]:
a = np.array([[1,2,3],[4,5,6]])
a.ndim # 查看数组的 纬度

2

In [29]:
a = np.array(range(5))
a.ndim # 查看数组的 纬度

1

In [30]:
a = np.zeros(10) # 创建全是 0 的数组
a

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [31]:
a.dtype # 类型为 float64

dtype('float64')

In [32]:
a = np.zeros(10, dtype='int') # 指定创建的类型

In [33]:
a

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [34]:
a.dtype

dtype('int64')

In [35]:
a = np.ones(10) # 创建 全是 1 的数组

In [36]:
a

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [37]:
a = np.empty(20) # 创建 空 数组
a

array([-1.49166815e-154, -1.49166815e-154, 4.94065646e-323,
 0.00000000e+000, 0.00000000e+000, 0.00000000e+000,
 0.00000000e+000, 0.00000000e+000, 0.00000000e+000,
 0.00000000e+000, 0.00000000e+000, 0.00000000e+000,
 0.00000000e+000, 0.00000000e+000, 0.00000000e+000,
 4.98131536e+151, -1.49166815e-154, -2.68679007e+154,
 -1.49166815e-154, 1.39500959e-308])

In [38]:
# arange 和普通的 range差不多 有一些区别

In [39]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [40]:
np.arange(2,10,3) # 步长

array([2, 5, 8])

In [41]:
np.arange(2,10,0.5) # 步长 可以为小数

array([2. , 2.5, 3. , 3.5, 4. , 4.5, 5. , 5.5, 6. , 6.5, 7. , 7.5, 8. ,
 8.5, 9. , 9.5])

In [42]:
# linspace # 把 0-10 分成 2份 2 为份数 间隔一样
np.linspace(0,10,2)

array([ 0., 10.])

In [43]:
np.linspace(0,10,4) # 把 0-10 分成 3份 3为份数 间隔一样

array([ 0. , 3.33333333, 6.66666667, 10. ])

In [44]:
############# ndarray 批量运算

In [45]:
a = np.arange(10)

In [46]:
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [47]:
a/3

array([0. , 0.33333333, 0.66666667, 1. , 1.33333333,
 1.66666667, 2. , 2.33333333, 2.66666667, 3. ])

In [48]:
3/a

 """Entry point for launching an IPython kernel.


array([ inf, 3. , 1.5 , 1. , 0.75 ,
 0.6 , 0.5 , 0.42857143, 0.375 , 0.33333333])

In [49]:
a+1

array([ 1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

In [50]:
b = np.arange(10,20)

In [51]:
b

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [52]:
a+b # 两个数组运算

array([10, 12, 14, 16, 18, 20, 22, 24, 26, 28])

In [53]:
a5] # 布尔型索引

array([ True, True, True, True, True, True, True, True, True,
 True])

In [78]:
# 原理 数组与标量的运算
a>5

array([False, True, True, False, True, True, True, False, True,
 True])

In [79]:
a

array([ 5, 9, 6, 5, 7, 6, 10, 2, 8, 7])

In [80]:
a[(a>5) & (a%2==0)]

array([ 6, 6, 10, 8])

In [81]:
a[(a>5) | (a%2==0)]

array([ 9, 6, 7, 6, 10, 2, 8, 7])

In [82]:
a

array([ 5, 9, 6, 5, 7, 6, 10, 2, 8, 7])

In [83]:
a[[1,2,3]] # 花式索引 可以直接把索引写成一个列表 取对应的值

array([9, 6, 5])

In [84]:
a=np.arange(20).reshape(4,5)

In [85]:
a

array([[ 0, 1, 2, 3, 4],
 [ 5, 6, 7, 8, 9],
 [10, 11, 12, 13, 14],
 [15, 16, 17, 18, 19]])

In [86]:
a[1,2:4]

array([7, 8])

In [87]:
a[1,a[0]>2] 

array([8, 9])

In [88]:
a[[1,3],:][:,[1,3]] # 先取2,3行的所有列的值, 再取所有行的 1,3 列

array([[ 6, 8],
 [16, 18]])

In [89]:
a[[1,3],[1,3]] # 两边都是花式索引 作用不一样 需要特殊注意

array([ 6, 18])

In [90]:
########## numpy 通用函数

In [91]:
# 一元函数 asb sqrt ceil floor rint trunc modf isnan isinf
# 二元函数 maximum mininum

In [92]:
a=np.arange(-5,5)
a

array([-5, -4, -3, -2, -1, 0, 1, 2, 3, 4])

In [93]:
abs(a)

array([5, 4, 3, 2, 1, 0, 1, 2, 3, 4])

In [94]:
a

array([-5, -4, -3, -2, -1, 0, 1, 2, 3, 4])

In [95]:
np.abs(a)

array([5, 4, 3, 2, 1, 0, 1, 2, 3, 4])

In [96]:
# 开方
a

array([-5, -4, -3, -2, -1, 0, 1, 2, 3, 4])

In [97]:
np.sqrt(a)

 """Entry point for launching an IPython kernel.


array([ nan, nan, nan, nan, nan,
 0. , 1. , 1.41421356, 1.73205081, 2. ])

In [98]:
# int 取整数 向 0 取整数
a=1.6
int(a)

1

In [99]:
a

1.6

In [100]:
round(a) # round 四舍五入 

2

In [101]:
import math 
a=-1.6
math.floor(a) # 向下取整

-2

In [102]:
a=1.6
math.floor(a) # 向下取整


1

In [103]:
math.ceil(1.1) # 向上取整数

2

In [104]:
math.ceil(-1.1) # 向上取整数

-1

In [105]:
a=np.arange(-5.1,5.5,2)
a

array([-5.1, -3.1, -1.1, 0.9, 2.9, 4.9])

In [106]:
np.floor(a) # # 向下取整

array([-6., -4., -2., 0., 2., 4.])

In [107]:
np.ceil(a) # 向上取整数

array([-5., -3., -1., 1., 3., 5.])

In [108]:
np.round(a) # 四舍五入

array([-5., -3., -1., 1., 3., 5.])

In [109]:
np.trunc(a) # 向 0 取整数 和 int类似

array([-5., -3., -1., 0., 2., 4.])

In [110]:
np.modf(a) # 把整数部分和小数部分 分开

(array([-0.1, -0.1, -0.1, 0.9, 0.9, 0.9]),
 array([-5., -3., -1., 0., 2., 4.]))

In [111]:
### isnan isinf 举例说明
# nan(not a Number) 不等于任何浮点数(nan != nan)
# inf(infinity) 比任何浮点数都大
# numpy 中创建中创建特殊值 np.nan np.inf
# 在数据分析中 nan常被用作表示数据缺失值

In [112]:
a = np.arange(0,5)
a

array([0, 1, 2, 3, 4])

In [113]:
5/a

 """Entry point for launching an IPython kernel.


array([ inf, 5. , 2.5 , 1.66666667, 1.25 ])

In [114]:
a = np.arange(-5,5)

In [115]:
a

array([-5, -4, -3, -2, -1, 0, 1, 2, 3, 4])

In [116]:
np.sqrt(a)

 """Entry point for launching an IPython kernel.


array([ nan, nan, nan, nan, nan,
 0. , 1. , 1.41421356, 1.73205081, 2. ])

In [117]:
np.nan == np.nan # np.nan 不等于任何值

False

In [118]:
a = np.arange(-5,5)
a

array([-5, -4, -3, -2, -1, 0, 1, 2, 3, 4])

In [119]:
a/a

 """Entry point for launching an IPython kernel.


array([ 1., 1., 1., 1., 1., nan, 1., 1., 1., 1.])

In [120]:
b = a/a

 """Entry point for launching an IPython kernel.


In [121]:
b

array([ 1., 1., 1., 1., 1., nan, 1., 1., 1., 1.])

In [122]:
np.isnan(b)

array([False, False, False, False, False, True, False, False, False,
 False])

In [123]:
b[~ np.isnan(b)] # 用 ~ 把非 nan的删掉

array([1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [124]:
# inf
a = np.array([3,4,5,6,7])
a

array([3, 4, 5, 6, 7])

In [125]:
# inf
b = np.array([5,0,8,2,0])
b

array([5, 0, 8, 2, 0])

In [126]:
c = a/b
c

 """Entry point for launching an IPython kernel.


array([0.6 , inf, 0.625, 3. , inf])

In [127]:
np.inf == np.inf

True

In [128]:
c[~np.isinf(c)] # 把所有 非 inf的值取出来

array([0.6 , 0.625, 3. ])

In [129]:
c[c!=np.inf] # inf也可以这么写

array([0.6 , 0.625, 3. ])

In [130]:
a

array([3, 4, 5, 6, 7])

In [131]:
b = np.array([8,6,1,9,10])
b

array([ 8, 6, 1, 9, 10])

In [132]:
np.maximum(a,b) # 把最大的值合并为一个列表

array([ 8, 6, 5, 9, 10])

In [133]:
a

array([3, 4, 5, 6, 7])

In [134]:
a.sum() # 求和

25

In [135]:
a.min() # 最小数

3

In [136]:
a.max() # 最大数

7

In [137]:
a.mean() # 求平均数

5.0

In [138]:
# 求标准差 std 和 方差 var

In [139]:
a = np.array([3,4,5,6])
a

array([3, 4, 5, 6])

In [140]:
a.var()

1.25

In [141]:
a.mean()

4.5

In [142]:
# 方差 每个数-均数 的方 最后 加起来 / 总个数 == 方差
# 整组数据的离散程度
((3-4.5)**2+(4-4.5)**2+(5-4.5)**2+(6-4.5)**2)/4

1.25

In [143]:
a.std() # 标准差

1.118033988749895

In [144]:
a

array([3, 4, 5, 6])

In [145]:
a.argmax() # 求最大索引

3

In [146]:
a.argmin() # 求最小索引

0

In [147]:
### numpy 随机数生成
# rand 给定形状 产生随机数组 0-1之间的数
# randint 给定形状 生成随机整数
# choice 给定形状 产生随机选择
# shuffle 与 random.shuffle相同
# uniform 给定形状产生随机数组

In [148]:
# 首先复习 random
import random
random.random()

0.6899648787322505

In [149]:
random.randint(0,10)

0

In [150]:
random.choice([1,2,3,5])

5

In [151]:
a = [1,2,3,5]
a

[1, 2, 3, 5]

In [152]:
random.shuffle(a) # 打乱列表
a

[5, 2, 1, 3]

In [153]:
np.random.randint(1,10)

7

In [154]:
np.random.randint(1,10,5) # 可以直接生成数组 1-10之间 长度为 5

array([8, 5, 9, 5, 5])

In [155]:
np.random.randint(1,10,(3,2)) #生成一个 3行2列的 二维数组

array([[5, 1],
 [6, 4],
 [8, 2]])

In [156]:
np.random.randint(1,10,(2,3,4)) #生成一个 2页 3行4 列的 三纬数组

array([[[1, 6, 9, 4],
 [1, 3, 8, 1],
 [7, 4, 1, 1]],

 [[8, 6, 5, 2],
 [1, 5, 7, 6],
 [3, 6, 6, 6]]])

In [157]:
np.random.rand(10) # rand产生随机数组 0-1之间的数 长度为 10

array([0.1210554 , 0.29213791, 0.7731894 , 0.93614371, 0.48178126,
 0.22422172, 0.75228336, 0.87118411, 0.81347288, 0.28473431])

In [158]:
np.random.rand(2) # rand产生随机数组 0-1之间的数 长度为 2

array([0.57751143, 0.52700252])

In [159]:
np.random.choice([1,2,3,4,1],4) # choice 给定形状 产生随机选择 这里选择 4个

array([2, 1, 2, 1])

In [160]:
a = np.random.randint(1,10,5)
a

array([3, 8, 8, 5, 4])

In [161]:
np.random.shuffle(a) # 打乱 数组 a 的顺序
a

array([8, 3, 4, 5, 8])

In [162]:
np.random.uniform(2.0,4.0,5) # 生成5个 随机小数

array([3.35828963, 2.54463016, 2.81469473, 3.11184301, 3.59685107])