大数据分析在企业的数字化营销中发挥着关键性的作用,大数据分析指从海量的数据中提取出最有效最有价值的信息;大数据分析工具Pandas能够快捷提取有用的数据并可以对数据进行快速分析处理。
纸上得来终觉浅,通过实际应用场景学习Pandas:
import numpy as np
import pandas as pd
#加载csv或者Excel数据
modelData = pd.read_csv('data/modelData.csv', header = 0)
#modelData = pd.read_excel('data/modelData.xlsx', header = 0)
#加载数据
modelData=pd.DataFrame(np.arange(9).reshape(3,3),index=list('abc'),columns=list('xyz'))
x y z
a 0 1 2
b 3 4 5
c 6 7 8
#删除特定行列方法
modelData.drop(modelData[modelData.y == 1].index)
x y z
b 3 4 5
c 6 7 8
#选择表格中的'x'、'y'列
modelData[['x','y']]
x y
a 0 1
b 3 4
c 6 7
#切片操作,返回前两行
modelData[0:2]
x y z
a 0 1 2
b 3 4 5
#获取第2行,如果采用data[1]则报错
modelData[1:2]
x y z
b 3 4 5
#选择表格中的'y'列,两种操作方式,返回的是Series类型
modelData['y']
modelData.y
a 1
b 4
c 7
Name: y, dtype: int32
#选择表格中的'y'列,返回的是DataFrame属性
modelData[['y']]
y
a 1
b 4
c 7
#获取索引值
modelData.index.values
['a' 'b' 'c']
#获取列值,两种操作方式
modelData.columns.values
[column for column in modelData]
['x' 'y' 'z']
#利用索引值进行切片,获取特定行
modelData['a':'b']
x y z
a 0 1 2
b 3 4 5
#获取前几行数据,默认为前五行,需要前十行则modelData.head(10)
modelData.head()
x y z
a 0 1 2
b 3 4 5
c 6 7 8
#获取modelData的后几行数据,默认为后五行,需要后十行则data.tail(10)
modelData.tail(1)
x y z
c 6 7 8
#选取modelData最后一行,返回的是Series
modelData.iloc[-1]
x 6
y 7
z 8
Name: c, dtype: int32
#选取modelData最后一行,返回的是modelData
modelData.iloc[-1:]
x y z
c 6 7 8
#选取modelData第0、2行,1、2列
modelData.iloc[[0,2],[1,2]]
y z
a 1 2
c 7 8
#获取‘a'行'w'、'x'列,这种用于选取行索引列索引已知
modelData.loc['a',['w','x']]
x 0
z 2
Name: a, dtype: int32
#选取第二行第二列,用于已知行、列位置的选取
modelData.iat[1,1]
4
#替换特定行列的值
modelData.loc[modelData['y']==4,'y']=0
#替换特定行列的值,第二种方法
modelData.y[modelData['y']==4]=0
x y z
a 0 1 2
b 3 0 5
c 6 7 8
| 留言与评论(共有 0 条评论) “” |