技巧 | Pandas 数据填充

技巧 | Pandas 数据填充,第1张

课程学习: Pandas 数据处理基础入门

除了直接填充值,我们还可以通过参数,将缺失值前面或者后面的值填充给相应的缺失值。例如使用缺失值前面的值进行填充:

或者是后面的值:

可以看到,连续缺失值也是按照前序数值进行填充的,并且完全填充。这里,我们可以通过 limit= 参数设置连续填充的限制数量:

除了上面的填充方式,还可以通过 Pandas 自带的求平均值方法等来填充特定列或行。举个例子:

插值是数值分析中一种方法。简而言之,就是借助于一个函数(线性或非线性),再根据已知数据去求解未知数据的值。插值在数据领域非常常见,它的好处在于,可以尽量去还原数据本身的样子。我们可以通过 interpolate() 方法完成线性插值。

对于 interpolate() 支持的插值算法,也就是 method= 。下面给出几条选择的建议:

除了上面提到的一些方法和技巧,实际上 Pandas 常用的还有:

--- End ---

DataFrameGroupBy对象常用的函数:

数据缺失通常有两种情况:

一种就是空,None等,在pandas是NaN(和np.nan一样)。

另一种是我们让其为0,蓝色框中。

在pandas中数据缺失处理方法

判断数据是否为NaN:pd.isnull(df),pd.notnull(df)

处理方式1:删除NaN所在的行列dropna (axis=0, how='any', inplace=False)

处理方式2:填充数据,t.fillna(t.mean()),t.fiallna(t.median()),t.fillna(0)

处理为0的数据:t[t==0]=np.nan

注意 :当然并不是每次为0的数据都需要处理;计算平均值等情况,nan是不参与计算的,但是0会。

​ r取值范围[‐1,1]

​ 0.8‐1.0 极强相关;0.6‐0.8 强相关; 0.4‐0.6 中等程度相关; 0.2‐0.4 弱相关; 0.0‐0.2 极弱相关或无相关。

相关分析函数 适用于Series和DataFrame类型

参考资料:

网址:

https://blog.csdn.net/qq_35318838/article/details/80564938

书籍:

《python数据科学手册》

《利用python进行数据分析》

《python科学计算》

视频:

《黑马程序员之数据分析》

《python数据分析与展示》


欢迎分享,转载请注明来源:内存溢出

原文地址: https://www.outofmemory.cn/sjk/6686550.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-03-26
下一篇 2023-03-26

发表评论

登录后才能评论

评论列表(0条)

保存