【Python茴香豆系列】之 PANDAS 变更列的类型

【Python茴香豆系列】之 PANDAS 变更列的类型,第1张

概述用Python编程,使用不同的方法来完成同一个目标,有时候是一件很有意思的事情。这让我想起鲁迅笔下的孔乙己。孔乙己对于茴香豆的茴字的四种写法颇有研究。我不敢自比孔乙己,这里搜集一些Python的茴香豆,以飨各位码农。首先准备一个函数,用来生成用于测试的DataFrame。这个D

用 Python 编程,使用不同的方法来完成同一个目标,有时候是一件很有意思的事情。这让我想起鲁迅笔下的孔乙己。孔乙己对于茴香豆的茴字的四种写法颇有研究。我不敢自比孔乙己,这里搜集一些 Python 的茴香豆,以飨各位码农。

首先准备一个函数,用来生成用于测试的 DataFrame 。这个 DataFrame 有 3 列,名称分别为 a 、 b 和 c 。

>>> import numpy as np>>> import pandas as pd
茴香豆一: to_numeric()

这个函数可以把 scalar 、 List 、tuple 、 1-d array 或者 SerIEs 类型的数据转换为数字类型的数据。
默认根据输入的参数返回 float64 或者 int64 类型。

把一个序列转换为数字,序列中的数据的数据类型不要求一致。

>>> s = pd.SerIEs(["1", 2, "3"])>>> pd.to_numeric(s)0    11    22    3dtype: int64

生成一个有三个列的示例 DataFrame

>>> df = pd.DataFrame({...     'a':['1','2','3'],...     'b':[4,'5.0',6],...     'c':['7',8,9]})>>> df.dtypesa    objectb    objectc    objectdtype: object

转换所有的列

>>> df.apply(pd.to_numeric).dtypesa      int64b    float64c      int64dtype: object

只转换 a 列和 b 列

>>> df[["a", "b"]] = df[["a", "b"]].apply(pd.to_numeric)>>> df.dtypesa      int64b    float64c     objectdtype: object

to_numeric 的函数原型是 to_numeric(arg, errors='raise', downcast=None)errors 可以控制类型转换中的出错处理。详细内容参见文档。
类似类型的函数还有 to_datetime()to_timedelta()

茴香豆二: astype()

Dataframe 和 SerIEs 的实例均有 astype 方法,可用于类型转换。

>>> s = pd.SerIEs(["1", 2, "3"])>>>s.astype(int)0    11    22    3dtype: int64>>> df = pd.DataFrame({...     'a':['1','2','3'],...     'b':[4,'5.0',6],...     'c':['7',8,9]})>>> df.astype('int32', errors='ignore').dtypesa    objectb    objectc    objectdtype: object>>> df.astype({'a': 'int32'}).dtypesa     int32b    objectc    objectdtype: object

astype 方法的定义是 astype(dtype, copy: bool = True, errors: str = 'raise') ,详细内容参见文档。

茴香豆三: infer_objects()

此方法的作用是尝试把 object 类型的列转换为更合适的类型,于 0.21.0 版本新增。示例:

>>> df = pd.DataFrame({"A": ["a", 1, 2, 3],...                    "B": ["a", 1, 2.0, 3]})>>> df.dtypesA    objectB    objectdtype: object>>> df = df.iloc[1:]>>> df.infer_objects().dtypesA      int64B    float64dtype: object
茴香豆四: convert_dtypes()

此方法的作用是尝试把列的数据类型转换为更合适的类型,于 1.0.0 版本新增。官方示例:

>>> df = pd.DataFrame(...     {...         "a": pd.SerIEs([1, 2, 3], dtype=np.dtype("int32")),...         "b": pd.SerIEs(["x", "y", "z"], dtype=np.dtype("O")),...         "c": pd.SerIEs([True, False, np.nan], dtype=np.dtype("O")),...         "d": pd.SerIEs(["h", "i", np.nan], dtype=np.dtype("O")),...         "e": pd.SerIEs([10, np.nan, 20], dtype=np.dtype("float")),...         "f": pd.SerIEs([np.nan, 100.5, 200], dtype=np.dtype("float")),...     }... )>>> df   a  b      c    d     e      f0  1  x   True    h  10.0    NaN1  2  y  False    i   NaN  100.52  3  z    NaN  NaN  20.0  200.0

新建一个 DataFrame ,默认的 dtype 如下:

>>> df.dtypesa      int32b     objectc     objectd     objecte    float64f    float64dtype: object

把类型转换为最优解。

>>> dfn = df.convert_dtypes()>>> dfn   a  b      c     d     e      f0  1  x   True     h    10    NaN1  2  y  False     i  <NA>  100.52  3  z   <NA>  <NA>    20  200.0>>> dfn.dtypesa      Int32b     stringc    booleand     stringe      Int64f    float64dtype: object

新建一个字符串组成的 SerIEs ,缺失的数据用 np.nan 表示。

>>> s = pd.SerIEs(["a", "b", np.nan])>>> s0      a1      b2    NaNdtype: object

得到一个 dtype 为 StringDtype 的 SerIEs 。

>>> s.convert_dtypes()0       a1       b2    <NA>dtype: string
总结

以上是内存溢出为你收集整理的【Python茴香豆系列】之 PANDAS 变更列的类型全部内容,希望文章能够帮你解决【Python茴香豆系列】之 PANDAS 变更列的类型所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://www.outofmemory.cn/langs/1188311.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-03
下一篇 2022-06-03

发表评论

登录后才能评论

评论列表(0条)

保存