Pandas知识总结

[toc]

单个表格

  • 索引
  • apply
  • groupby agg
  • explode (对于其中一列为list的df) 能够实现一行变多行的效果
  • groupby resample
  • datetime index pd.date_range
  • pct_change, shift, diff
  • multiindex unstack stack
  • 透视表 两个分类 + 变量可以生成透视表
  • query
  • isnot
  • 空值处理 notnull isnull
  • 遍历 iter rows + tuples
  • astype(‘int32’) (‘category’)节约内存
  • str. startwith replace slice

多个表格

  • merge
    • 一般vlookup
    • 笛卡尔积 (实现:再原表的基础上增加一列全为1,然后再根据这一列进行merge)适合针对表中的每一行 与全表进行匹配运算的情况
    • 模糊匹配: 先按行根据正则表达式进行查找匹配,然后再进行explode,最后再merge

熟悉以上的语法能够进一步减少使用循环遍历的方式去处理表格,尽量减少使用循环遍历的方式来进行表格的处理.