从pandas

阅读: 评论:0

从pandas

从pandas

孤寡

  • 前言
  • 读数据
  • 计算占比
  • div函数

前言

github上找的练习pandas的一个项目,记录下学到了啥。

项目

下载到本地用Jupyter notebook打开就好啦。

读数据

众所周知,读取数据直接用就好,需要注意的是read_tableread_csv里默认的参数sep并不同,前者是t,而后者是,

计算占比

计算占比时总会agg两个函数,搞的列名会多一层就很烦:

# 各职业里面男性的占比
def m_num(x):return x[x.values=='M'].count()
c = upby('occupation').agg({'gender':['count', m_num]}).droplevel(axis=1, level=0)
c['Male ratio'] = c['m_num'] / c['count']

新学到一个思路就是利用value_counts函数,取两个Series直接计算:

c = upby('occupation').agg({'gender':m_num}).gender
r = c / upation.value_counts()

div函数

# create a data frame and apply count to gender
gender_ocup = upby(['occupation', 'gender']).agg({'gender': 'count'})# create a DataFrame and apply count for each occupation
occup_count = upby(['occupation']).agg('count')# divide the gender_ocup per the occup_count and multiply per 100
occup_gender = gender_ocup.div(occup_count, level = "occupation") * 100

如果是 Series 需要添加参数 axis

本文发布于:2024-02-01 09:06:23,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170674958535531.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:pandas
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23