728x90
반응형
gropuby 함수는 저어엉말 자주 사용한다. 그룹별로 어떤 특징을 갖는지 알고 싶을때 주로 사용하는 것 같다.
먼저 이번 포스팅에 예시로 사용할 df_last부터 살펴보자
df_last
df_last 는 보다시피 "지역명", "분양가격", "평당분양가격" 으로 이루어진 데이터이다.
만약 지역별로 분양가격과 평당분양가격이 궁금하다면? groupby 함수를 이용해서 구할 수 있다.
지역별 분양가격과 평당분양가격의 평균
df_last.groupby(['지역명']).mean()[['분양가격','평당분양가격']]
결과를 살펴보니 강원의 분양가격의 평균은 2391만원, 평당분양가격은 7890만원이다.
이런식으로 값을 구하면 어떤 지역에 분양가격이 가장 비싼지, 저렴한지를 알 수 있다. sort_values 함수를 이용해서 내림차순으로 정렬을 해주면 보기에 직관적일 것이다. 또한 이 결괏값을 가지고 matplotlib 이나 seaborn 과 같은 시각화를 해볼 수도 있을 것이다. (역시 서울이 가장 비싸다..)
지역별 분양가격과 평당분양가격의 합
df_last.groupby(['지역명']).sum()[['분양가격','평당분양가격']].sort_values(by = "분양가격", ascending=False).head()
이번엔 groupby 함수와 sum 함수를 이용해서 지역별 분양가격과 평당분양가격의 합을 구해보았다. 위에서 언급한데로 sort_values를 이용해서 정렬해준 후 상위 5개의 지역만 추출해주었다.
이 외에도 mean, sum, count 등등 다양한 함수를 이용하면 그룹별로 어떤 분포를 띄는지 구할 수 있다!
728x90
반응형
'python' 카테고리의 다른 글
[python] matplitlib, seaborn 시각화 여러개 그리기 (set_xticklabels, set_xlabel, set_title, axes) (0) | 2023.08.10 |
---|---|
[python] pandas stack / unstack (0) | 2023.03.27 |
[python] dataframe replace / rename / value_counts / unique / nunique (0) | 2023.03.25 |
[python] matplotlib - plt.bar (xlabel / ylabel / xticks / yticks / legend) (0) | 2023.03.24 |
[python] 결측값(null/nan) 개수/ 존재 구하는 방법 (0) | 2023.03.18 |