[python] dataframe groupby / pivot tabel

728x90

gropuby 함수는 저어엉말 자주 사용한다. 그룹별로 어떤 특징을 갖는지 알고 싶을때 주로 사용하는 것 같다.

먼저 이번 포스팅에 예시로 사용할 df_last부터 살펴보자

df_last

df_last 는 보다시피 "지역명", "분양가격", "평당분양가격" 으로 이루어진 데이터이다.

만약 지역별로 분양가격과 평당분양가격이 궁금하다면? groupby 함수를 이용해서 구할 수 있다.

지역별 분양가격과 평당분양가격의 평균

df_last.groupby(['지역명']).mean()[['분양가격','평당분양가격']]

결과를 살펴보니 강원의 분양가격의 평균은 2391만원, 평당분양가격은 7890만원이다.

이런식으로 값을 구하면 어떤 지역에 분양가격이 가장 비싼지, 저렴한지를 알 수 있다. sort_values 함수를 이용해서 내림차순으로 정렬을 해주면 보기에 직관적일 것이다. 또한 이 결괏값을 가지고 matplotlib 이나 seaborn 과 같은 시각화를 해볼 수도 있을 것이다. (역시 서울이 가장 비싸다..)

지역별 분양가격과 평당분양가격의 합

df_last.groupby(['지역명']).sum()[['분양가격','평당분양가격']].sort_values(by = "분양가격", ascending=False).head()

이번엔 groupby 함수와 sum 함수를 이용해서 지역별 분양가격과 평당분양가격의 합을 구해보았다. 위에서 언급한데로 sort_values를 이용해서 정렬해준 후 상위 5개의 지역만 추출해주었다.

이 외에도 mean, sum, count 등등 다양한 함수를 이용하면 그룹별로 어떤 분포를 띄는지 구할 수 있다!

728x90

저작자표시 (새창열림)

'python' 카테고리의 다른 글

[python] matplitlib, seaborn 시각화 여러개 그리기 (set_xticklabels, set_xlabel, set_title, axes) (0)	2023.08.10
[python] pandas stack / unstack (0)	2023.03.27
[python] dataframe replace / rename / value_counts / unique / nunique (0)	2023.03.25
[python] matplotlib - plt.bar (xlabel / ylabel / xticks / yticks / legend) (0)	2023.03.24
[python] 결측값(null/nan) 개수/ 존재 구하는 방법 (0)	2023.03.18

지역별 분양가격과 평당분양가격의 평균

지역별 분양가격과 평당분양가격의 합

'python' 카테고리의 다른 글

티스토리툴바