python

[python] dataframe groupby / pivot tabel

독립성이 강한 ISFP 2023. 3. 27. 18:40
728x90
반응형

gropuby 함수는 저어엉말 자주 사용한다.  그룹별로 어떤 특징을 갖는지 알고 싶을때 주로 사용하는 것 같다.

 

먼저 이번 포스팅에 예시로 사용할 df_last부터 살펴보자

df_last

df_last 는 보다시피 "지역명", "분양가격", "평당분양가격" 으로 이루어진 데이터이다.

만약 지역별로 분양가격과 평당분양가격이 궁금하다면? groupby 함수를 이용해서 구할 수 있다.

 

지역별 분양가격과 평당분양가격의 평균

df_last.groupby(['지역명']).mean()[['분양가격','평당분양가격']]

결과를 살펴보니 강원의 분양가격의 평균은 2391만원, 평당분양가격은 7890만원이다.

 

이런식으로 값을 구하면 어떤 지역에 분양가격이 가장 비싼지, 저렴한지를 알 수 있다. sort_values 함수를 이용해서 내림차순으로 정렬을 해주면 보기에 직관적일 것이다. 또한 이 결괏값을 가지고 matplotlib 이나 seaborn 과 같은 시각화를 해볼 수도 있을 것이다. (역시 서울이 가장 비싸다..)

 

지역별 분양가격과 평당분양가격의 합

df_last.groupby(['지역명']).sum()[['분양가격','평당분양가격']].sort_values(by = "분양가격", ascending=False).head()

이번엔 groupby 함수와 sum 함수를 이용해서 지역별 분양가격과 평당분양가격의 합을 구해보았다. 위에서 언급한데로 sort_values를 이용해서 정렬해준 후 상위 5개의 지역만 추출해주었다.

 

이 외에도 mean, sum, count 등등 다양한 함수를 이용하면 그룹별로 어떤 분포를 띄는지 구할 수 있다!

728x90
반응형