오류Error

[오류Error] 'utf-8' codec can't decode byte 0xc1 in position 0: invalid start byte

독립성이 강한 ISFP 2022. 5. 21. 00:52
728x90
반응형

문제 상황

Python의 Pandas 라이브러리를 사용하여 CSV 파일을 불러오는 과정에서 다음과 같은 인코딩 오류가 발생했습니다.

train = pd.read_csv("산림청 산림항공본부_진화헬기 투입 산불건수_20201231.csv", encoding="UTF-8")


오류 원인

이 오류는 파일이 UTF-8이 아닌 다른 인코딩 방식으로 저장되었을 때 발생합니다. 한국에서 많이 사용되는 인코딩 방식 중 하나인 CP949로 파일이 저장된 경우, UTF-8로 읽으려고 할 때 이런 문제가 발생할 수 있습니다.

 


해결 방법

파일의 인코딩을 'UTF-8'에서 'cp949' 로 지정하여 파일을 올바르게 읽을 수 있습니다. 코드는 다음과 같이 수정할 수 있습니다.

train = pd.read_csv("산림청 산림항공본부_진화헬기 투입 산불건수_20201231.csv", encoding="cp949")


이 변경을 통해 파일을 정상적으로 불러올 수 있으며, 데이터 분석을 계속 진행할 수 있습니다.

 

결론

파일을 다룰 때는 항상 올바른 인코딩 방식을 사용하는 것이 중요합니다. 인코딩 문제는 데이터 손실을 초래할 수 있으므로, 오류 메시지를 정확히 해석하고 적절히 대응하는 것이 필요합니다.

728x90
반응형