728x90
반응형

자연어 2

[오류Error] exception: install mecab in order to use it: http://konlpy.org/en/latest/install/

코랩으로 Mecab()을 돌려야 하는데, 자꾸 에러가 발생해서 많이 헤매다가 해결했다. 나중에 또 까먹을 것 같아서 기록하기로..! 이 포스트에서 사용된 MeCab-ko (한국어 형태소 분석기) 설치 방법은 SOMJANG님의 GitHub 저장소 'Mecab-ko-for-Google-Colab'을 참조하여 진행했습니다. 해당 저장소에는 Google Colab 환경에서 MeCab-ko를 쉽게 설치할 수 있도록 하는 스크립트가 제공됩니다. 자세한 설치 방법과 사용법은 아래 깃허브에서 확인할 수 있습니다. GitHub - SOMJANG/Mecab-ko-for-Google-Colab: Use Mecab Library(NLP Library) in Google Colab Use Mecab Library(NLP Lib..

오류Error 2024.02.08

[Deep learning] 토큰화 (Tokenization)

CountVectorizer : 입력된 문장을 토큰화(Tokenize)하여 토큰의 등장 빈도 벡터로 바꿔주는 기법 자연어 처리에서 크롤링 등으로 얻어낸 corpus(코퍼스) 데이터가 전처리되지 않은 상태라면, 해당 데이터를 사용하고자 하는 용도에 맞게 토큰화(Tokenization) & 정제(cleaning) & 정규화(normalization)를 해줘야 한다. - 토큰화(Tokenization) : 코퍼스(Corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업 - 토큰(token) : 단위가 상황의 따라 다르지만, 보통 의미 있는 단위로 토큰을 정의한다. 1. 단어 토큰화 (Word Tokenization) : 토큰의 기준을 단어로 함. 단어는 단어 단위 외에도 단어구, 의미를 갖는 문자열로..

Deep learning 2023.02.24
728x90
반응형