728x90
반응형

토큰화 2

[Deep learning] 정제와 정규화 (cleaning and normalization)

코퍼스에서 용도에 맞게 토큰을 분류하는 작업을 토큰화라고 하며, 토큰화 작업 하기 전 후에 용도에 맞게 데이터를 정제 및 정규화해야 한다. 정제(cleaning) : 노이즈 데이터 제거 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만듦 정제(cleaning) 작업은 토큰화 작업에 방해가 되는 부분들을 배제시키고 토큰화 작업을 수행하기 위해서 토큰화 작업 전에 이루어지기도 하지만, 토큰화 작업 이후에도 여전히 남아있는 노이즈들을 제거하기 위해 지속적으로 이루어지기도 한다. 사실 완벽한 정제 작업은 어려운 편이라서, 대부분의 경우 이 정도면 됐다.라는 일종의 합의점을 찾기도 한다. 1. 표기가 다른 단어들의 통합 같은 의미를 갖고있음에도, 표기가 다른 단어들을 하나..

Deep learning 2023.03.03

[Deep learning] 토큰화 (Tokenization)

CountVectorizer : 입력된 문장을 토큰화(Tokenize)하여 토큰의 등장 빈도 벡터로 바꿔주는 기법 자연어 처리에서 크롤링 등으로 얻어낸 corpus(코퍼스) 데이터가 전처리되지 않은 상태라면, 해당 데이터를 사용하고자 하는 용도에 맞게 토큰화(Tokenization) & 정제(cleaning) & 정규화(normalization)를 해줘야 한다. - 토큰화(Tokenization) : 코퍼스(Corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업 - 토큰(token) : 단위가 상황의 따라 다르지만, 보통 의미 있는 단위로 토큰을 정의한다. 1. 단어 토큰화 (Word Tokenization) : 토큰의 기준을 단어로 함. 단어는 단어 단위 외에도 단어구, 의미를 갖는 문자열로..

Deep learning 2023.02.24
728x90
반응형