728x90
반응형

nltk 4

[오류Error] Resource punkt_tab not found. Please use the NLTK Downloader to obtain the resource:

텍스트 전처리 공부하는 중에 로컬에서 토크나이저를 수행하려고 하니 에러가 발생했다.sent_text = sent_tokenize(content_text){ "name": "LookupError", "message": "********************************************************************** Resource punkt_tab not found. Please use the NLTK Downloader to obtain the resource: >>> import nltk >>> nltk.download('punkt_tab') For more information see: https://www.nltk.org/data.html Attempte..

오류Error 2024.11.22

[pytorch] 어간 추출(stemming)과 표제어 추출 (Lemmatization)

자연어 처리(NLP)에서 어간 추출(Stemming)과 표제어 추출(Lemmatization)은 텍스트 데이터를 정제하고 분석하기 위한 전처리 과정입니다.이 두 기법은 단어의 형태를 변환하여 텍스트의 차원 수를 줄이고, 모델의 학습 성능을 향상하는 데 도움을 줍니다. 하지만 어간 추출과 표제어 추출은 각기 다른 방법론과 목적을 가지고 있습니다.어간 추출은 단어의 접사를 제거하여 기본 형태인 어간을 추출하는 기법으로, 규칙 기반 알고리즘을 사용하여 처리 속도가 빠르지만 의미의 정확성을 보장하지는 않습니다.반면, 표제어 추출은 단어의 문법적 맥락과 품사를 고려하여 사전에 나오는 기본 형태를 찾는 과정을 포함합니다. 이 과정은 보다 정교하며, 단어의 의미적 일관성을 유지합니다.이번 포스팅에서는 어간 추출과 표..

pytorch 2024.11.12

[pytorch] 불용어(stopwords)란? | 한국어 불용어 제거 | 영어 불용어 제거

불용어(stopwords)란?텍스트에서 의미 전달에 크게 기여하지 않는 단어들을 의미합니다.예를 들어, 한국어에서는 '그리고', '또는', '에서', '하지만' 같은 단어들이 불용어에 해당할 수 있으며, 영어에서는 'the', 'is', 'in', 'and' 같은 단어들이 있습니다.불용어 제거의 목적은 텍스트 데이터에서 의미를 효과적으로 분석하기 위해 불필요한 정보를 제거하는 것입니다. 불용어들은 문장에서 자주 등장하지만, 특정 주제나 의미를 분석하는 데 있어 중요한 정보를 담고 있지 않기 때문에, 이를 제거함으로써 모델의 성능을 개선할 수 있습니다. 불용어를 제거하면 데이터의 크기가 줄어들고, 모델이 중요한 특징에 집중하도록 돕는 효과가 있습니다.불용어 제거 방법은 주로 미리 정의된 불용어 목록을 사용..

pytorch 2024.11.04

[pytorch] 토큰화 | 토크나이저(Tokenization)

자연어 처리(NLP)의 세계에서 '토큰화'는 텍스트 데이터를 컴퓨터가 이해할 수 있는 형태로 변환하기 위한 과정 중 하나로, 자연어를 잘게 쪼개어 분석 가능한 단위로 만드는 작업을 말합니다. 이 글에서는 토큰화의 정의와 유형, 그리고 사용 사례에 대해 자세히 살펴보겠습니다.토큰화란 무엇인가?토큰화(Tokenization)는 문장을 의미 있는 단위인 '토큰'으로 분리하는 과정을 의미합니다. 여기서 토큰은 단어, 어절, 혹은 심지어 문자일 수도 있습니다. 예를 들어, "오늘 날씨가 좋다"라는 문장은 토큰화 과정을 통해 ["오늘", "날씨가", "좋다"]와 같은 단어 단위로 나눌 수 있습니다. 컴퓨터는 이러한 토큰들을 통해 자연어 텍스트를 분석하고 이해할 수 있습니다.토큰화의 유형토큰화는 크게 두 가지 주요 ..

pytorch 2024.10.31
728x90
반응형