[python] macOS에서 Apache Airflow 시작하기 (ETL 파이프라인 구축)
·
python
1.Airflow 초기 설정 Apache airflow는 Linux 기반이지만, macOS에서도 터미널을 통해 쉽게 설치하고 실행할 수 있습니다. 1.1. 가상환경 생성(conda)anaconda를 사용해서 python 3.10 버전의 가상환경을 생성 합니다.# Anaconda를 사용하여 Python 3.10 환경을 생성conda create -n airflow_lab python=3.10# 가상환경 활성화conda activate airflow_lab1.2. Airflow 설치Airflow 공식 문서에서는 pip 로 설치를 권장하기 때문에 Airflow와 MySQL Provider 패키지는 pip 로 설치 합니다.mysqlclient는 conda로 설치해주었습니다.# Airflow 설치pip insta..
[통계] 직관적 의사결정 vs 데이터 기반 의사결정
·
카테고리 없음
ㄹㄷㄹㄷㄹe 문서 리스트corpus = [ "나는 오늘 밥을 먹었다", "밥을 먹고 운동을 했다", "오늘 운동을 마치고 밥을 먹었다"]# TF-IDF 벡터화vectorizer = TfidfVectorizer()tfidf_matrix = vectorizer.fit_transform(corpus)# 코사인 유사도 계산cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)# 결과를 데이터프레임으로 보기 좋게 출력df = pd.DataFrame(cosine_sim, index=["문서1", "문서2", "문서3"], columns=["문서1", "문서2", "문서3"])print("코사인 유사도 행렬:")print(df)출처: https://r..
[오류Error] RateLimitError: Error code: 429 - {'error': {'message': 'You exceeded your current quota, please check your plan and billing details. For more information on this error, read the docs: https://platform.openai.com/docs/guides/error-codes/api-erro
·
오류Error
OpenAI API를 호출하려고 보니 갑자기 다음과 같은 에러가 떴습니다. > “You exceeded your current quota, please check your plan and billing details. For more information on this error, read the docs: https://platform.openai.com/docs/guides/error-codes/api-errors.” 즉, [오류] RateLimitError: 429 – 현재 할당량을 초과했습니다. 요금제 및 결제 정보를 확인해 주세요. "https://platform.openai.com/docs/guides/error-codes/api-errors." 사이트에 접속하여에러 설명(429)을 살펴..
[오류Error] Failed to start project studioError invoking remote method 'up': Error: Docker not installed or not running: ExecaError: Command failed with exit code 1: which docker
·
오류Error
LangGraph를 공부하던 중 Agentic Application을 만들기 위한 IDE인 LangGraph Studio라는 서비스를 알게 되었습니다. 이 도구가 AI 에이전트 개발을 시각적으로 도와준다고 하여 설치해보기로 했습니다. 설치 과정LangGraph Studio는 현재 맥북에서만 지원되는 것 같습니다. 공식 사이트에서 dmg 파일을 다운로드하여 설치했습니다. 첫 번째 오류: Docker 관련 문제설치 후 실행했더니 다음과 같은 오류가 발생했습니다.Failed to start project studioError invoking remote method 'up': Error: Docker not installed or not running: ExecaError: Command failed with..
[오류Error] VS Code Remote-SSH: "원격 호스트가 VS Code Server를 실행하기 위한 필수 구성 요소를 충족하지 않습니다" 오류 해결 후기
·
오류Error
could not establish connection to "서버ip": the remote host does not meet the prerequisites for running vs code server. 2시간 30분 삽질 완료^^그래도 해결했으니 진짜 다행........... 문제 상황오늘 출근해서 VS Code에서 Remote - SSH 기능을 사용하려고 했는데,SSH로는 접속이 잘 되는데도 불구하고 아래와 같은 에러 메시지가 반복적으로 발생하였음.(분명 어제까지는 멀쩡하게 접속이 되었단 말이지.ㅠㅠㅠ)"원격 호스트가 VS Code Server를 실행하기 위한 필수 구성 요소를 충족하지 않습니다." 나의 환경로컬 OS: macOS Sonoma 14.4.1 (Darwin x64 23.5.0, A..
[pytorch] 시퀀스-투-시퀀스(seq2seq)
·
pytorch
seq2seq의 기본 구조와 작동 원리Sequence-to-Sequence(seq2seq) 모델은 한 시퀀스를 다른 시퀀스로 변환하는 신경망 모델입니다.예를 들어, "안녕하세요"라는 한국어 문장을 "Hello"라는 영어 문장으로 번역하는 것처럼, 입력 시퀀스를 받아서 다른 형태의 출력 시퀀스를 생성합니다.인코더(Encoder)-디코더(Decoder) 아키텍처seq2seq 모델은 크게 두 부분으로 구성됩니다.인코더 (Encoder)인코더는 입력 시퀀스를 처리하여 컨텍스트 벡터(Context Vector)를* 시퀀스: 시간적 순서 또는 일정한 순서에 따라 배열된 데이터의 집합을 의미함. 이는 데이터가 순차적으로 의존관계를 가지며, 앞뒤의 데이터가 서로 연결되어 있는 경우를 말함. 예를 들어, 문장, 음성, ..
[pytorch] 코사인 유사도(Cosine Similarity) | 유클리드 거리 (Euclidean Distance) | 자카드 유사도(Jaccard Similarity) | 코사인 유사도를 이용한 영화 추천 시스템 | cosine_similarity
·
pytorch
앞서 TF-IDF (Term Frequency-Inverse Document Frequency)를 사용하여 텍스트 데이터를 벡터화하는 방법을 배웠습니다. 이제, 이 TF-IDF 벡터를 활용하여 문서 간 유사도를 계산해보려 합니다. 텍스트 데이터의 유사도를 측정하는 방법으로는 여러 가지가 있지만, 이번에는 코사인 유사도 (Cosine Similarity), 유클리드 거리 (Euclidean Distance), 그리고 자카드 유사도 (Jaccard Similarity)를 사용하여 영화 추천 시스템을 구축해 보겠습니다. 유클리드 거리 vs 코사인 유사도 vs 자카드 유사도 비교기준유클리드 거리(Euclidean Distance)코사인 유사도(Cosine Similarity)자카드 유사도(Jaccard Simi..
[오류Error] Resource punkt_tab not found. Please use the NLTK Downloader to obtain the resource:
·
오류Error
텍스트 전처리 공부하는 중에 로컬에서 토크나이저를 수행하려고 하니 에러가 발생했다.sent_text = sent_tokenize(content_text){ "name": "LookupError", "message": "********************************************************************** Resource punkt_tab not found. Please use the NLTK Downloader to obtain the resource: >>> import nltk >>> nltk.download('punkt_tab') For more information see: https://www.nltk.org/data.html Attempte..
[pytorch] DTM과 TF-IDF | 텍스트 전처리 | 자연어 처리
·
pytorch
DTM (Document-Term Matrix)이란?DTM은 여러 문서에서 단어의 빈도를 기록한 행렬(matrix)입니다. BoW와 유사하지만, 여러 문서 간의 단어 빈도수를 한꺼번에 분석할 수 있도록 확장된 형태입니다.- 행(Row): 문서 (Document)- 열(Column): 단어 (Term)- 값(Value): 특정 문서에 특정 단어가 등장한 빈도수DTM은 m x n 형태의 행렬로, `m`은 문서의 개수, `n`은 고유 단어의 개수를 의미합니다.  DTM의 예시다음과 같은 예제 문서들을 통해 DTM을 만들어 보겠습니다.문서 1: "나는 오늘 밥을 먹었다"문서 2: "밥을 먹고 운동을 했다"문서 3: "오늘 운동을 마치고 밥을 먹었다"1. 토큰화(Tokenization) 및 어휘 사전 생성  모든..
[pytorch] Bag of Words (BOW) | CountVectorizer
·
pytorch
Bag of Words란?Bag of Words의 개념과 활용Bag of Words (BoW)는 문서를 단어의 빈도수로 표현하는 방법으로, 단어의 순서를 무시하고 각 단어가 문서에 얼마나 자주 등장했는지를 수치화하는 기법입니다. BoW는 단순하지만, 자연어 처리에서 기본적인 텍스트 표현 방법으로 널리 사용되며, 특히 문서 분류, 유사도 측정, 추천 시스템 등에서 유용합니다.Bag of Words의 특징BoW는 텍스트를 단어의 출현 빈도 기반으로 표현하기 때문에 두 가지 주요 특징을 가지고 있습니다. 1. 단어 순서 무시: BoW에서는 문장의 구조나 단어 순서를 전혀 고려하지 않습니다. 단어의 순서가 바뀌어도 단어 빈도만 같다면 BoW 벡터는 동일합니다.2. 단어 빈도 중심: BoW 벡터는 단어가 등장한 ..