728x90
반응형

전체 글 112

[오류Error] exception: install mecab in order to use it: http://konlpy.org/en/latest/install/

코랩으로 Mecab()을 돌려야 하는데, 자꾸 에러가 발생해서 많이 헤매다가 해결했다. 나중에 또 까먹을 것 같아서 기록하기로..! 이 포스트에서 사용된 MeCab-ko (한국어 형태소 분석기) 설치 방법은 SOMJANG님의 GitHub 저장소 'Mecab-ko-for-Google-Colab'을 참조하여 진행했습니다. 해당 저장소에는 Google Colab 환경에서 MeCab-ko를 쉽게 설치할 수 있도록 하는 스크립트가 제공됩니다. 자세한 설치 방법과 사용법은 아래 깃허브에서 확인할 수 있습니다. GitHub - SOMJANG/Mecab-ko-for-Google-Colab: Use Mecab Library(NLP Library) in Google Colab Use Mecab Library(NLP Lib..

오류Error 2024.02.08

[Deep Learning] 인공지능의 기초: 퍼셉트론부터 인공 신경망까지

퍼셉트론의 개요 퍼셉트론은 인공 신경망(artificial neural network)의 기초적인 형태 중 하나로, 이진 분류 문제를 위한 간단한 알고리즘입니다. 입력값 (Input): 퍼셉트론은 하나 이상의 입력값을 받습니다. 이러한 값들은 각각의 특성(feature)을 나타내며, 이를 바탕으로 결정을 내립니다. 가중치 (Weights): 각 입력값에는 가중치가 부여됩니다. 이 가중치는 학습 과정에서 조절되며, 입력값의 중요도를 조절하는 역할을 합니다. 가중합 (Weighted Sum): 각 입력값과 그에 대응하는 가중치의 곱을 모두 합한 값입니다. 활성화 함수 (Activation Function): 가중합이 어느 임계값을 넘으면 퍼셉트론은 1을 출력하고, 그렇지 않으면 0을 출력합니다. 이를 결정하..

Deep learning 2024.02.06

[논문 리뷰] Alexnet(ImageNet Classification with Deep CNN)

Abstract성과 요약ImageNet LSVRC-2010 대회의 120만 고해상도 이미지를 1000개의 다른 클래스로 분류하기 위해 대규모, 깊은 합성곱 신경망을 훈련시켰습니다.테스트 데이터에서 top-1 오류율 37.5%, top-5 오류율 17.0%를 달성했는데, 이는 이전 최고 성능보다 훨씬 좋은 결과입니다.이 신경망은 6000만 개의 파라미터와 65만 개의 뉴런으로 구성되어 있으며, 5개의 합성곱 레이어로 구성되어 있고, 일부는 최대 풀링 레이어에 의해 뒤따르며, 마지막에는 1000-way 소프트맥스를 가진 3개의 완전 연결 레이어가 있습니다.훈련 과정훈련을 더 빠르게 하기 위해, 포화되지 않는 뉴런을 사용했고, 합성곱 연산의 매우 효율적인 GPU 구현을 사용했습니다.완전 연결 레이어에서 과적합..

논문 리뷰 2024.01.25

[python] 데이터 분석의 핵심: 날짜 전처리 방법(to_datetime)

import pandas as pd # 날짜와 시간 데이터를 포함하는 데이터프레임 생성 data = { '날짜': ['2022-01-01 10:00:00', '2023-09-30 11:30:00', '2021-02-17 15:20:00', '2023-07-01 20:45:00'], '값': [10, 20, 30, 40] } df = pd.DataFrame(data) df df 데이터셋은 날짜, 값 두 개의 피처로 이루어진 데이터프레임 입니다. df 피처의 타입을 확인해보겠습니다. train.info() 보다시피 날짜 칼럼은 object 형태입니다. 이번에는 to_datetime() 함수를 사용하여 '날짜' 열의 데이터 타입을 날짜/시간 형식(datetime)으로 변환하는 작업을 진행하겠습니다. df['날..

python 2023.10.18

[Deep learning] 가중치 초기화(weight initialization) (feat. Xavier, He,normal, uniform)

0. 딥러닝 모델 학습 / 모델 훈련 프로세스1. 모델 초기화(Initialization): 최초 가중치(weight) 값을 설정합니다.2. 예측(Prediction): 설정된 가중치와 입력 feature(X) 값을 사용하여 예측 값을 계산합니다.3. 손실(Loss) 계산: 예측 값과 실제 값의 차이를 계산하여 손실 값을 얻습니다.4. 가중치 업데이트(Weight Update): 손실을 최소화하기 위해 가중치를 조정합니다. 이 과정은 경사 하강법 등의 최적화 알고리즘을 사용하여 수행됩니다.1. 가중치 초기화의 중요성가중치 초기화는 딥러닝 모델을 학습시키기 위해 가중치들을 어떤 값으로 초기화할지 결정하는 중요한 단계입니다. 초기 가중치는 모델이 학습을 시작할 때의 출발점을 의미하며, 이 값들이..

Deep learning 2023.09.06

[python] matplitlib, seaborn 시각화 여러개 그리기 (set_xticklabels, set_xlabel, set_title, axes)

시각화 여러개 그릴 때마다 헷갈리고 까먹고 난리난리여서 나를 위해 포스팅한다! penguins = sns.load_dataset("penguins") penguins 1. seaborn 행 1개일 경우 fig, axes = plt.subplots(1, 3, figsize=(18, 6)) sns.boxplot(y=penguins['bill_length_mm'], ax=axes[0]) sns.boxplot(y=penguins['bill_depth_mm'], ax=axes[1]) sns.boxplot(y=penguins['flipper_length_mm'], ax=axes[2]) plt.subplots_adjust(wspace=0.4) plt.show() 2. seaborn 행 2개이상일 경우 fig, axe..

python 2023.08.10

barplot

데이터를 분석하거나 모델링하기 위한 초기 단계 중 하나는 변수가 어떻게 분포되어 있는지 이해하는 것입니다. 관측치들은 어떤 범위에 분포하나요? 그들의 중심 경향성은 무엇인가요? 한쪽 방향으로 매우 치우쳐져 있나요? 이중모드(bimodality)의 증거가 있나요? 유의한 이상치가 있나요? 이러한 질문에 대한 답은 다른 변수에 의해 정의된 하위 집합에서 달라질 수 있나요? distributions module 에는 이러한 질문에 대답할 수 있는 여러 함수가 포함되어 있습니다. 축 레벨(ax-level) 함수는 histplot(), kdeplot(), ecdfplot(), rugplot()이 있습니다. 이러한 함수들은 figure-level displot(), jointplot(), pairplot() 함수 ..

카테고리 없음 2023.08.08

[pytorch] RNN 계층 구현하기

RNN(Recurrent Neural Network, 순환 신경망)은 딥러닝 모델 중 하나로, 주로 시계열 데이터와 같이 순서가 있는 데이터를 처리하는 데 사용됩니다. RNN의 핵심 구조는 간단한 개념으로 시작합니다. 기본적인 신경망, 즉 인공 신경망(Artificial Neural Network, ANN)은 데이터를 입력받아 가중치를 조정하고, 활성화 함수와 같은 방법으로 출력 값을 생성하는데 사용됩니다. 그러나 ANN은 각 입력 간의 연관성이 없다고 가정하며, 이로 인해 순서가 있는 데이터 처리에 어려움이 있습니다. 이 문제를 해결하기 위해 RNN이 등장했습니다. RNN은 인공 신경망 구조를 사용하지만, 순환적으로 연결되어 있어 이전 입력의 정보를 저장하고 처리할 수 있습니다. 이를 통해 연속된 데이..

pytorch 2023.07.11

[pythonML] XGBoost 하이퍼파라미터

General Parameters (부스터 매개변수) booster: 어떤 부스터(booster)를 사용할지 지정 (default= gbtree) gbtree: 트리 기반의 앙상블 모델을 사용하는 부스터(xgboost의 기본 부스터) 비선형 패턴을 학습, 복잡한 상호작용을 모델링하는 데 강점 gblinear: 선형 회귀 모델을 사용하는 부스터. 선형 모델은 변수 간의 선형 관계를 학습, 입력 변수의 선형 조합으로 예측을 수행. 따라서, 변수 간의 선형 관계가 중요한 경우에 유용. dart(Dropout Additive Regression Trees): 트리 기반 모델의 진화형인 부스터. 트리에 드롭아웃 기법을 적용하여 앙상블의 다양성을 높이는 방법. 드롭아웃은 트리의 일부 노드를 임의로 제거하여 다양한 ..

pythonML 2023.06.13

[pythonML] 랜덤포레스트(RandomForest) 하이퍼파라미터(RandomForestClassifier, RandomForestRegressor)

import pandas as pd import seaborn as sns import matplotlib.pyplot as plt import numpy as np from sklearn.preprocessing import LabelEncoder import warnings warnings.filterwarnings("ignore") from sklearn.model_selection import train_test_split train_x # 독립변수 train_y # 종속변수 test # test 데이터셋 x_train, x_valid, y_train, y_valid = train_test_split(train_x, train_y, test_size=0.1, random_state=42) 평가 지..

pythonML 2023.06.09
728x90
반응형