728x90
반응형

pythonML 27

[pythonML] Autogluon 사용법 | Autogluon 매개변수, 속성, 메소드 | Autogluon 코드 적용

AutoGluon 이란?AutoGluon은 머신러닝 워크플로우를 자동화하는 강력한 도구로, 사용자가 최소한의 코드만으로도 다양한 모델을 자동으로 학습하고 튜닝할 수 있습니다. AutoGluon은 데이터 전처리, 피처 엔지니어링, 하이퍼파라미터 최적화, 앙상블 학습 등의 복잡한 작업을 자동으로 수행하며, 다양한 데이터 유형을 지원합니다. 특히, 모델 성능을 최적화하기 위해 다양한 모델을 시도하고, 최적의 모델을 선택하거나 여러 모델을 결합하여 최상의 예측 성능을 제공합니다. GPU를 활용한 고속 학습도 지원하여, 대규모 데이터셋에서도 효율적으로 작동합니다.TabularPredictor 클래스의 매개변수 label(str) 예측할 타겟 변수를 포함하는 열의 이름. problem_type (str, 기본값 =..

pythonML 2024.09.01

[pythonML] H2O AutoML 사용법 | H2O 코드 적용 | H2O 파라미터

H2O란?H2O의 AutoML은 머신러닝 워크플로우를 자동화하는 데 사용될 수 있으며, 사용자가 지정한 시간 내에서 여러 모델을 자동으로 학습하고 튜닝합니다. 또한, H2O의 모델 설명 기능은 AutoML 객체 전체(즉, 여러 모델들로 구성된 모델 그룹)와 개별 모델(리더 모델 포함)에 적용할 수 있습니다. AutoML 실행 후 생성된 다양한 모델들에 대해 어떻게 작동하고 있는지, 각 모델의 예측이 어떻게 이루어졌는지 등을 설명할 수 있는 도구들을 제공합니다. AutoML 객체 자체가 앙상블 모델은 아니지만, AutoML이 생성한 앙상블 모델은 H2O의 모델 설명 기능을 통해 해석할 수 있습니다.H2O AutoML 인터페이스H2O AutoML 인터페이스는 가능한 한 적은 파라미터로 설계되어 있어, 사용자..

pythonML 2024.08.30

[pythonML] 스태킹 앙상블(Stacking ensemble)이란? | 스태킹(Stacking)의 작동 방식 | StackingClassifier 함수 적용

스태킹에 대해 설명하기 전에, 이를 이해하기 위한 두 가지 중요한 개념을 먼저 알아보겠습니다: 기본 학습자와 메타 학습자입니다.기본 학습자(Base Learner)기본 학습자는 앙상블 모델의 첫 번째 단계에서 사용되는 개별 모델들입니다. 각 기본 학습자는 독립적으로 학습하여 자체적인 예측을 수행합니다. 이들은 앙상블을 구성하는 기본적인 요소로, 서로 다른 알고리즘을 사용할 수도 있고, 동일한 알고리즘을 다른 데이터 샘플에 대해 학습시킬 수도 있습니다.메타 학습자(Meta Learner)메타 학습자는 앙상블 모델의 두 번째 단계에서 작동하는 모델입니다. 메타 학습자는 기본 학습자들이 생성한 예측값을 입력으로 받아, 이를 바탕으로 최종 예측을 수행합니다. 메타 학습자는 기본 학습자들이 가진 오류나 편향을 보..

pythonML 2024.08.28

[pythonML] 배깅(Bagging)이란? | 배깅(Bagging)의 동작 원리 | 배깅을 사용한 모델 학습 코드

배깅(Bagging)이란?배깅은 동일한 알고리즘을 사용하여 여러 개의 개별 모델을 구성하는 방법입니다. 각 학습자는 원본 데이터에서 랜덤으로 샘플링(행(row)을 랜덤으로 선택)된 서브셋을 사용해 학습되며, 최종 예측은 이들의 예측을 평균내거나 다수결 투표로 결정됩니다. 대표적인 예로는 "랜덤 포레스트"가 있습니다. Bagging, 또는 Boostrap Aggregating은 앙상블 학습에서 사용되는 기법 중 하나인데요. 이 기법은 주로 모델의 분산을 줄이고 예측 성능을 향상하기 위해 사용되죠. Bagging은 랜덤포레스트와 유사하지만, 중요한 차이가 있습니다. 랜덤 포레스트는 각 결정 트리(Decision Tree)가 일부 피처만을 사용해 학습되는 반면, Bagging은 모든 피처를 사용합니다.배깅(B..

pythonML 2024.08.28

[pythonML] 앙상블(ensemble model)이란? | 앙상블의 종류 | 편향 (Bias)과 분산(Variance)

앙상블(ensemble)이란?축구 경기를 준비하는 감독을 생각해 보세요.감독님은 팀을 구성할 때, 각 선수의 특성과 능력을 고려하여 최적의 선수들로 조합을 만들겠죠!?  예를 들어,빠른 스피드를 가진 공격수, 강력한 방어력을 가진 수비수, 경기를 조율하고 전략을 이끄는 미드필터, 골을 지키는 데 탁월한 골키퍼 등이 감독님은 각 선수의 장점을 최대한 활용해 팀을 구성하고, 이들이 함께 협력하여 경기에서 승리할 수 있도록 합니다.  각 포지션 선수들은 저마다 다르게 경기에 기여하지만, 이들이 잘 조화되었을 때 팀은 최상의 성과를 내겠죠. 앙상블 모델도 이와 비슷하게 작동합니다. 각 머신러닝 모델은 축구팀의 선수들처럼특정한 역할을 맡고 있어요. 각 모델이 가진 강점을 결합함으로써, 하나의 모델이 혼자서 이루지..

pythonML 2024.08.27

[pythonML] XGBoost 하이퍼파라미터

General Parameters (부스터 매개변수) booster: 어떤 부스터(booster)를 사용할지 지정 (default= gbtree) gbtree: 트리 기반의 앙상블 모델을 사용하는 부스터(xgboost의 기본 부스터) 비선형 패턴을 학습, 복잡한 상호작용을 모델링하는 데 강점 gblinear: 선형 회귀 모델을 사용하는 부스터. 선형 모델은 변수 간의 선형 관계를 학습, 입력 변수의 선형 조합으로 예측을 수행. 따라서, 변수 간의 선형 관계가 중요한 경우에 유용. dart(Dropout Additive Regression Trees): 트리 기반 모델의 진화형인 부스터. 트리에 드롭아웃 기법을 적용하여 앙상블의 다양성을 높이는 방법. 드롭아웃은 트리의 일부 노드를 임의로 제거하여 다양한 ..

pythonML 2023.06.13

[pythonML] 랜덤포레스트(RandomForest) 하이퍼파라미터(RandomForestClassifier, RandomForestRegressor)

import pandas as pd import seaborn as sns import matplotlib.pyplot as plt import numpy as np from sklearn.preprocessing import LabelEncoder import warnings warnings.filterwarnings("ignore") from sklearn.model_selection import train_test_split train_x # 독립변수 train_y # 종속변수 test # test 데이터셋 x_train, x_valid, y_train, y_valid = train_test_split(train_x, train_y, test_size=0.1, random_state=42) 평가 지..

pythonML 2023.06.09

[pythonML] classification Metrics (분류 평가지표)

분류는 2개의 결괏값만 가지는 이진분류와, 여러 개의 결괏값을 가지는 다중 분류로 나뉠 수 있다. 정밀도 재현율 F1 score ROC AUC 이 네 가지 지표는 다중분류보다 이중 분류에서 중요하게 강조하는 지표이다. 1. 정확도 (Accuracy) 정확도는 실제 데이터에서 예측 데이터가 얼마나 같은지를 판단하는 지표이다. 하지만 이진 분류의 경우 데이터의 구성에 따라 모델의 성능을 왜곡할 수 있기 때문에 정확도 수치 하나만 가지고 성능을 평가하지는 않는다. ex) 타이타닉 탑승객이 여자인 경우에 생존 확률이 높은 경우 (여 90 남 10) 무조건 성별이 여자는 생존, 남자는 사망으로 예측해도 정확도가 높은 수치가 나올 수 있다. → 즉, 정확도는 불균형한(Imbalanced) 레이블 값 분포에서는 적합..

pythonML 2023.01.26

[pythonML] 회귀 트리

# 회귀 트리 :리프 노드에 속한 데이터값의 평균값을 구해 회귀 예측값을 계산 # RandomForestRegressor 로 예측 from sklearn.datasets import load_boston from sklearn.model_selection import cross_val_score from sklearn.ensemble import RandomForestRegressor import pandas as pd import numpy as np # 보스턴 데이터 세트 로드 boston = load_boston() bostonDF = pd.DataFrame(boston.data, columns = boston.feature_names) bostonDF['PRICE'] = boston.target ..

pythonML 2022.07.16

[pythonML] 회귀- 다항회귀

다항회귀 : 회귀가 독립변수의 단항식이 아닌 2차, 3차 방정식과 같은 다항식으로 표현되는 것 # 1차 단항식 계수를 2차 다항식 계수로 변환 from sklearn.preprocessing import PolynomialFeatures import numpy as np # 다항식으로 변환한 단항식 생성, [[0,1],[2,3]]의 2X2 행렬 생성 X = np.arange(4).reshape(2,2) print('일차 단항식 계수 feature:\n',X ) # degree = 2 인 2차 다항식으로 변환하기 위해 PolynomialFeatures를 이용하여 변환 poly = PolynomialFeatures(degree=2) poly.fit(X) poly_ftr = poly.transform(X) p..

pythonML 2022.07.16
728x90
반응형