728x90
반응형

Python 21

[python] github .py 파일 실행해보기 (train.py, utils.py)

터미널에서 CUDA_VISIBLE_DEVICES=0 python train.py 실행 실행하기 전, 경로 설정을 해줘야 함. 필요한 파일들을 동일한 경로에 넣기.train.py 파일을 수정해서 현재 경로에 데이터셋이 잘 다운로드 될 수 있도록 설정하기. https://github.com/facebookresearch/mixup-cifar10/blob/main/train.py mixup-cifar10/train.py at main · facebookresearch/mixup-cifar10mixup: Beyond Empirical Risk Minimization. Contribute to facebookresearch/mixup-cifar10 development by creating an account o..

python 2024.09.10

[pythonML] Autogluon 사용법 | Autogluon 매개변수, 속성, 메소드 | Autogluon 코드 적용

AutoGluon 이란?AutoGluon은 머신러닝 워크플로우를 자동화하는 강력한 도구로, 사용자가 최소한의 코드만으로도 다양한 모델을 자동으로 학습하고 튜닝할 수 있습니다. AutoGluon은 데이터 전처리, 피처 엔지니어링, 하이퍼파라미터 최적화, 앙상블 학습 등의 복잡한 작업을 자동으로 수행하며, 다양한 데이터 유형을 지원합니다. 특히, 모델 성능을 최적화하기 위해 다양한 모델을 시도하고, 최적의 모델을 선택하거나 여러 모델을 결합하여 최상의 예측 성능을 제공합니다. GPU를 활용한 고속 학습도 지원하여, 대규모 데이터셋에서도 효율적으로 작동합니다.TabularPredictor 클래스의 매개변수 label(str) 예측할 타겟 변수를 포함하는 열의 이름. problem_type (str, 기본값 =..

pythonML 2024.09.01

[pythonML] H2O AutoML 사용법 | H2O 코드 적용 | H2O 파라미터

H2O란?H2O의 AutoML은 머신러닝 워크플로우를 자동화하는 데 사용될 수 있으며, 사용자가 지정한 시간 내에서 여러 모델을 자동으로 학습하고 튜닝합니다. 또한, H2O의 모델 설명 기능은 AutoML 객체 전체(즉, 여러 모델들로 구성된 모델 그룹)와 개별 모델(리더 모델 포함)에 적용할 수 있습니다. AutoML 실행 후 생성된 다양한 모델들에 대해 어떻게 작동하고 있는지, 각 모델의 예측이 어떻게 이루어졌는지 등을 설명할 수 있는 도구들을 제공합니다. AutoML 객체 자체가 앙상블 모델은 아니지만, AutoML이 생성한 앙상블 모델은 H2O의 모델 설명 기능을 통해 해석할 수 있습니다.H2O AutoML 인터페이스H2O AutoML 인터페이스는 가능한 한 적은 파라미터로 설계되어 있어, 사용자..

pythonML 2024.08.30

[오류Error] RuntimeError: Input type (torch.cuda.FloatTensor) and weight type (torch.FloatTensor) should be the same

import torch import torch.nn as nn import torch.nn.functional as F class SimpleCNN(nn.Module): def __init__(self): super(SimpleCNN, self).__init__() self.conv1 = nn.Conv2d(in_channels=3, out_channels=4, kernel_size=3, stride=1, padding=1) self.conv2 = nn.Conv2d(in_channels=4, out_channels=8, kernel_size=3, stride=1, padding=1) self.pool = nn.MaxPool2d(kernel_size=2, stride=2) self.flatten = nn.F..

오류Error 2024.04.17

[python] 데이터 분석의 핵심: 날짜 전처리 방법(to_datetime)

import pandas as pd # 날짜와 시간 데이터를 포함하는 데이터프레임 생성 data = { '날짜': ['2022-01-01 10:00:00', '2023-09-30 11:30:00', '2021-02-17 15:20:00', '2023-07-01 20:45:00'], '값': [10, 20, 30, 40] } df = pd.DataFrame(data) df df 데이터셋은 날짜, 값 두 개의 피처로 이루어진 데이터프레임 입니다. df 피처의 타입을 확인해보겠습니다. train.info() 보다시피 날짜 칼럼은 object 형태입니다. 이번에는 to_datetime() 함수를 사용하여 '날짜' 열의 데이터 타입을 날짜/시간 형식(datetime)으로 변환하는 작업을 진행하겠습니다. df['날..

python 2023.10.18

[python] pandas stack / unstack

# stack / unstack의 형태 dataframe.stack(level = -1, dropna = True) dataframe.stack(level = -1, dropna = True) level : default 값은 -1입니다. 하나의 index 혹은 columns를 쌓을 수준입니다. (한 번에 여러 level을 선택할 수 없습니다.) dropna : default 값은 True 입니다. False로 설정할 경우, nan 값이 출력됩니다. - stack : 칼럼을 인덱스로! 파라미터 level: stack을 수행할 인덱스 레벨을 지정합니다. 여러 개의 레벨을 지정할 수 있으며, 이 경우 데이터프레임이 멀테인덱스를 가지게 됩니다. 기본값은 -1로, 마지막 인덱스 레벨을 사용합니다. dropna:..

python 2023.03.27

[python] dataframe groupby / pivot tabel

gropuby 함수는 저어엉말 자주 사용한다. 그룹별로 어떤 특징을 갖는지 알고 싶을때 주로 사용하는 것 같다. 먼저 이번 포스팅에 예시로 사용할 df_last부터 살펴보자 df_last df_last 는 보다시피 "지역명", "분양가격", "평당분양가격" 으로 이루어진 데이터이다. 만약 지역별로 분양가격과 평당분양가격이 궁금하다면? groupby 함수를 이용해서 구할 수 있다. 지역별 분양가격과 평당분양가격의 평균 df_last.groupby(['지역명']).mean()[['분양가격','평당분양가격']] 결과를 살펴보니 강원의 분양가격의 평균은 2391만원, 평당분양가격은 7890만원이다. 이런식으로 값을 구하면 어떤 지역에 분양가격이 가장 비싼지, 저렴한지를 알 수 있다. sort_values 함수를..

python 2023.03.27

[python] dataframe replace / rename / value_counts / unique / nunique

머신러닝 전처리 하면서 매번 사용하는 함수들을 정리해 보았다. 할 때마다 기억 안 나서 검색 검색 또 검색 맨날 검색 검색 해서^^ 일주일에 한 번은 꼭 사용하는 것 같은데 왜 기억을 못 하니...... 휴 절레절레 1. replace : 문자열을 변경해 주는 함수 1.1 특정 피처에서 전체 값을 변경할 경우 1.2 특정 피처에서 일부 값만 변경할 경우 1.3 특정 피처가 아닌 전체 데이터셋에서 전체 값을 변경할 경우 2. rename : 피처명(칼럼명)을 변경해 주는 함수 3. value_counts : 고윳값과 고윳값의 개수를 출력해 주는 함수 4. unique : 고윳값의 종류를 출력해 주는 함수 5. nunique : 고윳값 종류의 수를 출력해 주는 함수 1. replace : 문자열을 변경해 주..

python 2023.03.25

[python] matplotlib - plt.bar (xlabel / ylabel / xticks / yticks / legend)

bar(막대) 그래프는 범주가 있는 데이터 값을 직사각형의 막대로 표현하는 그래프입니다. Matplotlib 에서는 matplotlib.pyplot 모듈의 bar() 함수를 이용해서 막대그래프를 간단하게 표현할 수 있습니다. train 데이터셋은 Transported 가 True인지 False인지를 예측하는 문제입니다. Transported 피처에서 True, False 가 각각 몇 개씩 분포하고 있는지를 bar 그래프로 표현해 보려합니다. train.head() value_counts 함수를 사용하면 Transported의 고유값이 몇 개씩 존재하는지 수치로 확인할 수 있습니다. True는 4378개, False는 4315개씩 존재하네요. train['Transported'].value_counts()..

python 2023.03.24

[Deep learning] 정제와 정규화 (cleaning and normalization)

코퍼스에서 용도에 맞게 토큰을 분류하는 작업을 토큰화라고 하며, 토큰화 작업 하기 전 후에 용도에 맞게 데이터를 정제 및 정규화해야 한다. 정제(cleaning) : 노이즈 데이터 제거 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만듦 정제(cleaning) 작업은 토큰화 작업에 방해가 되는 부분들을 배제시키고 토큰화 작업을 수행하기 위해서 토큰화 작업 전에 이루어지기도 하지만, 토큰화 작업 이후에도 여전히 남아있는 노이즈들을 제거하기 위해 지속적으로 이루어지기도 한다. 사실 완벽한 정제 작업은 어려운 편이라서, 대부분의 경우 이 정도면 됐다.라는 일종의 합의점을 찾기도 한다. 1. 표기가 다른 단어들의 통합 같은 의미를 갖고있음에도, 표기가 다른 단어들을 하나..

Deep learning 2023.03.03
728x90
반응형