728x90
반응형

머신러닝 16

[pytorch] DTM과 TF-IDF | 텍스트 전처리 | 자연어 처리

DTM (Document-Term Matrix)이란?DTM은 여러 문서에서 단어의 빈도를 기록한 행렬(matrix)입니다. BoW와 유사하지만, 여러 문서 간의 단어 빈도수를 한꺼번에 분석할 수 있도록 확장된 형태입니다.- 행(Row): 문서 (Document)- 열(Column): 단어 (Term)- 값(Value): 특정 문서에 특정 단어가 등장한 빈도수DTM은 m x n 형태의 행렬로, `m`은 문서의 개수, `n`은 고유 단어의 개수를 의미합니다.  DTM의 예시다음과 같은 예제 문서들을 통해 DTM을 만들어 보겠습니다.문서 1: "나는 오늘 밥을 먹었다"문서 2: "밥을 먹고 운동을 했다"문서 3: "오늘 운동을 마치고 밥을 먹었다"1. 토큰화(Tokenization) 및 어휘 사전 생성  모든..

pytorch 2024.11.22

[pytorch] 순환 신경망(Recurrent neural network, RNN) 이란? / RNN을 Pytorch로 구현 실습 코드

DNN과 RNN 비교딥러닝에서 데이터의 시간적 연속성을 처리하는 방법은 모델 선택에 중요한 영향을 미치는데요. 우선 DNN과 RNN을 비교하여 시간적 연속성의 중요성을 살펴보시죠.시간적 연속성을 고려하지 않은 경우- 왼쪽의 수식에서는 입력 데이터 \( x_t \)가 주어졌을 때, 은닉층 \( h_t \)가 가중치 \( W_{xh} \)와 활성화 함수 \( f(\cdot) \)을 통해 계산됩니다. 이 은닉층의 출력 \( h_t \)는 다시 가중치 \( W_{hx} \)와 활성화 함수 \( g(\cdot) \)를 거쳐 최종 출력값 \( y_t \)를 생성합니다.- 이 경우, 각 시점 \( t \)의 데이터는 독립적으로 처리됩니다. 이전 시점의 정보는 고려되지 않으므로, 모델은 시간적 연속성이나 데이터 간의 ..

pytorch 2024.09.24

[pythonML] Autogluon 사용법 | Autogluon 매개변수, 속성, 메소드 | Autogluon 코드 적용

AutoGluon 이란?AutoGluon은 머신러닝 워크플로우를 자동화하는 강력한 도구로, 사용자가 최소한의 코드만으로도 다양한 모델을 자동으로 학습하고 튜닝할 수 있습니다. AutoGluon은 데이터 전처리, 피처 엔지니어링, 하이퍼파라미터 최적화, 앙상블 학습 등의 복잡한 작업을 자동으로 수행하며, 다양한 데이터 유형을 지원합니다. 특히, 모델 성능을 최적화하기 위해 다양한 모델을 시도하고, 최적의 모델을 선택하거나 여러 모델을 결합하여 최상의 예측 성능을 제공합니다. GPU를 활용한 고속 학습도 지원하여, 대규모 데이터셋에서도 효율적으로 작동합니다.TabularPredictor 클래스의 매개변수 label(str) 예측할 타겟 변수를 포함하는 열의 이름. problem_type (str, 기본값 =..

pythonML 2024.09.01

[pythonML] H2O AutoML 사용법 | H2O 코드 적용 | H2O 파라미터

H2O란?H2O의 AutoML은 머신러닝 워크플로우를 자동화하는 데 사용될 수 있으며, 사용자가 지정한 시간 내에서 여러 모델을 자동으로 학습하고 튜닝합니다. 또한, H2O의 모델 설명 기능은 AutoML 객체 전체(즉, 여러 모델들로 구성된 모델 그룹)와 개별 모델(리더 모델 포함)에 적용할 수 있습니다. AutoML 실행 후 생성된 다양한 모델들에 대해 어떻게 작동하고 있는지, 각 모델의 예측이 어떻게 이루어졌는지 등을 설명할 수 있는 도구들을 제공합니다. AutoML 객체 자체가 앙상블 모델은 아니지만, AutoML이 생성한 앙상블 모델은 H2O의 모델 설명 기능을 통해 해석할 수 있습니다.H2O AutoML 인터페이스H2O AutoML 인터페이스는 가능한 한 적은 파라미터로 설계되어 있어, 사용자..

pythonML 2024.08.30

[pythonML] 스태킹 앙상블(Stacking ensemble)이란? | 스태킹(Stacking)의 작동 방식 | StackingClassifier 함수 적용

스태킹에 대해 설명하기 전에, 이를 이해하기 위한 두 가지 중요한 개념을 먼저 알아보겠습니다: 기본 학습자와 메타 학습자입니다.기본 학습자(Base Learner)기본 학습자는 앙상블 모델의 첫 번째 단계에서 사용되는 개별 모델들입니다. 각 기본 학습자는 독립적으로 학습하여 자체적인 예측을 수행합니다. 이들은 앙상블을 구성하는 기본적인 요소로, 서로 다른 알고리즘을 사용할 수도 있고, 동일한 알고리즘을 다른 데이터 샘플에 대해 학습시킬 수도 있습니다.메타 학습자(Meta Learner)메타 학습자는 앙상블 모델의 두 번째 단계에서 작동하는 모델입니다. 메타 학습자는 기본 학습자들이 생성한 예측값을 입력으로 받아, 이를 바탕으로 최종 예측을 수행합니다. 메타 학습자는 기본 학습자들이 가진 오류나 편향을 보..

pythonML 2024.08.28

[pythonML] 배깅(Bagging)이란? | 배깅(Bagging)의 동작 원리 | 배깅을 사용한 모델 학습 코드

배깅(Bagging)이란?배깅은 동일한 알고리즘을 사용하여 여러 개의 개별 모델을 구성하는 방법입니다. 각 학습자는 원본 데이터에서 랜덤으로 샘플링(행(row)을 랜덤으로 선택)된 서브셋을 사용해 학습되며, 최종 예측은 이들의 예측을 평균내거나 다수결 투표로 결정됩니다. 대표적인 예로는 "랜덤 포레스트"가 있습니다. Bagging, 또는 Boostrap Aggregating은 앙상블 학습에서 사용되는 기법 중 하나인데요. 이 기법은 주로 모델의 분산을 줄이고 예측 성능을 향상하기 위해 사용되죠. Bagging은 랜덤포레스트와 유사하지만, 중요한 차이가 있습니다. 랜덤 포레스트는 각 결정 트리(Decision Tree)가 일부 피처만을 사용해 학습되는 반면, Bagging은 모든 피처를 사용합니다.배깅(B..

pythonML 2024.08.28

[pythonML] 앙상블(ensemble model)이란? | 앙상블의 종류 | 편향 (Bias)과 분산(Variance)

앙상블(ensemble)이란?축구 경기를 준비하는 감독을 생각해 보세요.감독님은 팀을 구성할 때, 각 선수의 특성과 능력을 고려하여 최적의 선수들로 조합을 만들겠죠!?  예를 들어,빠른 스피드를 가진 공격수, 강력한 방어력을 가진 수비수, 경기를 조율하고 전략을 이끄는 미드필터, 골을 지키는 데 탁월한 골키퍼 등이 감독님은 각 선수의 장점을 최대한 활용해 팀을 구성하고, 이들이 함께 협력하여 경기에서 승리할 수 있도록 합니다.  각 포지션 선수들은 저마다 다르게 경기에 기여하지만, 이들이 잘 조화되었을 때 팀은 최상의 성과를 내겠죠. 앙상블 모델도 이와 비슷하게 작동합니다. 각 머신러닝 모델은 축구팀의 선수들처럼특정한 역할을 맡고 있어요. 각 모델이 가진 강점을 결합함으로써, 하나의 모델이 혼자서 이루지..

pythonML 2024.08.27

[pytorch] 딥러닝 학습 순서 / 딥러닝의 종류

1. 딥러닝이란? 딥러닝은 인간의 신경망 원리를 모방한 심층 신경망 이론을 기반으로 고안된 머신러닝의 일종이다. 즉, 딥러닝이 머신러닝과 다른 큰 차이점은 인간의 뇌를 기초로 하여 설계했다는 것이다. 인간의 뇌가 엄청난 수의 뉴런과 시냅스로 구성되어 있는 것에 착안하여 컴퓨터에 뉴런과 시냅스 개념을 적용했다. 각각의 뉴런은 복잡하게 연결된 수많은 뉴런을 병렬 연산하여 기존에 컴퓨터가 수행하지 못했던 음성, 영상인식 등 처리를 가능하게 한다. 2. 딥러닝 학습 순서 모델 정의 : 신경망을 생성한다. 일반적으로 은닉층 개수가 많을수록 성능이 좋아지지만 과적합이 발생할 확률이 높다. 즉, 은닉층 개수에 따른 성능과 과적합은 서로 상충 관계에 있다. 신경망을 제대로 생성하는 것이 중요하다. 모델 컴파일 : 활성..

pytorch 2023.03.12

[pytorch] 머신러닝 딥러닝의 차이 / 머신러닝 학습 순서

1. 인공지능, 머신러닝과 딥러닝의 차이 인공지능(Artificial Intelligence)은 인간의 지능적 행동을 모방하거나 재현하는 컴퓨터 시스템을 말합니다. 머신러닝은 인공지능의 한 분야로, 데이터를 통해 스스로 학습하고, 예측하거나 결정을 내릴 수 있는 알고리즘과 기술의 개발을 목표로 합니다. 이는 데이터로부터 패턴을 발견하고, 이를 바탕으로 예측 또는 결정을 내리는 모델을 만드는 과정을 포함합니다. 딥러닝은 머신러닝의 하위 분야로, 주로 인공신경망(특히 깊은 신경망)을 사용하여 복잡한 문제를 해결합니다. 딥러닝은 대규모 데이터에서 고수준의 추상화와 패턴 인식을 수행하는 능력을 가지고 있습니다. 머신러닝과 딥러닝 모두 학습 모델을 제공하여 데이터를 분류할 수 있는 기술이다. 하지만 접근 방식에 ..

pytorch 2023.03.12

[Dacon] 데이콘에 csv 파일 제출하는 법

머신러닝을 학습하고 예측하는 법 까지는 알겠는데 배운 것들을 어떻게 써먹어야 하는지도 모르겠고,, 그럴때가 있었다. 교수님께서 데이콘이라는 경진대회 플랫폼을 알려주셨지만 데이터를 다운로드 한 후 채점을 위한 제출파일은 어떻게 만드는건지 아무리 검색해봐도 나오지 않았고, 결국 헤매다 포기했었던 기억이 있다. 혹여나 나같은 사람이 또 있지 않을까 싶어서 포스팅 해보기로 결심! 나는 코랩 환경에서 실습할 것이다. 실습에 사용할 타이타닉 데이터는 데이콘에서 무료로 제공중이다. (연습문제 풀어보라고 제공해줌) 타이타닉 생존 예측 경진대회 (참여 후 데이터 탭에서 다운로드를 클릭해서 다운 받으면 된다.) 타이타닉 생존 예측 경진대회 - DACON 분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능..

information 2023.02.21
728x90
반응형