728x90
반응형

cnn 8

[논문 리뷰] GoogleNet(Going deeper with convolutions)

GoogleNet 특징최적의 지역 희소 구조를 찾아 밀집된 구성 요소로 덮는 방식을 통해 설계되었습니다.1x1, 3x3, 5x5 크기의 필터를 활용하여 다양한 패치를 커버하고, 이를 다음 단계의 입력으로 결합합니다.계산 요구가 증가하는 경우 차원을 줄이는 길을 선택하여 계산 복잡성을 제어합니다.1x1 컨볼루션은 차원 축소 및 선형 활성화를 통해 두 가지 기능을 수행합니다.다양한 스케일에서 정보를 처리하고 집계하여 다음 단계에서 서로 다른 스케일의 특징을 동시에 추상화합니다.중간 계층에 보조 분류기를 추가하여 구별 능력을 강화하고, 학습 시 총손실에 추가하여 정규화 효과를 제공합니다.소개인셉션 아키텍처는 이미지넷 대규모 시각 인식 도전(ILSVRC14)에서 새로운 최고 성능을 달성한 딥 컨볼루션 신경망입니..

논문 리뷰 2024.07.08

[논문 리뷰] VGG (VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION)

Abstract이 연구는 합성곱 신경망의 깊이가 대규모 이미지 인식 정확도에 미치는 영향을 조사합니다. 저자들은 3x3 크기의 매우 작은 합성곱 필터를 사용하여 네트워크 깊이를 증가시키는 여러 아키텍처를 평가했습니다. 16~19개의 가중치 층을 가진 네트워크가 이전 모델들보다 성능이 우수하다는 것을 발견했습니다. 1. Introduction컴퓨터 비전 분야에서 AlexNet 등의 원래 아키텍처를 개선하려는 여러 시도가 이루어졌습니다. 예를 들어, ILSVRC-2013의 최우수 제출물들은 첫 번째 합성곱 층의 receptive field와 stride를 줄였습니다. 또 다른 개선 방향은 이미지 전체와 여러 스케일에 걸쳐 밀도 있게 네트워크를 학습하고 테스트하는 것이었습니다. 이 논문에서는 VGG 아키텍처 ..

논문 리뷰 2024.06.21

[논문 리뷰] Alexnet(ImageNet Classification with Deep CNN)

Abstract성과 요약ImageNet LSVRC-2010 대회의 120만 고해상도 이미지를 1000개의 다른 클래스로 분류하기 위해 대규모, 깊은 합성곱 신경망을 훈련시켰습니다.테스트 데이터에서 top-1 오류율 37.5%, top-5 오류율 17.0%를 달성했는데, 이는 이전 최고 성능보다 훨씬 좋은 결과입니다.이 신경망은 6000만 개의 파라미터와 65만 개의 뉴런으로 구성되어 있으며, 5개의 합성곱 레이어로 구성되어 있고, 일부는 최대 풀링 레이어에 의해 뒤따르며, 마지막에는 1000-way 소프트맥스를 가진 3개의 완전 연결 레이어가 있습니다.훈련 과정훈련을 더 빠르게 하기 위해, 포화되지 않는 뉴런을 사용했고, 합성곱 연산의 매우 효율적인 GPU 구현을 사용했습니다.완전 연결 레이어에서 과적합..

논문 리뷰 2024.01.25

[pytorch] 이미지 분류를 위한 AlexNet 구현

AlexNet은 컴퓨터 비전 분야의 발전에 중요한 역할을 한 합성곱 신경망(CNN) 아키텍처입니다. 이는 Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton에 의해 개발되었으며, 2012년 ImageNet 대규모 시각 인식 챌린지(ILSVRC)에서 우승하였습니다. 이 대회는 딥러닝의 전환점을 표시하며, CNN이 이미지 분류 작업에서 강력한 성능을 보여준 것을 보여주었습니다. AlexNet 아키텍처는 총 여덟 개의 레이어로 구성되어 있으며, 다섯 개의 합성곱 레이어와 세 개의 완전 연결 레이어로 이루어져 있습니다. 입력 레이어: 입력 이미지를 받습니다. 일반적으로 픽셀 값의 행렬 형태로 제공됩니다. 합성곱 레이어 1: 첫 번째 합성곱 레이어는 입력 이미지에 학습된 필터를..

pytorch 2023.05.31

[pytorch] 이미지 분류를 위한 LeNet-5 구현

이미지 분류는 주어진 이미지를 다양한 클래스 또는 범주로 분류하는 것을 의미합니다. 이때, 분류의 목적은 이미지에 특정 대상이 존재하는지 여부를 판단하는 것입니다. 예를 들어, 고양이와 개를 분류하는 문제를 생각해 보면, 이미지 분류 모델은 입력된 이미지가 고양이인지 개인지를 판단합니다. 모델은 이미지에 대한 특징을 추출하고, 추출된 특징을 기반으로 해당 이미지가 고양이인지 개인지를 예측합니다. LeNet은 1990년대 후반 Yann LeCun 등이 개발한 초기 합성곱 신경망(CNN) 아키텍처로, 주로 필기체 숫자 인식에 사용되었으며 컴퓨터 비전 작업에서 심층 학습의 발전에 중요한 역할을 했습니다. 현대적인 아키텍처에 비해 레이어 수가 적지만, CNN의 발전을 이해하는 데 기초로 작용합니다. LeNet ..

pytorch 2023.05.15

[pytorch] Deep Neural Network (DNN) 로 FashionMNIST 구현해보기

fashion_mnist 데이터셋을 사용하여 심층 신경망을 직접 구현해 보겠습니다. fashion_mnist 데이터셋은 토치비전에 내장된 예제 데이터로 운동화, 셔츠, 샌들 같은 작은 이미지의 모음이며, 기본 MNIST 데이터셋처럼 열 가지로 분류될 수 있는 28x28 픽셀의 이미지 7만 개로 구성되어 있다. 데이터셋을 자세히 살펴보면 훈련 데이터는 0-255 사이의 값을 갖는 28x28 크기의 넘파이 배열이고, 레이블(정답) 데이터는 0-9 사이 정수 값을 갖는 배열입니다. 1. 라이브러리 호출 import numpy as np import matplotlib.pyplot as plt import torch import torch.nn as nn from torch.autograd import Vari..

pytorch 2023.04.25

[pytorch] 합성곱층 - Filter(stride / padding)

이 그림은 필터가 한 개인 경우의 계산이다. 위 그림에서는 이해를 돕기 위해 2차원으로 표현했지만 일반적으로 filter는 3차원이며 CNN에서는 3차원 filter 여러 개를 개별 feature map 에 적용하는 방식이다. 그럼 필터가 두 개 이상인 합성곱은 어떤 형태일까? convolution 연산을 적용할 filter의 채널 수 는 입력 feature map의 채널수와 같아야 한다. -> 3 convolution 연산을 적용한 filter의 개수는 출력 feature ma의 채널수가 됨 -> 4 입력 이미지가 3차원 -> 피처맵도 3차원 컨볼루션 적용 시 출력 피처맵의 크기 계산 공식 1. input size = 5*5, filter = 3*3, Strides = 1, padding = 0 인 경..

pytorch 2023.04.09

[pytorch] CNN (합성곱 신경망)의 구조

합성곱 신경망(Convolutional Neural Network, CNN)은 이미지, 음성, 텍스트 등과 같은 다양한 유형의 데이터에서 특징을 추출하고 분류하는 데 사용되는 딥러닝 모델 중 하나입니다. CNN은 기본적으로 이미지 처리에서 주로 사용되며, 입력 데이터를 이미지의 픽셀로 구성된 2D 배열로 취급합니다. 합성곱 계층과 풀링 계층으로 구성되며, 합성곱 계층(convolutional layer)은 입력 이미지에서 특징을 추출하는데 사용되고, 풀링 계층(pooling layer)은 추출된 특징을 간소화하고, 데이터의 크기를 줄입니다. 이러한 합성곱 계층과 풀링 계층의 반복적인 구성으로 인해 CNN은 입력 데이터에서 다양한 수준의 추상화된 특징을 학습하여, 이러한 특징을 바탕으로 입력 이미지를 분류..

pytorch 2023.04.09
728x90
반응형