목록Data/Deep Learning (6)
짜리몽땅 매거진

1. 파인튜닝(Fine-tuning)이란?파인튜닝은 사전 학습된 모델을 특정한 데이터셋에 맞춰 추가로 학습시키는 과정이다. 이미 대량의 데이터로 학습된 모델의 기본적인 표현학습 능력을 유지하면서, 특정 도메인 또는 특정 태스크에 맞게 미세 조정하는 방식이다.💡 예시:GPT-4를 금융 문서 요약에 맞춰 파인튜닝ResNet을 의료 이미지 분석에 맞춰 파인튜닝BERT를 법률 문서 분류 태스크에 맞춰 파인튜닝2. 파인튜닝의 주요 개념사전 학습(Pre-training)대규모 데이터셋으로 학습한 일반적인 특징을 학습하는 과정예: GPT, BERT, ResNet, EfficientNet 등전이 학습(Transfer Learning)사전 학습된 모델을 특정한 작업에 맞게 재사용기존의 가중치를 활용하여 학습량을 줄이고..
지난 포스팅들에서 Transformer 모델의 작동원리와 구조에 대해 살펴보았으니, 이젠 직접 Transformers 라이브러리를 활용해 실습을 진행해보자. Hugging Face(허깅페이스)란 자연어 처리, 이미지 생성모델, 컴퓨터 비전모델 등 다양한 도구와 라이브러리를 제공하는 곳이다. 쉽게 말해서 다양한 인공지능 모델들을 오픈 소스로 제공하는 곳이라고 생각하면 된다. 그래서 허깅페이스에서 제공하는 Transformers 라이브러리를 활용해 실습을 진행해보려 한다. 본격적인 실습 전에 먼저 허깅페이스에 회원가입을 하고 토큰을 발급받아 Hugging Face Hub를 컴퓨터에 설치하자.1. 필수 라이브러리 설치 및 환경 조성pip install transformers datasets accelerat..

지난 글에서 트랜스포머 아키텍처의 가장 핵심인 Attention과 Self Attention에 대해 알아보았는데, 오늘은 트랜스포머 아키텍처가 지니는 특징적인 부분을 다뤄보자. 위의 트랜스포머 아키텍처 구조를 살펴보면 어텐션의 경우 인코더와 디코더 모두 'Multi-Head Attention'을 수행하고, 특히 디코더에서는 'Masked Multi-Head Attention'을 수행한다. 이 두 가지는 무엇일까. Multi-Head Attention 트랜스포머 모델의 Multi-Attention은 위 그림처럼 head의 수만큼 Attention을 각각 병렬로 나누어 계산을 한다. 도출된 Attention Value들은 마지막에 concatenate를 통해 하나로 합쳐진다. 이렇게 하면 Attention..

지난 글에서 LLM의 정의와 LLM의 기반인 트랜스포머 모델 중 앞단인 임베딩과 포지셔널 인코딩에 대해 알아보았는데, 이번에는 인코더와 디코더의 중요한 부분을 차지하는 '셀프 어텐션(Self Attention)'에 대해 알아보자. 셀프어텐션을 알아보기 이전에, '어텐션(Attention)' 매커니즘을 먼저 알아야 셀프어텐션을 이해할 수 있다. Attention 인코더는 입력으로 input data를 받아 압축 데이터(context vector)로 변환 및 출력해주는 역할을 한다. 디코더는 반대로 압축 데이터(context vector)를 입력 받아 output data를 출력해준다. 이는 우리가 사용하는 전화기의 원리와 동일한데, 이렇게 해주는 이유는 정보를 압축하므로써 연산량을 최소화하기 위해서이다. ..

LLM의 정의와 주요 특징LLM은 대부분 트랜스포머 아키텍처에서 파생된 AI 모델로, 사람의 언어, 코드 등을 이해하고 생성하기 위해 설계되었다. 이러한 모델들은 방대한 양의 텍스트 데이터로 학습되어, 사람 언어의 복잡성과 뉘앙스를 포착할 수 있다. LLM은 간단한 텍스트 분류부터 텍스트 생성에 이르기까지 언어 관련 작업을 넓은 범위에서 높은 정확도로 유창하고 유려하게 수행할 수 있다. 이러한 LLM은 의료 산업, 금융 분야의 트레이딩 전략까지 범용적으로 활용되고 있다. 기존의 트랜스포머 아키텍처는 시퀀스투시퀀스(seq2seq)모델이었으며, 이는 두 가지 구성요소를 주로 가진다.인코더(Encoder) : 원시 텍스트를 받아들여 핵심 구성 요소로 분리하고, 해당 구성 요소를 벡터로 변환하는 업무를 담당한다..

오늘은 GRU와 LSTM 모델을 활용해 간단한 유통데이터 시계열 분석을 진행해보자. 1. 라이브러리 호출 및 데이터 불러오기import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.preprocessing import MinMaxScalerfrom sklearn.model_selection import train_test_splitfrom tensorflow.keras.models import Sequentialfrom tensorflow.keras.layers import LSTM, GRU, Densefrom sklearn.metrics import mean_squared_error, mean_absolute_err..