목록전체 글 (91)
짜리몽땅 매거진
지난 포스팅들에서 Transformer 모델의 작동원리와 구조에 대해 살펴보았으니, 이젠 직접 Transformers 라이브러리를 활용해 실습을 진행해보자. Hugging Face(허깅페이스)란 자연어 처리, 이미지 생성모델, 컴퓨터 비전모델 등 다양한 도구와 라이브러리를 제공하는 곳이다. 쉽게 말해서 다양한 인공지능 모델들을 오픈 소스로 제공하는 곳이라고 생각하면 된다. 그래서 허깅페이스에서 제공하는 Transformers 라이브러리를 활용해 실습을 진행해보려 한다. 본격적인 실습 전에 먼저 허깅페이스에 회원가입을 하고 토큰을 발급받아 Hugging Face Hub를 컴퓨터에 설치하자.1. 필수 라이브러리 설치 및 환경 조성pip install transformers datasets accelerat..

금융 시계열 데이터에 대한 교차 검증 방법금융 시계열 데이터는 시간에 따라 연속적인 특성을 가지고 있기 때문에, 전통적인 k-fold 교차 검증 방법은 적합하지 않다. k-fold 교차 검증은 데이터의 순서를 무시하고 무작위로 분할하는데, 이는 시계열 데이터의 시간적 순서를 무시하는 것으로, 미래 데이터가 모델 학습에 포함될 위험이 있다. 금융 시장에서는 미래 데이터를 알 수 없기 때문에, 이러한 방식은 비현실적이다. 금융 시계열 데이터에는 walk-forward 교차 검증과 blocking walk-forward 교차 검증 방법이 적합하다. 이 방법들은 데이터를 시간 순서대로 분할하고, 각 단계에서 모델을 학습시킨 후 바로 다음 시점의 데이터를 사용해 모델을 검증한다. 이는 시간의 순서를 유지하면서 모..

금융 시계열 및 파이썬을 활용한 전통 퀀트 방법 구현금융 투자 데이터 준비1) 데이터 구매 : 블룸버그, Refinitiv(로이터), FnGuide2) 증권사 API : 삼성증권 OpenAPI, 키움증권 API, Alpaca, Upstox3) 금융 웹페이지 크롤링 : 네이버 금융, 야후 파이낸스, 구글 파이낸스4) 금융 데이터 제공 오픈 API 활용 : Alpha Vantage, 퀀들, 야후 파이낸스 가장 쉬운 방법은 FinanceDataReader 라이브러리를 사용하면 누구나 쉽게 금융 투자 데이터를 불러올 수 있다. 거래소별 전체 종목 코드는 StockListing() 함수를 사용하여 한국거래소에 상장된 종목 리스트는 fdr.StockListing('KRX')로, 미국 S&P500에 상장된 종목들은 ..

지난 글에서 트랜스포머 아키텍처의 가장 핵심인 Attention과 Self Attention에 대해 알아보았는데, 오늘은 트랜스포머 아키텍처가 지니는 특징적인 부분을 다뤄보자. 위의 트랜스포머 아키텍처 구조를 살펴보면 어텐션의 경우 인코더와 디코더 모두 'Multi-Head Attention'을 수행하고, 특히 디코더에서는 'Masked Multi-Head Attention'을 수행한다. 이 두 가지는 무엇일까. Multi-Head Attention 트랜스포머 모델의 Multi-Attention은 위 그림처럼 head의 수만큼 Attention을 각각 병렬로 나누어 계산을 한다. 도출된 Attention Value들은 마지막에 concatenate를 통해 하나로 합쳐진다. 이렇게 하면 Attention..

지난 글에서 LLM의 정의와 LLM의 기반인 트랜스포머 모델 중 앞단인 임베딩과 포지셔널 인코딩에 대해 알아보았는데, 이번에는 인코더와 디코더의 중요한 부분을 차지하는 '셀프 어텐션(Self Attention)'에 대해 알아보자. 셀프어텐션을 알아보기 이전에, '어텐션(Attention)' 매커니즘을 먼저 알아야 셀프어텐션을 이해할 수 있다. Attention 인코더는 입력으로 input data를 받아 압축 데이터(context vector)로 변환 및 출력해주는 역할을 한다. 디코더는 반대로 압축 데이터(context vector)를 입력 받아 output data를 출력해준다. 이는 우리가 사용하는 전화기의 원리와 동일한데, 이렇게 해주는 이유는 정보를 압축하므로써 연산량을 최소화하기 위해서이다. ..

지난번 금융AI의 주요 활용 분야에 대해서 알아보았는데, 그 중 투자와 트레이딩 분야에서 AI가 어떻게 활용되는지 중점적으로 알아보자. 금융 투자 방법론대표적인 금융 투자 방식에는 주식 투자, 채권 투자, 부동산 투자, 원자재 투자, 상호금융 투자 등이 있는데 이 방식들을 아우르는 개념으로 '퀀트 투자'라는 용어를 들어봤을 것이다. 퀀트 투자는 체계적 투자 방법론으로, 전통적으로는 뚜렷한 가정에 기반한 통계 모델을 사용하여 투자 결정을 내린다. 반면 이와 반대되는 개념인 재량적 투자는 기계가 아닌 인간 투자자의 경험과 직관에 따라 투자 결정을 내리는 방식이다. 그러나 최근에는 머신러닝과 딥러닝의 기술이 소위 퀀트 투자에 접목되면서, 이전의 가정 기반 투자 방식에서 벗어나 복잡한 패턴이나 비선형 관계를 탐..

LLM의 정의와 주요 특징LLM은 대부분 트랜스포머 아키텍처에서 파생된 AI 모델로, 사람의 언어, 코드 등을 이해하고 생성하기 위해 설계되었다. 이러한 모델들은 방대한 양의 텍스트 데이터로 학습되어, 사람 언어의 복잡성과 뉘앙스를 포착할 수 있다. LLM은 간단한 텍스트 분류부터 텍스트 생성에 이르기까지 언어 관련 작업을 넓은 범위에서 높은 정확도로 유창하고 유려하게 수행할 수 있다. 이러한 LLM은 의료 산업, 금융 분야의 트레이딩 전략까지 범용적으로 활용되고 있다. 기존의 트랜스포머 아키텍처는 시퀀스투시퀀스(seq2seq)모델이었으며, 이는 두 가지 구성요소를 주로 가진다.인코더(Encoder) : 원시 텍스트를 받아들여 핵심 구성 요소로 분리하고, 해당 구성 요소를 벡터로 변환하는 업무를 담당한다..
1. 투자와 트레이딩투자와 거래에서 AI의 역할은 더욱 중요해졌다. 투자 결정을 내리는데 정확성과 효율성은 절대적이므로, AI는 이러한 분야에서 투자자들에게 더 나은 결정을 내릴 수 있는 도움을 주고 있다.또한 AI 기술을 활용한 예측 모델링은 투자자들이 미래의 시장 동향을 예측하는데 큰 도움을 준다. 머신러닝과 딥러닝 같은 AI 기술은 대규모 시장 데이터를 분석하여 사람의 눈에는 띄지 않을 수 있는 패턴이나 추세를 파악한다.투자와 관련된 데이터분석 역시 AI의 강점 중 하나다. AI는 금융 시장의 방대한 데이터를 빠르고 정확하게 분석하여, 투자자에게 깊은 통찰력을 제공한다. 예를 들어, 딥러닝 알고리즘은 뉴스 기사, 소셜 미디어 피드, 기타 정보 소스를 분석하여 시장의 흐름을 파악한다. 특히 LLM의 ..