본문 바로가기
  • 머킹이의 머신로그

AI/코드 실습하기7

KULLM3 학습 코드 예제 안녕하세요 머킹입니다. 오늘은 KULLM3 학습 코드를 가지고 학습할 때 사용하는 라이브러리, 함수 등을 공부해보려고 합니다.import osimport torchimport pandas as pdfrom transformers import AutoTokenizer, AutoModelForCausalLM, Trainer, TrainingArguments, DataCollatorForLanguageModeling, BitsAndBytesConfigfrom datasets import Datasetfrom peft import get_peft_model, LoraConfig, TaskType# 데이터 로드 및 전처리df = pd.read_csv('data.csv')df = df.dropna(subset=['.. 2024. 8. 19.
[RAG 실습] GPT-4 + RAG 와 Fine-tuning 모델 + RAG 비교 [RAG 실습] GPT-4 + RAG 와 Fine-tuning 모델 + RAG 비교 안녕하세요 머킹입니다.요즘 RAG를 정말 열심히 하고 있는데요. RAG를 하면서 느끼는 점이 복잡한 query를 잘 이해하는게 정말 중요하겠더라구요.그리고 마냥 RAG 를 하는 것 보단 그래도 파인튜닝한 모델에 RAG를 하는게 좋다.. 라는 생각이 들어서 해보고 있는데 갑자기 진짜 더 좋을까? 라는 고민이 들었습니다. GPT는 너무 뛰어난 성능을 가지고 있기 때문에굳이 파인튜닝을 시켜서 붙여야할까... 그런 고민들이 드는 요즘입니다. 그래서 두 개의 코드를 직접 해보면서 비교해보고자 합니다.  답변 비교  GPT 4.0 + RAG 답변입니다. 굉장히 깔끔하게 잘 뽑아주었습니다.  그럼 Fine-tuning model + .. 2024. 8. 16.
[코드 실습]Transformer 직접 코딩해보기 The Annotated Transformer 보다 친절한 트랜스포머 튜토리얼, 2023 최신 오류 수정 버전 안녕하세요 머킹입니다. 오늘은 트랜스포머 튜토리얼을 직접 코딩해 보면서 발견한 오류를 수정하며 기록을 남겨보려고 합니다. 일단 저는 VS code를 사용했고 사용 데이터는 AI Hub에서 한국어-영어 번역 말뭉치 데이터 다운로드를 해야 합니다. cf. 현재 AI Hub에서는 다양한 한영 번역 데이터셋을 구축해 총 160만 쌍의 데이터를 제공해주고 있지만, 모든 문장을 훈련시키기에는 데이터가 과도하므로 본 튜토리얼에서는 구어체 데이터 1 & 2만을 사용하도록 합니다. 코드 실습 import pandas as pd import openpyxl xls_a = pd.read_excel('C:/Users.. 2023. 9. 25.
728x90