AI/코드 실습하기7 DDP 모델 학습에서 발생한 주요 에러 안녕하세요 머킹입니다.모델 학습 과정에서 발생한 에러들을 보면서...이걸 정리해두면 좋겠다 싶어서 글을 적습니다. 1. DataParallel vs DistributedDataParallel (DDP) 이슈문제: 처음에는 DataParallel을 사용해 여러 GPU에서 모델을 학습했지만, 메모리 오류 및 성능 저하 문제로 인해 안정적이지 않았습니다. 특히, cuda:0과 cuda:3에서 GPU 간 장치 혼합 오류가 발생했습니다.해결 방법: DataParallel 대신 DistributedDataParallel (DDP)를 사용하여, GPU 자원 관리 문제와 메모리 문제를 해결했습니다. DDP는 각 GPU마다 별도의 프로세스를 할당해, 성능을 향상시킵니다. setup과 cleanup 함수를 통해 프로세스를.. 2024. 9. 10. vLLM 이란 뭘까? [vLLM]코드 실습 vLLM 이란 뭘까? 안녕하세요. 머킹입니다.vLLM을 사용하고자 vLLM에 대해서 조금 알아보았습니다.아래 examples 예제도 많으니 꼭 시도해보세요! vLLM: 대형 언어 모델 서빙의 새로운 기준대형 언어 모델(LLM)은 오늘날 다양한 응용 프로그램에서 핵심적인 역할을 하고 있습니다.이러한 모델을 효과적으로 배포하고 실시간으로 서비스하는 것은 점점 더 중요한 과제가 되고 있습니다.여기서 등장하는 것이 바로 vLLM입니다. vLLM은 대형 언어 모델을 고성능, 저지연으로 서빙하기 위해 설계된 라이브러리입니다. vLLM의 주요 기능1. 고성능 서빙:vLLM의 가장 큰 강점 중 하나는 PagedAttention이라는 기술을 사용하여 메모리 관리와 처리 성능을 극대화한다는 점입니다.. 2024. 8. 29. 파인튜닝된 모델을 활용한 RAG (Retrieval-Augmented Generation) 예제 안녕하세요 머킹입니다.KULLM3 + RAG 코드가 잘돼서 예제 코드를 만들었어요. 1. 예제 코드 import osimport torchimport pandas as pdfrom transformers import AutoTokenizer, AutoModelForCausalLMfrom sentence_transformers import SentenceTransformerimport faissimport numpy as npfrom rank_bm25 import BM25Okapifrom nltk.tokenize import word_tokenizeimport nltknltk.download('punkt')# 설정os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable.. 2024. 8. 26. Transformer 모델 학습 중 발생하는 --load_best_model_at_end 에러: 원인과 해결 방법 1. Transformer 모델 학습 중 발생하는 --load_best_model_at_end 에러: 원인과 해결 방법 2. "element 0 of tensors does not require grad and does not have a grad_fn" 에러 해결 방법 Transformer 모델을 학습할 때, 모델의 성능을 모니터링하고, 최적의 모델을 저장하는 것은 매우 중요한 과정입니다.이를 위해 Hugging Face의 transformers 라이브러리는 --load_best_model_at_end 옵션을 제공합니다. 그러나 이 옵션을 사용할 때, ValueError: --load_best_model_at_end requires the saving steps to be a round multipl.. 2024. 8. 20. 이전 1 2 다음 728x90