AI51 RAG의 역사 논문 (3) End-to-End Training of Multi-Document Reader and Retriever for Open-Domain Question Answering Review 오픈 도메인 질문 응답을 위한 다중 문서 리더 및 검색기의 End-to-End 학습초록1. 엔드 투 엔드 차별화 가능한 훈련 방법: 연구에서는 여러 개의 검색된 문서에서 정보를 결합하여 답변을 생성하는 오픈 도메인 질문 응답 시스템을 위한 새로운 훈련 방법을 제안합니다. 이 방법은 전체 프로세스를 하나의 통합된 모델로 훈련할 수 있도록 합니다. 2. 잠재 변수 모델링: 검색 결정은 관련 문서 집합에 대한 잠재 변수로 모델링됩니다. 즉, 어떤 문서가 질문에 대한 답변을 제공할 수 있는지를 결정하는 과정이 잠재 변수로 표현됩니다. 3. 마진화의 어려움: 검색된 문서 집합에 대해 마진화(marginalization)를 수행하는 것은 계산적으로 어려운 작업입니다. 이를 해결하기 위해 연구에서는 기대-.. 2024. 11. 7. RAG의 역사 논문 (2) Retrieval-Augmented Language Model Pre-Training (REALM) [논문] Retrieval-Augmented Language Model Pre-Training (REALM) 정리 안녕하세요 머킹입니다. 두 번째 읽은 논문입니다. REALM(Retrieval-Augmented Language Model)은 구글에서 발표한 논문으로, 기존 언어 모델의 한계를 해결하기 위해 retrieval(검색) 기능을 도입한 모델입니다. 기존의 언어 모델(예: BERT, GPT)은 학습된 데이터에 기반하여 지식을 저장하며, 이 지식을 바탕으로 다양한 태스크를 수행할 수 있었습니다. 하지만 학습된 데이터 외의 정보에는 접근할 수 없어 최신 정보를 반영하지 못하거나, 학습된 지식의 업데이트가 어렵다는 문제가 있었습니다.특히, 오픈 도메인 질문 응답(Open-Domain Question .. 2024. 10. 10. RAG의 역사 논문 (1) - Dense Passage Retrieval for Open-Domain Question Answering )DPR [논문] Dense Passage Retrieval for Open-Domain Question Answering )DPR 정리 안녕하세요 머킹입니다. 스터디에서 RAG의 역사부터 시작하는 논문을 같이 읽어보고 있는데따로 정리하면 좋을 것 같아서 블로그에 적고자 합니다. 초록기존의 질문 답변 시스템(QA)은 여러 구성 요소가 필요하지만,독해 모델의 발전으로 훨씬 단순한 2단계 프레임이 가능해졌습니다.Retriever: 답을 포함하고 있을 수 있는 여러 문단을 선택하는 역할Reader: 선택된 문단을 바탕으로 답을 도출하는 역할ODQA(오픈 도메인 질문 답변)를 단순히 독해 모델로 해결하려는 시도는 매우 논리적이지만,성능 저하가 자주 발생하므로, 정보를 검색하는 방식(retrieval)을 개선해야 할 필요.. 2024. 10. 8. DDP 모델 학습에서 발생한 주요 에러 안녕하세요 머킹입니다.모델 학습 과정에서 발생한 에러들을 보면서...이걸 정리해두면 좋겠다 싶어서 글을 적습니다. 1. DataParallel vs DistributedDataParallel (DDP) 이슈문제: 처음에는 DataParallel을 사용해 여러 GPU에서 모델을 학습했지만, 메모리 오류 및 성능 저하 문제로 인해 안정적이지 않았습니다. 특히, cuda:0과 cuda:3에서 GPU 간 장치 혼합 오류가 발생했습니다.해결 방법: DataParallel 대신 DistributedDataParallel (DDP)를 사용하여, GPU 자원 관리 문제와 메모리 문제를 해결했습니다. DDP는 각 GPU마다 별도의 프로세스를 할당해, 성능을 향상시킵니다. setup과 cleanup 함수를 통해 프로세스를.. 2024. 9. 10. 이전 1 2 3 4 ··· 13 다음 728x90