[논문] Dense Passage Retrieval for Open-Domain Question Answering )DPR 정리
안녕하세요 머킹입니다.
스터디에서 RAG의 역사부터 시작하는 논문을 같이 읽어보고 있는데
따로 정리하면 좋을 것 같아서 블로그에 적고자 합니다.
초록
기존의 질문 답변 시스템(QA)은 여러 구성 요소가 필요하지만,
독해 모델의 발전으로 훨씬 단순한 2단계 프레임이 가능해졌습니다.
- Retriever: 답을 포함하고 있을 수 있는 여러 문단을 선택하는 역할
- Reader: 선택된 문단을 바탕으로 답을 도출하는 역할
ODQA(오픈 도메인 질문 답변)를 단순히 독해 모델로 해결하려는 시도는 매우 논리적이지만,
성능 저하가 자주 발생하므로, 정보를 검색하는 방식(retrieval)을 개선해야 할 필요가 있습니다.
ODQA에서는 주로 TF-IDF나 BM25 같은 방법으로 정보를 검색했습니다.
이 방법들은 질문과 문서를 특정 방식으로 표현해 매치하는데,
반대로 dense(밀집) 방식은 다르게 표현된 의미도 잘 파악해 더 유연하게 학습할 수 있습니다.
이 과정을 통해 dense 방식이 sparse(희소) 방식과 상호 보완적인 역할을 한다는 점이 중요합니다.
Dense retrieval 시스템은 효율적인 검색을 위해 많은 질문-문맥 쌍의 데이터를 필요로 하지만,
새로운 방법인 ORQA는 추가적인 사전 학습(pretraining)을 통해 기존 방식을 능가할 수 있음을 보여주었습니다.
Dense Passage Retriever (DPR)
DPR은 대규모 텍스트 문단(M passages)에서 질문과 관련된 상위 k개의 문단을 찾아내는 것을 목표로 합니다.
이 과정에서 dense encoder를 사용해 모든 문단을 낮은 차원의 벡터로 변환하고,
질문도 마찬가지로 벡터로 변환하여 두 벡터 간 유사도를 비교하는 방식으로 관련 문단을 찾아냅니다.
문단을 미리 계산해두고 빠르게 검색할 수 있는 방식입니다.
Training
Dense 방식의 학습은 질문과 문단 간의 유사도를 계산하여 더 나은 검색 성능을 목표로 합니다.
이 학습 과정에서 positive(정답) 문단과 negative(오답) 문단을 구분하여 질문과
답이 더 잘 연결되도록 학습시키는 것이 중요합니다.
Experiments: Passage Retrieval
실험을 통해 DPR이 sparse retrieval 방식(BM25)보다 훨씬 뛰어난 성능을 보였고,
다양한 훈련 데이터셋과 효율성을 분석했습니다. 적은 양의 학습 데이터만으로도
기존 BM25 방식을 능가하는 성능을 보일 수 있음을 확인했습니다.
Conclusion
Dense Retrieval 방식은 기존의 sparse 방식보다 더 나은 성능을 제공하며,
이를 통해 ODQA에서도 효과적으로 사용될 수 있음을 입증했습니다.
이 연구에서는 dense retriever를 훈련시키기 위해 중요한 요소들(negative 문단 선택 방법 등)을 다루었으며,
복잡한 모델이 아니어도 충분한 성능을 발휘할 수 있음을 보여줬습니다.
[용어정리]
- ODQA (Open-Domain Question Answering): 열린 도메인에서 다양한 질문에 답을 제공하는 시스템.
- TF-IDF: 문서에서 자주 등장하는 단어를 바탕으로 검색하는 방식.
- BM25: TF-IDF와 유사하지만, 더 정확한 검색 결과를 제공하는 방식.
- Sparse Representation (희소 표현): 문서나 질문을 큰 공간에서 일부 요소만으로 표현하는 방식.
- Dense Representation (밀집 표현): 문서나 질문을 모든 정보가 포함된 벡터로 표현해 더 많은 의미를 포착하는 방식.
- Maximum Inner Product Search (MIPS): 두 벡터 간의 유사도를 계산해 가장 높은 유사도를 가진 벡터를 찾는 방법.
- ORQA: Dense Retrieval 방식을 적용해 ODQA 성능을 향상시킨 시스템.
- Inverse Cloze Task (ICT): 문장에서 빈칸을 예측하는 방식으로 학습하는 방법.
참고로 이런 시간 순서대로 스터디를 진행하고 있습니다.
1. DPR의 핵심 개념
- Dense Passage Retrieval는 문서 검색을 위한 딥러닝 기반의 방법론으로, 텍스트 쌍(질문과 문서) 간의 의미적 유사성을 벡터 공간에서 계산하여 검색 성능을 높입니다.
- 기존의 sparse retrieval (예: BM25) 방식이 단순한 단어 매칭에 의존한 반면, DPR은 의미적으로 더 풍부한 검색을 가능하게 하여, semantic matching이 가능한 문서 검색을 제공합니다.
2. RAG에서의 DPR 역할
- RAG (Lewis et al., 2020) 시스템은 검색된 정보를 생성 모델에 결합하는 방식인데, 여기서 검색 단계에서 DPR은 매우 중요한 역할을 합니다.
- DPR은 질문에 대한 문서를 더 정확하게 검색할 수 있기 때문에, RAG 모델이 생성하는 답변의 품질을 높입니다. 잘못된 문서가 검색되면 생성되는 답변도 부정확할 수 있는데, DPR 덕분에 검색 효율성이 크게 향상되었습니다.
- RAG가 학습될 때 dense retriever와 generator를 함께 학습할 수 있는 구조로 설계되었는데, DPR은 그 retriever로서 문서 검색 성능을 극대화시키는 데 기여했습니다.
3. DPR이 RAG에 끼친 주요 영향
- 검색 성능 향상: DPR은 sparse 기법에 비해 더 정교한 문서 검색을 가능하게 했습니다. 이를 통해 RAG 시스템이 답변을 생성하기 전에 더 관련성 높은 문서를 사용할 수 있게 되었으며, 이는 RAG 모델의 성능을 크게 끌어올렸습니다.
- Retrieval-Augmented Generation의 필수 요소: RAG 모델의 구조는 검색된 문서를 기반으로 텍스트를 생성하는 방식입니다. DPR은 이 검색 과정을 개선함으로써 RAG 시스템이 더 정확하고 관련성 높은 텍스트를 생성할 수 있도록 했습니다.
요약
DPR은 RAG 시스템에서 검색 단계를 혁신적으로 개선한 핵심 기술로, RAG 모델의 성능을 크게 향상시켰습니다. 특히 더 정확한 문서 검색이 가능해짐으로써 RAG가 더 신뢰성 높은 답변을 생성할 수 있었고, 다양한 RAG 연구들에서 기본적인 검색 기법으로 활용되고 있습니다.
'AI > 논문 읽어보기' 카테고리의 다른 글
RAG의 역사 논문 (3) End-to-End Training of Multi-Document Reader and Retriever for Open-Domain Question Answering Review (0) | 2024.11.07 |
---|---|
RAG의 역사 논문 (2) Retrieval-Augmented Language Model Pre-Training (REALM) (1) | 2024.10.10 |
High-Resolution Image Synthesis with Latent Diffusion Models (0) | 2023.11.09 |
Generative Adversarial Nets 논문 리뷰 (0) | 2023.10.26 |
Attention Is All You Need 논문 리뷰 (0) | 2023.10.20 |