검색 증강 생성(RAG) 시스템은 대규모 언어 모델의 한계를 보완하고 정교한 답변을 제공하기 위해 검색된 문서를 활용하는 방식으로, 최근 다양한 응용 분야에서 활발히 연구되고 있다. 그러나 이러한 시스템의 성능은 사용자가 입력한 쿼리와 검색된 문서 간의 관련성에 크게 의존한다. 따라서, 관련성 평가의 정확성을 향상하는 것은 검색 증강 생성 시스템의 신뢰성과 효율성을 높이는 핵심 요소이다.
기존의 관련성 평가 방법은 주로 자동화된 점수 산정에 기반하지만, 이 과정에서 발생하는 오류나 편향으로 인해 사용자에게 부정확한 정보를 제공할 가능성이 있다. 이러한 문제를 해결하기 위해 검색 증강 생성 시스템의 관련성 평가를 독립적으로 감시하고 평가할 수 있는 '감사 모델'의 필요성이 제기되고 있다.
본 연구는 감사 모델을 통해 검색 증강 생성 시스템의 관련성 평가 과정을 투명하고 신뢰성 있게 개선하는 것을 목표로 한다. 이를 통해 사용자가 더 나은 정보를 얻고 시스템의 신뢰성을 향상시키고자 한다.
본 논문은 검색 증강 생성 시스템(Retrieval Augmented Generation, RAG)의 응답 품질을 평가하기 위한 감사(auditor) 모델을 설계하고, 이를 통해 관련성 평가의 효율성과 신뢰성을 제고하는 방안을 제시하고자 한다. 이를 위해 다음과 같은 연구 방법을 채택하였다.
문헌 연구에서는 검색 증강 생성(RAG) 기술과 관련성 평가 기법에 대한 기존 연구를 조사하고, 현재 기술의 한계와 해결 방안을 도출하였다. 모델 설계 단계에서는 RAG 시스템 내에서 관련성 평가를 수행할 독립적인 감사 모델을 설계하였으며, 이 과정에서 시스템 아키텍처, 평가 기준, 점수 산출 방식을 정의하였다. 실험 및 검증에서는 설계된 감사 모델을 다양한 RAG 응용 시나리오에 적용하여 실제 데이터셋을 활용한 실험을 통해 모델의 성능과 유용성을 검증하고, 기존 평가 기법과의 비교 분석을 통해 제안된 모델의 효과성을 입증하였다. 마지막으로 결과 분석 단계에서는 실험 결과를 바탕으로 모델의 강점과 한계를 분석하고, 향후 개선 방향을 논의하였다.
본 논문은 총 6장으로 구성되어 있으며, 각 장의 내용은 다음과 같다. 제1장에서는 연구의 배경, 문제 정의, 연구 목적 및 기여를 설명한다. 제2장에서는 검색 증강 생성 시스템, 관련성 평가 기법, 그리고 감사 모델과 유사한 평가 메커니즘에 대한 선행 연구를 검토한다. 제3장에서는 제안된 감사 모델의 구조, 주요 구성 요소, 및 관련성 평가 메커니즘을 상세히 기술한다. 제4장에서는 실험 환경, 데이터셋, 평가 지표를 소개하고, 실험 결과를 분석하여 감사 모델의 성능을 검증한다. 제5장에서는 본 연구의 한계를 논의하고, 관련성 평가와 RAG 시스템의 발전을 위한 미래 연구 방향을 제시한다. 마지막으로 제6장에서는 연구 내용을 요약하고, 본 논문의 학문적 및 실질적 기여를 정리한다.
검색 증강 생성(Retrieval Augmented Generation, RAG) 시스템은 대규모 언어 모델과 정보 검색 기술을 결합하여 보다 정확하고 정교한 답변을 제공하는 기술이다. RAG는 사용자가 입력한 쿼리에 대해 외부 데이터베이스나 문헌에서 관련 문서를 검색하고, 이러한 문서들을 기반으로 언어 모델이 응답을 생성하는 방식으로 동작한다.
기존 연구에서는 RAG 시스템의 장점으로 대규모 언어 모델의 한계를 보완하는 점을 강조하고 있다. 예를 들어, 언어 모델 자체로는 최신 뉴스나 특정 도메인에 대한 최신 정보를 제공하는 데 한계가 있지만, RAG 시스템은 외부에서 관련 문서를 검색하여 이를 바탕으로 응답을 생성함으로써 이러한 한계를 극복할 수 있다. 이러한 방식은 특히 의료 정보 제공이나 기술 문서 작성 등에서 매우 유용한 것으로 평가되고 있다. 특히 언어 모델이 훈련되지 않은 최신 정보나 특정 도메인 지식을 제공하기 위해 관련 문서를 검색하고 이를 바탕으로 응답을 생성하는 과정에서 큰 이점을 가진다. Lewis et al. (2020)[1]은 RAG 시스템을 통해 언어 모델의 생성을 보완하고 사실성을 높이는 데 성공하였으며, 특히 대규모 데이터셋에서 효과적인 성능을 보였음을 보고하였다. 또한, REALM (Guu et al., 2020)[2]과 같은 유사한 접근법도 정보 검색을 통해 모델의 성능을 향상시키는 점에서 주목받고 있다.
그러나, RAG 시스템에서 검색된 문서와 생성된 응답 간의 관련성을 평가하는 과정은 여전히 해결해야 할 중요한 문제로 남아 있다. 예를 들어, 검색된 문서가 사용자의 질문과 부분적으로만 관련이 있거나, 문맥상 부적절한 정보가 포함될 경우, 생성된 응답의 신뢰성이 크게 저하될 수 있다. 이러한 문제는 특히 사용자가 신뢰할 수 있는 정보를 기대하는 상황에서 치명적일 수 있다. 기존 연구들에서는 주로 검색된 문서와 생성된 답변의 관련성을 자동 점수화하는 방식을 사용하고 있으며, 이러한 방식은 높은 처리 효율성을 제공하지만, 종종 편향되거나 정확하지 않은 관련성 평가로 이어질 수 있다는 한계가 있다. 본 논문은 이러한 한계를 극복하기 위해 독립적인 감사 모델을 도입하여 관련성 평가를 개선하고자 한다.
RAG 시스템에서 중요한 과제 중 하나는 검색된 문서와 사용자의 쿼리 간의 관련성을 정확하게 평가하는 것이다. 기존의 관련성 평가 기법은 크게 두 가지로 나눌 수 있다: 점수 기반 접근법과 학습 기반 접근법이다.
첫째, 점수 기반 접근법은 전통적인 정보 검색 기법에서 사용되는 방식으로, 사용자가 입력한 쿼리와 문서 간의 일치 정도를 계산하여 관련성을 점수화하는 것이다. 이러한 접근법은 단어의 빈도나 단순한 일치에 의존하기 때문에, 사용자가 입력한 쿼리와 문서 간에 의미적인 연결이 있더라도 이를 제대로 반영하지 못하는 경우가 많다. 예를 들어, 동일한 의미를 지닌 다른 단어(동의어)가 사용되었을 경우 점수가 낮게 평가될 수 있으며, 이는 실제 관련성을 정확히 평가하지 못하는 결과를 초래할 수 있다. 대표적인 알고리즘으로는 TF-IDF(Term Frequency-Inverse Document Frequency)와 BM25 등이 있다. 이러한 기법들은 계산이 빠르고 직관적이라는 장점이 있지만, 의미적 관련성보다는 단순한 텍스트 일치에 의존하기 때문에 한계가 있다.
둘째, 학습 기반 접근법은 딥러닝을 활용한 모델들을 통해 문서와 쿼리의 의미적 관련성을 학습하는 방식이다. 이 접근법의 주요 장점은 딥러닝 모델의 강력한 의미적 이해 능력을 통해 문서와 쿼리 간의 깊은 의미적 연결을 파악할 수 있다는 점이다. 그러나, 이러한 접근법은 대규모 연산 자원을 요구하고, 과적합(overfitting) 문제를 야기할 수 있다는 단점이 있다. 예를 들어, BERT 기반 모델은 높은 성능을 보이지만, 학습 데이터에 지나치게 맞춰지는 경향이 있어 새로운 데이터에 대한 일반화 능력이 떨어질 수 있다. 대표적인 모델로는 BERT 기반의 쌍 대조 학습(Siamese Network)이나, Cross-Encoder를 활용한 방식 등이 있다. Nogueira et al. (2019)[3]은 BERT를 활용하여 관련성 평가 성능을 크게 향상시켰음을 보여주었으며, 이는 딥러닝 모델의 강력한 의미적 이해 능력을 활용한 것이다. 그러나 이러한 접근법은 대규모 연산 자원을 요구하고, 과적합(overfitting) 문제를 야기할 수 있다는 단점이 있다.
본 연구에서는 점수 기반 접근법과 학습 기반 접근법의 장점을 결합하고, 이를 독립적인 감사 모델을 통해 추가적으로 평가하여 관련성 평가의 신뢰성을 높이는 방안을 제안하고자 한다.
본 연구에서는 대규모 언어 모델(LLM)을 활용하여 검색 증강 생성(RAG) 시스템의 관련성 평가를 독립적으로 수행하는 감사 모델을 설계하고자 한다. LLM은 높은 자연어 처리 능력과 문맥 이해 능력을 바탕으로, 검색된 문서와 사용자 쿼리 간의 심층적 의미 관계를 효과적으로 평가할 수 있어 이러한 감사 모델에 적합하다. 이러한 LLM 기반 감사 모델은 검색된 문서와 쿼리 간의 의미적 관련성을 보다 정밀하게 평가함으로써 기존 RAG 시스템의 한계를 보완하고자 한다.
[1] Patrick Lewis, Ethan Perez, Aleksandra Piktus, et al. "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks." Advances in Neural Information Processing Systems (NeurIPS), 2020. [2] Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, Ming-Wei Chang. "REALM: Retrieval-Augmented Language Model Pre-Training." International Conference on Machine Learning (ICML), 2020. [3] Rodrigo Nogueira, Wei Yang, Kyunghyun Cho, and Jimmy Lin. "Passage Re-ranking with BERT." arXiv preprint arXiv:1901.04085, 2019. [4] Lele Xu, Hang Li, et al. "Ensemble Learning for Information Retrieval and Relatedness Evaluation." IEEE Access, 2021.