-
새로운 RAG system Golden-RetrieverDEV 2024. 11. 25. 21:33
RAG
2024.11.08 - [DEV] - simple RAG pipeline
기존 LLM 파인튜닝 및 RAG 프레임워크는 특정 분야 전문 용어 및 문맥 해석에 어려움을 겪고 있음.
골든 리트리버는 방대한 산업 지식 기반을 효율적으로 탐색하기 위해 설계된 새로운 RAG 시스템으로,
기존 RAG 시스템의 도메인 특정 전문 용어 및 문맥 해석과 관련된 문제들을 극복하고자 개발됨.
Golden-Retriever는 문서 검색 전 반영 기반 질문 보강 단계를 도입하여 이러한 문제를 해결.
전문 용어 식별, 문맥 기반 의미 명확화, 질문 보강을 통해 검색 정확도를 향상함.
오프라인 프로세스는 LLM을 사용하여 문서 데이터베이스를 강화하고, 온라인 프로세스는 실시간으로 사용자 질문을 보강.
https://arxiv.org/html/2408.00798v1기존 RAG 시스템의 한계
전문 용어: 기존 RAG 시스템은 특정 도메인에만 존재하는 전문 용어나 약어를 정확하게 해석하는 데 어려움을 겪음. 예를 들어, 특정 기술 분야에서만 사용되는 약어를 잘못 해석하여 관련 없는 문서를 검색하는 경우가 발생.
문맥 정보 부족: 사용자 질문에 문맥 정보가 명확하게 드러나지 않는 경우, 기존 RAG 시스템은 질문의 의도를 정확히 파악하지 못해 적절한 문서를 검색하는 데 실패.골든 리트리버의 해결 방안
왼쪽 상단에서 기존 오프라인 방법은 LLM을 사용하여 학습을 위한 데이터 세트를 생성.
오른쪽 상단은 온라인 단계를 위해 문서 데이터베이스를 개선하기 위해 LLM을 사용하는 오프라인 방법을 보여줌.
Corrective RAG와 Self-RAG는 문서 검색 단계 후 RAG의 응답을 수정.
또 다른 방법은 질문을 AST로 분해하고 그에 따라 SQL 쿼리를 합성하여 쿼리 충실도를 개선.
질문을 반영하고, 맥락을 식별하고, 문서 검색 전에 전문 용어 사전을 쿼리 하여 질문을 보강.오프라인 프로세스 : 문서 데이터베이스 강화
오프라인 프로세스는 사용자 질의 처리 전에 수행되는 사전 작업,
문서 데이터베이스를 강화하여 RAG 시스템이 질의에 대해 관련성 높은 문서를 검색할 가능성을 높임
다양한 형식의 문서 수집: PDF, 슬라이드, 텍스트가 포함된 이미지 등 회사의 독점 문서들을 수집
OCR을 사용한 텍스트 추출: 수집된 문서에서 광학 문자 인식(OCR) 기술을 사용하여 텍스트 콘텐츠를 추출
텍스트 분할: 추출된 텍스트를 LLM의 처리 능력에 따라 약 4,000 토큰 단위로 분할
LLM 기반 요약 및 문맥화: 각 텍스트 청크를 LLM에 입력하여 도메인 전문가의 관점에서 요약 및 문맥적 통찰력을 생성
데이터베이스에 보강된 데이터 추가: 생성된 요약 및 문맥 정보를 문서 데이터베이스에 추가하여 문서의 의미적 풍부함과 문맥적 관련성을 높임온라인 프로세스: 실시간 질문 보강
온라인 프로세스는 사용자 질문이 입력될 때마다 실시간으로 수행되는 작업,
질문을 분석하고 보강하여 RAG 시스템이 가장 관련성이 높은 문서를 검색하고 정확한 답변을 생성하도록 도움
전문 용어 식별: 사용자 질문에서 LLM을 사용하여 도메인 특정 전문 용어 또는 약어를 식별하고 구조화된 형식으로 나열
문맥 식별: LLM을 사용하여 미리 정의된 범주 집합에서 질문의 문맥을 분류. apache 서버와 헬기는 완전 다른 의미
전문 용어 쿼리: 식별된 전문 용어 및 약어에 대한 자세한 정의, 설명 및 관련 정보를 전문 용어 사전에서 검색. LLM을 통해 직접 SQL 쿼리를 생성하는 대신 SQL 기반 접근 방식을 사용하여 안전하고 신뢰할 수 있는 쿼리를 보장.
질문 보강: 식별된 문맥 정보와 전문 용어 정의를 사용하여 사용자의 원래 질문을 보강. 보강된 질문은 문맥을 명시하고 모호한 용어를 명확히 하여 RAG 프레임워크에 대한 입력으로 사용.
쿼리 미스 응답: 전문 용어 사전에서 특정 용어에 대한 관련 정보를 찾지 못한 경우, 사용자에게 정보 부족으로 인해 질문에 답변할 수 없음을 알리고 전문 용어의 철자를 확인하거나 지식 기반 관리자에게 새로운 용어 추가를 요청하는 폴백 메커니즘을 제공
골든 리트리버는 기존 RAG 방식과 비교했을 때 전문 용어 처리, 문맥 이해, 질문 보강 능력을 통해 더 높은 정확도와 효율적인 정보 검색을 제공. 핵심적인 차별점은 문서 검색 전에 질문을 분석하고 보강하는 반영 기반 질문 보강 단계를 도입했다는 것.
728x90'DEV' 카테고리의 다른 글
RAG 고급 기법 - Query Translation (0) 2024.11.27 Anthropic's Contextual Retrieval (0) 2024.11.26 LLM으로 프로그래밍 (0) 2024.11.24 Agentic RAG (1) 2024.11.22 프로젝트 일정 관리 방법 (0) 2024.11.21