Paper Review

[PaperReview] Active Retrieval Augmented Generation

뚜둔뚜둔 2025. 3. 25. 01:26

https://arxiv.org/abs/2305.06983

 

Active Retrieval Augmented Generation

Despite the remarkable ability of large language models (LMs) to comprehend and generate language, they have a tendency to hallucinate and create factually inaccurate output. Augmenting LMs by retrieving information from external knowledge resources is one

arxiv.org

 

 

🔍 사용자 입력에 기반하여 초기 정보 수집

🔍 미래 문장을 예측하여 필요한 정보 지속적으로 검색

🔍 저확신 토큰이 포함된 경우 정보를 재생성하여 출력  개선


주요 방법론:

본 논문에서 제안한는 방법은 Forward-Looking Active Retrieval augmented Geeneration (FLARE) 라는 새로운 프래임 워크를 포함한다. 

FLARE는 언어모델이 다음 문장을 예측하여 필요한 정보를 사전에 조회하고, 이를 바탕으로 생성할 문장을 재생성하는 방식을 사용.

구체적으로, 낮은 확률의 토큰(즉, 언어모델이 자신이 생성한 정보에 대해 자신감을 갖지 못하는 경우)에 대해 적절한 정보를 조회 함.

FLARE(Rorward-Looking Active REtrieval augmented generation)

생성 과정 전반에 걸쳐 언제 그리고 무엇을 검색할지 결정할 수 있는 프래임 워크

검색과 생성이 교차하는 형태

 종류 

  • FLARE with Retrieval Instructions
    • 언어 모델이 모르는 부분이 있으면 [Search(query)]를 생성하여 관련 문서를 찾아 검색하여 입력으로 넣음
    • 하지만, instruction을 활용한 방법은 신뢰하기가 좀 어려움
  • Direct FLARE
    • 저자들은 아래와 같이 신뢰도를 활용하여 언제, 어떻게 검색할지를 결정할 수 있게 함

 과정 

  • 임시로 다음 문장을 생성
  • 임시 문장의 모든 토큰의 신뢰도가 정해진 임계값보다 높다면 다음 문장 생성 → 임시 문장이 낮은 신뢰도(=확률)의 토큰을 포함할 경우 이를 질의로 사용해 관련 문서를 검색
    • 신뢰도가 낮은 토큰을 마스킹하는 방법
    • 신뢰도가 낮은 토큰 구간에 대해서 GPT와 같은 LLM을 사용하여 해당 구간을 답변으로 하는 질문을 생성하도록 프롬프트를 작성 및 요청하는 방법
  • 위 과정을 생성 종료시 까지 반복 

 

FLARE의 단계

  1. 초기 조회: 사용자 입력에 따라 첫 번째 문장을 예측하기 위해 초기 조회 결과를 받음
  2. 예측 문장 생성: 다음 문장을 예측하여 임시문장(Temporary next sentence)을 생성한다. 이과정은 토큰의 확률이 낮은지 여부를 체크하고, 낮을 경우 조회를 실행
  3. 문서 조회: 예측한 문장을 기반으로 적절한 문서를 조회한다. 이떄, 조회된 문서는 다음 생성 단계에서 고려될 수 있음
  4. 재생성: 조회된 문서를 바탕으로 새로운 문장을 재생성한다.

이와 같은 방법은 언어 모델이 다음에 생성할 내용을 미리 예측하고, 그 예측을 보완하기 위한 정보를 외부에서 조회하는 형태로 작동함

 

평가 및 실험 결과:

연구자들은 FLARE의 성능을 다양한 작업/데이터 셋에서 평가 함. 이들은 멀티홉QA, 상식 추론, 긴 형식 QA, 오픈 도메인 요약등 네 가지 과제를 포함함. 

→ FLARE는 모든 작업에서 기존의 단일 조회 및 다중 조회 기초 모델들과 비교했을때 우수하거나 경쟁력 있는 성능을 보여줌

제한 사항:

본 논문에서는 FLARE의 사용이 일반적인 LM보다 더 많은 계산 비용을 초례할 수 있으며, 잘못된 정보를 기반으로 검색할 경우 오류가 지속될 수 있는 위험이 있음을 지적함. 또한, FLARE는 기술적으로 여러 단계를 포함한 복잡한 시스템이기 때문에, 구현 및 최적화에서 추가적인 연구가 필요한 것으로 보임

 

이 논문은 정보 생성과 조회를 통합하는 새로운 방법론은 제시함으로써, 언어모델의 신뢰성을 향상 시키고, 향후 여러 언어 처리 작업에서 활용 가능한 방향성을 제시하고 있음.


Active Retrieval Augmented Generation

반응형