국어 RAG 솔루션 성능 평가 ??
→ 올거나이즈에서 운영중인 RAG리더보드에서 사용하는 벤치마크 데이터 셋
올거나이즈가 국내 최초로 검색 증강 생성(RAG) 성능을 평가하는 '알리 RAG 리더보드'를 공개했습니다. 이 리더보드는 금융, 공공, 의료, 법률, 커머스의 5개 분야에서 한국어 RAG 성능을 평가합니다. 이를 통해 기업들은 가장 적합한 RAG 솔루션을 비교하고 도입할 수 있습니다 (AI타임스) (올거나이즈, 기업 생산성을 혁신하는 LLM Enabler).
리더보드는 답변 유사도 및 정확도를 판단하는 5개의 평가 도구를 사용하여 성능을 평가합니다. 이 도구들은 답변의 정확성과 유사성을 측정하며, 각 평가 결과에서 3개 이상의 도구가 오류 없이 통과된 경우에 '이상 없음'으로 판정합니다 (올거나이즈, 기업 생산성을 혁신하는 LLM Enabler). 출처
평가를 위한 코드
[RAG] RAG 벤치마크 데이터셋 & 성능 평가 리뷰 : RAG-Evaluation-Dataset-KO
개요 한국어 RAG 솔루션 성능 평가를 위해 RAG 벤치마크 데이터셋과 평가 관련 리서치를 진행,올거나이즈에서 운영중인 RAG 리더보드에서 사용하는 벤치마크 데이터셋을 찾게 되었다. https://huggin
didi-universe.tistory.com
반응형
'Machine Learning > RAG' 카테고리의 다른 글
[RAG]기술의 각 방법론 및 성능 평가 (0) | 2025.04.06 |
---|---|
rag시스템을 위한 주요 청킹 방법 ( + code ) (0) | 2025.02.24 |
Chunking strategies (0) | 2025.02.24 |
정확한 검색을 위한 청킹 전략(Chunking Strategy) (1) | 2025.02.24 |
what is Chunking & Indexing ? (1) | 2025.02.24 |