Machine Learning/RAG

[ing]RAG 벤치 마크 데이터셋 & 성능 평가 리뷰

뚜둔뚜둔 2025. 4. 6. 12:35

 

국어 RAG 솔루션 성능 평가 ??

올거나이즈에서 운영중인 RAG리더보드에서 사용하는 벤치마크 데이터 셋

 

올거나이즈가 국내 최초로 검색 증강 생성(RAG) 성능을 평가하는 '알리 RAG 리더보드'를 공개했습니다. 이 리더보드는 금융, 공공, 의료, 법률, 커머스의 5개 분야에서 한국어 RAG 성능을 평가합니다. 이를 통해 기업들은 가장 적합한 RAG 솔루션을 비교하고 도입할 수 있습니다​ (AI타임스)​​ (올거나이즈, 기업 생산성을 혁신하는 LLM Enabler)​.

 

리더보드는 답변 유사도 및 정확도를 판단하는 5개의 평가 도구를 사용하여 성능을 평가합니다. 이 도구들은 답변의 정확성과 유사성을 측정하며, 각 평가 결과에서 3개 이상의 도구가 오류 없이 통과된 경우에 '이상 없음'으로 판정합니다​ (올거나이즈, 기업 생산성을 혁신하는 LLM Enabler)​. 출처

 

평가를 위한 코드 

https://didi-universe.tistory.com/entry/RAG-RAG-%EB%B2%A4%EC%B9%98%EB%A7%88%ED%81%AC-%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%85%8B-%EC%84%B1%EB%8A%A5-%ED%8F%89%EA%B0%80-%EB%A6%AC%EB%B7%B0-RAG-Evaluation-Dataset-KO

 

[RAG] RAG 벤치마크 데이터셋 & 성능 평가 리뷰 : RAG-Evaluation-Dataset-KO

개요 한국어 RAG 솔루션 성능 평가를 위해 RAG 벤치마크 데이터셋과 평가 관련 리서치를 진행,올거나이즈에서 운영중인 RAG 리더보드에서 사용하는 벤치마크 데이터셋을 찾게 되었다. https://huggin

didi-universe.tistory.com

 

 

반응형