[ing]RAG 벤치 마크 데이터셋 & 성능 평가 리뷰

Machine Learning/RAG

[ing]RAG 벤치 마크 데이터셋 & 성능 평가 리뷰

뚜둔뚜둔 2025. 4. 6. 12:35

국어 RAG 솔루션 성능 평가 ??

→ 올거나이즈에서 운영중인 RAG리더보드에서 사용하는 벤치마크 데이터 셋

올거나이즈가 국내 최초로 검색 증강 생성(RAG) 성능을 평가하는 '알리 RAG 리더보드'를 공개했습니다. 이 리더보드는 금융, 공공, 의료, 법률, 커머스의 5개 분야에서 한국어 RAG 성능을 평가합니다. 이를 통해 기업들은 가장 적합한 RAG 솔루션을 비교하고 도입할 수 있습니다 (AI타임스) (올거나이즈, 기업 생산성을 혁신하는 LLM Enabler).

리더보드는 답변 유사도 및 정확도를 판단하는 5개의 평가 도구를 사용하여 성능을 평가합니다. 이 도구들은 답변의 정확성과 유사성을 측정하며, 각 평가 결과에서 3개 이상의 도구가 오류 없이 통과된 경우에 '이상 없음'으로 판정합니다 (올거나이즈, 기업 생산성을 혁신하는 LLM Enabler). 출처

평가를 위한 코드

https://didi-universe.tistory.com/entry/RAG-RAG-%EB%B2%A4%EC%B9%98%EB%A7%88%ED%81%AC-%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%85%8B-%EC%84%B1%EB%8A%A5-%ED%8F%89%EA%B0%80-%EB%A6%AC%EB%B7%B0-RAG-Evaluation-Dataset-KO

[RAG] RAG 벤치마크 데이터셋 & 성능 평가 리뷰 : RAG-Evaluation-Dataset-KO

개요 한국어 RAG 솔루션 성능 평가를 위해 RAG 벤치마크 데이터셋과 평가 관련 리서치를 진행,올거나이즈에서 운영중인 RAG 리더보드에서 사용하는 벤치마크 데이터셋을 찾게 되었다. https://huggin

didi-universe.tistory.com

저작자표시 비영리 동일조건

'Machine Learning > RAG' 카테고리의 다른 글

[RAG]기술의 각 방법론 및 성능 평가 (0)	2025.04.06
rag시스템을 위한 주요 청킹 방법 ( + code ) (0)	2025.02.24
Chunking strategies (0)	2025.02.24
정확한 검색을 위한 청킹 전략(Chunking Strategy) (1)	2025.02.24
what is Chunking & Indexing ? (1)	2025.02.24

현재글[ing]RAG 벤치 마크 데이터셋 & 성능 평가 리뷰

데이터 처리중입니다. 잠시만 기다려 주세요... AI_Developer

#nlp #자연어처리 #ml #ai #MLOps

cicd, Airflow, conda, Kubernetes, K8S, docker, Python, AI, 머신러닝, reinforcement, MLOps, Mlflow, 딥러닝, 강화학습, DevOps, ml, 알고리즘, 파이썬, 쿠버네티스, error,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

데이터 처리중입니다. 잠시만 기다려 주세요... AI_Developer