'Machine Learning/RAG' 카테고리의 글 목록

[ing]RAG 벤치 마크 데이터셋 & 성능 평가 리뷰

국어 RAG 솔루션 성능 평가 ??→ 올거나이즈에서 운영중인 RAG리더보드에서 사용하는 벤치마크 데이터 셋 올거나이즈가 국내 최초로 검색 증강 생성(RAG) 성능을 평가하는 '알리 RAG 리더보드'를 공개했습니다. 이 리더보드는 금융, 공공, 의료, 법률, 커머스의 5개 분야에서 한국어 RAG 성능을 평가합니다. 이를 통해 기업들은 가장 적합한 RAG 솔루션을 비교하고 도입할 수 있습니다 (AI타임스) (올거나이즈, 기업 생산성을 혁신하는 LLM Enabler). 리더보드는 답변 유사도 및 정확도를 판단하는 5개의 평가 도구를 사용하여 성능을 평가합니다. 이 도구들은 답변의 정확성과 유사성을 측정하며, 각 평가 결과에서 3개 이상의 도구가 오류 없이 통과된 경우에 '이상 없음'으로 판정합니다 (..

Machine Learning/RAG 2025.04.06

[RAG]기술의 각 방법론 및 성능 평가

고급 RAG 기술의 각 방법론 및 성능 평가: 검색 및 생성 성능 중심 Retrieval-Augmented Generation(RAG)는 외부 지식 소스로 부터 추가적인 정보를 통합하여 대형 언어 모델(LLM)을 개선하는 과정이다, 이를 통해 LLM은 더 정확하고 문맥을 고려할 수 있는 답변은 생성하며, 환각(hallucination)을 방지할 수 있게 되었다. 이러한 장점을 가진 RAG는 2023년 이후 LLM 기반 시스템에서 범용적으로 사용되는 아키텍처로 자리 잡았다.RAG Framework의 3가지 범주Navie RAGAdavanced RAGModular RAG 1. Naive RAG1-1. Navie RAG의 개념 및 설명기본 RAG (Retrieval-Augmented Generation)은 R..

Machine Learning/RAG 2025.04.06

rag시스템을 위한 주요 청킹 방법 ( + code )

참고 : https://brunch.co.kr/@b2439ea8fc654b8/37 RAG 시스템을 위한 주요 청킹 방법큰 문서를 작은 부분으로 나누는 것은 RAG(Retrieval Augmented Generation) 시스템의 성능에 영향을 미치는 아주 중요한 요소입니다. RAG 시스템 개발을 위한 프레임워크는 일반적으로 선택할 수 있는 여brunch.co.kr

Machine Learning/RAG 2025.02.24

Chunking strategies

→ 여러 청킹 방법을 살펴 보고 청킹 크기와 방법을 선택할 때, 고려해야 할 트레이드오프에 대해 논의→ 어플리케이션에 적합한 최적의 청킹 크기와 방법을 결정하기 위한 몇 가지 권장 사항을 제시 짧고 긴 콘텐츠 임베딩 ( Embedding short and long content)콘텐츠를 임베딩 할 때, 콘텐츠의 길이(문장처럼 짧은 것 또는 문단 또는 전체 문서처럼 긴 것)에 따라 다양한 동작을 예상 할 수 있음문장이 임베딩되면 결과 벡터는 문장의 구체적인 의미에 중점을 둠. 이는 다른 문장 임베딩과 비교할 때 자연스럽게 그 수준에서 비교가 이루어진다는 것을 의미. 이는 또한 임베딩이 문잗닝나 문서에서 찾을 수 있는 더 넓은 맥락 정보를 놓칠 수 있음을 의미 전체 문단 또는 문서가 임베딩 되면 임베딩 과정..

Machine Learning/RAG 2025.02.24

정확한 검색을 위한 청킹 전략(Chunking Strategy)

데이터 구조화와 청킹 기술은 RAG의 성능을 결정 짓는 중요한 요소청킹 레벨에 따른 전략적 접근은 AI가 복잡한 질문에 대해 얼마나 정교하게 답변할 수 있는지를 좌우청킹된 데이터를 효과적으로 검색하기 위해서는 인덱싱indexing이 필수 .인덱싱이란 청킹한 데이터를 효율적으로 검색할 수 있도록 데이터베이스에 저장하는 과정 인덱싱된 데이터는 검색 쿼리와의 유사도를 계산해 적절한 데이터를 빠르게 검색하는데 도움을 주고, 복잡한 검색 요청에도 정확하고 신속하게 답변할 수 있는 인프라를 구축할 수 있음Chunking & Indexing정확한 검색을 위한 청킹 전략 Chunking Strategychunk(잘게 나눈 글 조각)가 충분히 많은 정보를 담고 있어야, AI가 질문에 정확히 대답할 수 있음→ 정보의 밀집..

Machine Learning/RAG 2025.02.24

what is Chunking & Indexing ?

1. chunking : 큰 문서를 작은 조각으로 나누기 임베딩을 진행하기 전에 큰 텍스트를 더 작은 단위로 나누는 과정특히 문서가 너무 길어 벡터로 변환하기 어려운 경우, 청킹을 통해 문서의 의미를 보존허면서 작은 조각으로 나누어 처리할 수 있다.ex. 긴 뉴스 기사나 연구 논문을 문단이나 구절 단위로 나누어 각각 벡터화하면 검색과 생성 과정에서 더 효율적이고 정확한 결과를 얻을 수 있다.청킹은 RAG 파이프라인에서 중요한 역할을 한다. 사용자가 검색어를 입력하면, 청킹된 문서들 중에 검색어와 가장 관련성이 높은 조각을 찾아내어 LLM이 적절한 답변을 생성할 수 있도록 돕는다. 이 과정에서 청킹의 크기와 방식은 성능에 큰 영향을 미칠 수 있다.성능개선을 위한 청킹에 천편 일률적인 정답은 없음 → 임베딩..

Machine Learning/RAG 2025.02.24

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

데이터 처리중입니다. 잠시만 기다려 주세요... AI_Developer

Machine Learning/RAG 6

티스토리툴바