RAG 2

[GPT] Stuff LCEL Chain

RetrievalQA 대신 LangChain Expression Language을 이용하여 RAG(Retrieval-Augmented Generation) 검색처리 해당 단계는 데이토 로드. 텍스트 분할, 인텍싱, 검색, 생성 1. 데이터 로드 RAG에 사용할 데이터를 불러오는 단계 외부 데이터 소스에서 정보를 수집하고, 필요한 형식으로 변환하여 시스템에 로드 langchain.document_loaders 모듈에서 UnstructuredFileLoader 클래스를 이용하여 데이터를 호출하고 있음 2. 텍스트 분할(Text Split) 불러온 데이터를 작은 크기의 단위(chunk)로 분할하는 과정 자연어 처리(NLP) 기술을 활용하여 큰 문서를 처리가 쉽도록 문단, 문장 또는 구 단위로 나누는 작업 검색..

python 2024.04.04

[GPT] Data Loaders and Splitters

RAG "Retrieval-Augmented Generation"의 약자로, "검색-증강 생성"이라는 의미 개인으로부터 제공된 data를 사용하거나 탐색함으로써 language Model의 능력을 확장 Retrieval[검색] langchain 모델 소스[여러가지 데이터] => Load =>Transform[변환 및 분할]=>Embed[텍스트의 숫자화] => store[저장]=>Retrieval[검색] 문서를 읽어들이는 방법 1. TextLoader PDF를 읽기위한 PyPDFLoader 등등이 있음 이처럼 각각의 파일마다 다른 class를 호출하다는 대신 UnstructuredFileLoader를 이용하는것이 효율적임 UnstructuredFileLoader 패키지를 사용하여 다양한 유형의 파일을 로드..

python 2024.04.02