본문 바로가기

서비스 제작

(13)
[MDQA]1.3 자른 텍스트를 특정 크기의 벡터로 임베딩(embedder 모듈) MDQA를 위해 “유저가 입력한 웹 페이지 또는 파일을 데이터 베이스에 저장”하는 과정에 대해 다루고 있다. [MDQA]1. 웹 페이지 또는 파일을 데이터 베이스에 저장하기 에서 설명한 것처럼 그 전체 과정은 아래와 같다. 유저가 웹 페이지의 URL을 입력 또는 PDF 파일을 업로드 웹 페이지는 크롤링, PDF는 파일을 읽어서 텍스트 데이터를 가져옴(Loader 모듈) 텍스트 데이터를 chunk로 자른다.(chunker 모듈) 자른 텍스트를 특정 크기의 벡터로 임베딩한다. (embedder 모듈) chunk의 중요한 순서를 기록한다. (Text ranker 모듈, 이 부분은 필수적이지 않다.) 이렇게 처리한 데이터들을 데이터베이스에 저장한다. 이번 포스팅에서는 4번 과정인 “자른 텍스트를 특정 크기의 벡..
[MDQA]1.2 텍스트 데이터를 chunk로 자르기(chunker 모듈) MDQA를 위해 “유저가 입력한 웹 페이지 또는 파일을 데이터 베이스에 저장”하는 과정에 대해 다루고 있다. [MDQA]1. 웹 페이지 또는 파일을 데이터 베이스에 저장하기 에서 설명한 것처럼 그 전체 과정은 아래와 같다. 유저가 웹 페이지의 URL을 입력 또는 PDF 파일을 업로드 웹 페이지는 크롤링, PDF는 파일을 읽어서 텍스트 데이터를 가져옴(Loader 모듈) 텍스트 데이터를 chunk로 자른다.(chunker 모듈) 자른 텍스트를 특정 크기의 벡터로 임베딩한다. (embedder 모듈) chunk를 중요한 순서대로 정렬한 데이터도 저장한다. (Text ranker 모듈, 이 부분은 필수적이지 않다.) 이렇게 처리한 데이터들을 데이터베이스에 저장한다. 이번 포스팅에서는 3번 과정인 “텍스트 데이..
[MDQA]1.1 웹 페이지는 크롤링, PDF는 파일을 읽어서 텍스트 데이터를 가져오기(Loader 모듈) MDQA를 위해 “유저가 입력한 웹 페이지 또는 파일을 데이터 베이스에 저장”하는 과정에 대해 다루고 있다. [MDQA]1. 웹 페이지 또는 파일을 데이터 베이스에 저장하기 에서 설명한 것처럼 그 과정은 아래와 같다. 유저가 웹 페이지의 URL을 입력 또는 PDF 파일을 업로드 웹 페이지는 크롤링, PDF는 파일을 읽어서 텍스트 데이터를 가져옴(Loader 모듈) 텍스트 데이터를 적절한 크기의 chunk로 자른다.(chunker 모듈) 자른 텍스트를 특정 크기의 벡터로 임베딩한다. (embedder 모듈) chunk를 중요한 순서대로 정렬한 데이터도 저장한다. (Text ranker 모듈, 이 부분은 필수적이지 않다.) 이렇게 처리한 데이터들을 데이터베이스에 저장한다. 이번 포스팅에서는 2번 과정인 “웹..
[MDQA]1. 웹 페이지 또는 파일을 데이터 베이스에 저장하기 MDQA 제작기 시작 페이지에서 말한 것처럼 MDQA에서의 큰 파이프라인은 아래와 같다. 유저가 입력한 웹 페이지 또는 파일을 데이터 베이스에 저장 유저의 질문 입력 질문과 연관된 내용을 데이터베이스에서 검색하기(Retrieval) 검색한 정보를 이용해 답변을 작성하기(Generation) 앞으로의 몇 개의 포스팅에서는 “웹 페이지 또는 파일을 데이터 베이스에 저장하기” 과정을 다룰 것이다. 그에 앞서서 이 과정에 대한 세부 파이프라인을 살펴보자. 파이프라인 “웹 페이지 또는 파일을 데이터 베이스에 저장하기”을 위해서 어떤 과정을 거쳐야하는지 생각해보자. 저자 스타트업에서의 MVP에서 파일 입력은 PDF만 가능하기 때문에 여기서 파일은 PDF 파일을 의미한다. 유저가 웹 페이지의 URL을 입력 또는 PD..
MDQA(Multi document question answering) 제작기 내가 창업한 스타트업에서 제작한 MVP에서 하나의 기능이 MDQA(다중 문서 질의응답 시스템)이다. MDQA는 사전에 유저가 여러 문서를 입력한 상황에서 질문을 하면 관련 정보를 문서에서 찾고, 찾은 정보를 이용해 답변하는 것 이다. MDQA 문제를 풀기위한 순서는 크게 아래와 같이 나눌 수 있다. 유저가 입력한 웹 페이지 또는 파일을 데이터 베이스에 저장 유저의 질문 입력 질문과 연관된 내용을 데이터베이스에서 검색하기(Retrieval) 검색한 정보를 이용해 답변을 작성하기(Generation) 몇 개의 포스팅을 통해서 MDQA 모듈을 제작하는 과정에 대해 설명해보려고 한다. 포스팅 주소는 아래와 같다.