PDF 이미지에서 다중 모달(Multimodal) 데이터를 추출하고, 이를 기반으로 깊이 있는 컨설팅 및 인사이트를 도출하는 로컬 에이전트 워크플로우 모음입니다.
- v0.0.1 (Initial Release)
본 레포지토리는 사용자가 캡처한 문서/이미지를 AI가 체계적으로 인식하고 지식화(인덱싱)하여, 곧바로 다각적 분석이나 의사결정을 위한 컨설팅 의견을 제시할 수 있도록 구성된 두 가지 핵심 파이프라인(index-pdf-data, consult)을 제공합니다.
이러한 워크플로우 파일들은 .agent/workflows/ 디렉토리에 위치하여 로컬 환경에서 에이전트(Yoon Ina 등)가 즉각적으로 호출하여 수행할 수 있도록 설계되었습니다.
사용자가 지정 폴더에 저장한 PDF 캡처 이미지들을 순차적으로 읽어들여, 멀티모달 AI(Vision) 분석을 수행하고 그 결과를 JSON 기반 구조화된 데이터 트래커(index.json)로 구성합니다.
- 주요 기능: 생성 시간 순 정렬 및 파일명 규칙화(
img_001.png), 텍스트 추출(OCR), 내용 요약 데이터베이스 생성 등. - 실행 방법: 이미지를 폴더에 저장한 뒤, 에이전트에게 "해당 폴더 경로에 대해
index-pdf-data워크플로우를 실행해"라고 요쳥합니다.
앞선 과정에서 완성된 데이터셋(index.json)을 기반으로, 문서 간의 맥락 정보와 구조화된 데이터를 AI의 메모리에 매핑하여 논리적인 분석과 추가적인 인사이트를 제안받는 워크플로우입니다.
- 주요 기능: 데이터 구조 기반의 컨설팅 파이프라인 가동, 분석 및 대화 내용 Markdown 양식 리포트 자동 저장 및 누적(Append).
- 실행 방법: 에이전트에게 데이터가 있는 폴더를 명시하고 특정 관점에서 컨설팅 질문을 던집니다.
Author: 김태경 교수 (RA: 윤이나)