홈
태그

분류 전체보기 (69)
- DEV (45)
- BOOK (16)
- ESSAY (6)
- ETC (2)

직업으로서의 개발자 직업으로서의 개발자

컨텐츠 검색 블로그 내 검색

multimodal embedding

Multimodal RAG
DEV 2024. 11. 14. 21:02

Multimodal model멀티모달은 일반적으로 텍스트, 이미지, 오디오, 비디오와 같은 두 개 이상의 감각 채널을 포함하는 다양한 통신 또는 정보 처리 모드의 통합GPT4o위 예시와 같이 이미지 + 질문 → LLM → 추론 결과Question위와 같은 서비스를 만든다고 했을 때 드는 질문모든 이미지를 사전 학습 하기는 쉽지 않을 수 있고, 최신의 이미지(신상 운동화)로 질의를 한다면 어떻게 결과를 줄 수 있을까?아디다스 최신 운동화쉐도우터프 SFTM, 출시 예정 이름을 잘 맞춘 것 같지만, 신발에 쓰여있는 S.F.T.M을 인식해 모델명으로 말한 듯. 신발에도 S.F.T.M으로 쓰여있다. CLOT BY 에디슨 첸 가젤, 출시 예정이미지에서 힌트를 찾을 수 없으니 자신이 알고 있는 것 중에 비슷하게 ..

이전

1

다음

인기포스트

728x90

go.

티스토리툴바