안녕하세요, 여러분! 오늘은 IT 전문가, 그 중에서도 AI와 ChatGPT, 그리고 프롬프트에 대한 내용을 주로 다루고 있는 저의 블로그에 오신 것을 환영합니다. 이번 글에서는 멀티모달 대형 언어 모델에 대한 흥미로운 내용을 다룰 예정입니다. 흥미진진한 AI 세계를 함께 여행해 볼까요?
멀티모달 란?
챗봇, 기계 번역, 음성 인식 등 AI의 여러 분야에서 '모달'이란 단어를 많이 들어보셨을 것입니다. '멀티모달'은 여러 가지 모드 또는 형태의 데이터를 처리할 수 있는 AI를 의미합니다. 쉽게 말해, 텍스트, 이미지, 음성 등 다양한 형태의 데이터를 동시에 처리하는 AI 기술이 바로 '멀티모달'입니다.
대형 언어 모델이란?
언어 모델이란, 주어진 단어 또는 문장의 시퀀스에 대해 가장 가능성이 높은 다음 단어 또는 문장을 예측하는 AI 알고리즘입니다. '대형' 언어 모델이란, 그런 언어 모델 중에서 규모가 크거나, 훈련 데이터가 많은 모델을 가리킵니다. 대형 언어 모델의 예로는 OpenAI의 GPT-3, GPT-4 등이 있습니다.
멀티모달 대형 언어 모델의 중요성
멀티모달 대형 언어 모델은 다양한 형태의 데이터를 동시에 처리할 수 있는 능력 덕분에 AI 응용 분야에서 매우 중요한 역할을 합니다. 텍스트만 처리할 수 있는 기존의 AI 기술과 비교하면, 멀티모달 AI는 이미지, 음성 등의 다양한 데이터를 함께 활용해 보다 풍부하고 다양한 결과를 도출할 수 있습니다.
예를 들어, 이미지와 관련된 텍스트 정보를 동시에 이해하고 처리할 수 있는 AI는, 인공지능이 이미지를 '이해'하거나, 이미지에 대한 설명을 생성하는 등의 고차원적인 작업을 수행할 수 있게 합니다.
이렇게 멀티모달 대형 언어 모델은 향후 AI의 발전과 진화에 있어서 핵심 역할을 수행할 것으로 전망됩니다.
최고의 멀티모달 대형 언어 모델 리소스
멀티모달 지시 튜닝
멀티모달 인컨텍스트 학습
제목 | 발표지 | 날짜 | 코드 | 데모 |
---|---|---|---|---|
MIMIC-IT: 다중모달 인컨텍스트 지시 튜닝 | arXiv | 2023-06-08 | Github | 데모 |
Chameleon: 대규모 언어 모델을 활용한 플러그 앤 플레이 구성적 추론 | arXiv | 2023-04-19 | Github | 데모 |
HuggingGPT: HuggingFace의 ChatGPT 및 그 친구들로 AI 작업 해결하기 | arXiv | 2023-03-30 | Github | 데모 |
MM-REACT: 멀티모달 추론과 액션을 위한 ChatGPT 프롬프트 | arXiv | 2023-03-20 | Github | 데모 |
지식 기반 비전 질의응답을 위한 대답 휴리스틱을 활용한 대규모 언어 모델 프롬프트 | CVPR | 2023-03-03 | Github | - |
비교적 훈련이 필요없는 구성적 비전 추론을 위한 비주얼 프로그래밍 | CVPR | 2022-11-18 | Github | 로컬 데모 |
Few-Shot 지식 기반 비전 질의응답을 위한 GPT-3의 경험적 연구 | AAAI | 2022-06-28 | Github | - |
퓨-샷 학습을 위한 비전 언어 모델 Flamingo | NeurIPS | 2022-04-29 | Github | 데모 |
Frozen 언어 모델로 멀티모달 퓨-샷 학습 | NeurIPS | 2021-06-25 | - | - |
멀티모달 체인 오브 생각
제목 | 발표지 | 날짜 | 코드 | 데모 |
---|---|---|---|---|
EmbodiedGPT: 시각-언어 사슬로 사고하는 것을 통한 비전-언어 사전 훈련 | arXiv | 2023-05-24 | Github | - |
프레임별로 생각해 보자: 비디오 인필링과 예측으로 비디오 체인 오브 생각 평가하기 | arXiv | 2023-05-23 | - | - |
Caption Anything: 다양한 멀티모달 컨트롤을 통한 대화형 이미지 설명 | arXiv | 2023-05-04 | Github | 데모 |
비주얼 체인 오브 생각: 멀티모달 인필링을 통해 논리적 간극을 극복 | arXiv | 2023-05-03 | Coming soon | - |
Chameleon: 대규모 언어 모델을 활용한 플러그 앤 플레이 구성적 추론 | arXiv | 2023-04-19 | Github | 데모 |
비전 언어 모델에서 체인 오브 생각 프롬프트 튜닝 | arXiv | 2023-04-16 | Coming soon | - |
MM-REACT: 멀티모달 추론과 액션을 위한 ChatGPT 프롬프트 | arXiv | 2023-03-20 | Github | 데모 |
Visual ChatGPT: 시각적 기반 모델로 대화하기, 그리기, 편집하기 | arXiv | 2023-03-08 | Github | 데모 |
언어 모델에서 멀티모달 체인 오브 생각 추론 | arXiv | 2023-02-02 | Github | - |
비주얼 프로그래밍: 훈련 없는 구성적 비주얼 추론 | CVPR | 2022-11-18 | Github | 로컬 데모 |
배우는 설명: 과학 질문 응답을 위한 체인 오브 생각을 통한 멀티모달 추론 | NeurIPS | 2022-09-20 | Github | - |
LLM을 이용한 시각 추론
Foundation Models
Title | Venue | Date | Code | Demo |
---|---|---|---|---|
Transfer Visual Prompt Generator across LLMs | arXiv | 2023-05-02 | Github | 데모 |
GPT-4 기술 보고서 | arXiv | 2023-03-15 | - | - |
PaLM-E: 신체를 갖춘 멀티모달 언어 모델 | arXiv | 2023-03-06 | - | 데모 |
Prismer: 전문가 앙상블을 활용한 시각-언어 모델 | arXiv | 2023-03-04 | Github | 데모 |
언어만으로는 충분하지 않다: 언어 모델과 인지를 조정하기 | arXiv | 2023-02-27 | Github | - |
BLIP-2: 얼어있는 이미지 인코더와 큰 언어 모델로부터의 언어-이미지 사전훈련 | arXiv | 2023-01-30 | Github | 데모 |
VIMA: 다모달 프롬프트를 통한 일반적인 로봇 조작 | ICML | 2022-10-06 | Github | 로컬 데모 |
MineDojo: 인터넷 규모의 지식으로 오픈엔드 엠보디드 에이전트 구축 | NeurIPS | 2022-06-17 | Github | - |
기타
Title | Venue | Date | Code | Demo |
---|---|---|---|---|
대형 사전 훈련 모델이 인식 작업에서 시각 모델에 도움이 될까요? | arXiv | 2023-06-01 | Coming soon | - |
다모달 대형 언어 모델을 활용한 문맥적 객체 검출 | arXiv | 2023-05-29 | Github | 데모 |
다모달 언어 모델을 활용한 이미지 생성 | arXiv | 2023-05-26 | Github | - |
대형 시각-언어 모델의 적대적 내성 평가 | arXiv | 2023-05-26 | Github | - |
대형 시각-언어 모델에서 객체 환상 평가 | arXiv | 2023-05-17 | Github | - |
다모달 입력과 출력을 위한 언어 모델의 이미지 기반 그라운딩 | ICML | 2023-01-31 | Github | 데모 |
최고의 멀티모달 대형 언어 데이터셋
Pre-Training을 위한 데이터셋
문맥 학습 데이터셋
이름 | 논문 | 링크 | 비고 |
---|---|---|---|
MIMIC-IT | MIMIC-IT: 멀티모달 문맥 학습을 위한 인스트럭션 튜닝 | Coming soon | 멀티모달 문맥 학습 데이터셋 |
멀티모달 Chain-of-Thought 데이터셋
이름 | 논문 | 링크 | 비고 |
---|---|---|---|
EgoCOT | EmbodiedGPT: 시각-언어 사전 훈련을 통한 몸에 기반한 Chain of Thought | Coming soon | 대규모 몸에 기반한 계획 데이터셋 |
VIP | Frame 단위로 생각해 봅시다: VideoCOT 평가를 위한 Video Infilling과 Prediction | Coming soon | 추론 시 평가하기 위해 사용할 수 있는 데이터셋 |
ScienceQA | 설명을 배우자: 다양한 도메인과 멀티모달 과학 질문에 대한 Thought Chains를 통한 추론 | 링크 | 다양한 도메인과 멀티모달 과학 질문을 포함한 대규모 다중 선택 데이터셋 |
결론
마지막으로, 멀티모달 대형 언어 모델에 대한 학습 자료나 레퍼런스를 찾고 계신다면, 저희는 "Awesome Multimodal Large Language Models"라는 깃허브 저장소를 추천드립니다. 이 저장소에는 이 분야의 연구 논문, 튜토리얼, 도구 등 다양한 리소스가 모아져 있습니다.\
마치며, AI는 계속 발전하고 있으며, 우리 일상 생활에 점점 더 깊게 관여하고 있습니다. 이런 멀티모달 대형 언어 모델이라는 흥미로운 주제에 대해 알게 되셨다면, 앞으로 이 분야에 더 깊이 관심을 갖게 되셨기를 바랍니다. 다음 글에서 또 만나요!
'[AI] 프롬프트, Tools' 카테고리의 다른 글
학생들을 위한 13가지 뛰어난 AI 도구들 (ChatGPT 제외) (1) | 2023.06.12 |
---|---|
ChatGPT를 효과적으로 활용하기 위한 최상의 프롬프트 3가지 소스: Prompt.chat, ChatGPT Prompt Genius, FlowGPT (0) | 2023.06.10 |
2023년 이후 가장 핫한 AI 도구 20선: 비즈니스 효율성 향상을 위한 필수 도구들 (0) | 2023.06.09 |
"Rewrite"보다 나은 31가지 AI 프롬프트 (0) | 2023.06.08 |
댓글