인공지능 최신 연구 동향: 대용량 언어-비전 모델을 위한 다중 모달 인스트럭션 튜닝

안녕하세요, 여러분! 오늘은 IT 전문가, 그 중에서도 AI와 ChatGPT, 그리고 프롬프트에 대한 내용을 주로 다루고 있는 저의 블로그에 오신 것을 환영합니다. 이번 글에서는 멀티모달 대형 언어 모델에 대한 흥미로운 내용을 다룰 예정입니다. 흥미진진한 AI 세계를 함께 여행해 볼까요?

멀티모달 란?

챗봇, 기계 번역, 음성 인식 등 AI의 여러 분야에서 '모달'이란 단어를 많이 들어보셨을 것입니다. '멀티모달'은 여러 가지 모드 또는 형태의 데이터를 처리할 수 있는 AI를 의미합니다. 쉽게 말해, 텍스트, 이미지, 음성 등 다양한 형태의 데이터를 동시에 처리하는 AI 기술이 바로 '멀티모달'입니다.

대형 언어 모델이란?

언어 모델이란, 주어진 단어 또는 문장의 시퀀스에 대해 가장 가능성이 높은 다음 단어 또는 문장을 예측하는 AI 알고리즘입니다. '대형' 언어 모델이란, 그런 언어 모델 중에서 규모가 크거나, 훈련 데이터가 많은 모델을 가리킵니다. 대형 언어 모델의 예로는 OpenAI의 GPT-3, GPT-4 등이 있습니다.

멀티모달 대형 언어 모델의 중요성

멀티모달 대형 언어 모델은 다양한 형태의 데이터를 동시에 처리할 수 있는 능력 덕분에 AI 응용 분야에서 매우 중요한 역할을 합니다. 텍스트만 처리할 수 있는 기존의 AI 기술과 비교하면, 멀티모달 AI는 이미지, 음성 등의 다양한 데이터를 함께 활용해 보다 풍부하고 다양한 결과를 도출할 수 있습니다.

예를 들어, 이미지와 관련된 텍스트 정보를 동시에 이해하고 처리할 수 있는 AI는, 인공지능이 이미지를 '이해'하거나, 이미지에 대한 설명을 생성하는 등의 고차원적인 작업을 수행할 수 있게 합니다.

이렇게 멀티모달 대형 언어 모델은 향후 AI의 발전과 진화에 있어서 핵심 역할을 수행할 것으로 전망됩니다.

최고의 멀티모달 대형 언어 모델 리소스

멀티모달 지시 튜닝

제목	발표지	날짜	코드	데모
Video-ChatGPT: 큰 비전 및 언어 모델을 통한 세부적인 비디오 이해	arXiv	2023-06-08	Github	데모
MIMIC-IT: 다중모달 문맥 안에서의 지시 튜닝	arXiv	2023-06-08	Github	데모
M3IT: 다중모달 다국어 지시 튜닝을 위한 대규모 데이터셋	arXiv	2023-06-07	-	-
Video-LLaMA: 비디오 이해를 위한 지시에 맞춘 오디오-비전 언어 모델	arXiv	2023-06-05	Github	데모
LLaVA-Med: 의학을 위한 대규모 언어-비전 보조 모델을 단 하루만에 훈련하기	arXiv	2023-06-01	Github	-
GPT4Tools: 자기 교육을 통해 큰 언어 모델에게 도구 사용을 가르치기	arXiv	2023-05-30	Github	데모
PandaGPT: 모두를 위한 지시 따르기	arXiv	2023-05-25	Github	데모
ChatBridge: 언어 모델을 언어 촉매로 활용하여 모달리티 연결하기	arXiv	2023-05-25	Github	-
Cheap and Quick: 큰 언어 모델을 위한 효율적인 비전-언어 지시 튜닝	arXiv	2023-05-24	Github	로컬 데모
DetGPT: 추론을 통해 필요한 것을 감지하기	arXiv	2023-05-23	Github	데모
VisionLLM: 큰 언어 모델은 비전 중심 작업에 대한 개방형 디코더이기도 하다	arXiv	2023-05-18	Github	데모
Listen, Think, and Understand	arXiv	2023-05-18	Github	데모
VisualGLM-6B	-	2023-05-17	Github	로컬 데모
PMC-VQA: 의료 비전 질의응답을 위한 비전 지시 튜닝	arXiv	2023-05-17	Github	-
InstructBLIP: 지시 튜닝으로 일반화 가능한 비전-언어 모델	arXiv	2023-05-11	Github	로컬 데모
VideoChat: 채팅 중심의 비디오 이해	arXiv	2023-05-10	Github	데모
MultiModal-GPT: 대화를 위한 비전과 언어 모델	arXiv	2023-05-08	Github	데모
X-LLM: 다중 모달을 외국어로 다루며 고급 언어 모델 부트스트래핑	arXiv	2023-05-07	Github	-
LLaMA-Adapter V2: 파라미터 효율적인 비전 지시 모델	arXiv	2023-04-28	Github	데모
mPLUG-Owl: 모듈화가 다중모달 대규모 언어 모델에 멀티모달리티를 제공하는 도구	arXiv	2023-04-27	Github	데모
MiniGPT-4: 고급 언어 모델을 통한 비전-언어 이해 향상	arXiv	2023-04-20	Github	-
비전 지시 튜닝	arXiv	2023-04-17	GitHub	데모
LLaMA-Adapter: 제로 초기화 어텐션을 이용한 언어 모델의 효율적인 파인튜닝	arXiv	2023-03-28	Github	데모
MultiInstruct: 지시 튜닝을 통한 멀티모달 제로샷 학습 개선	ACL	2022-12-21	Github	-

멀티모달 인컨텍스트 학습

제목	발표지	날짜	코드	데모
MIMIC-IT: 다중모달 인컨텍스트 지시 튜닝	arXiv	2023-06-08	Github	데모
Chameleon: 대규모 언어 모델을 활용한 플러그 앤 플레이 구성적 추론	arXiv	2023-04-19	Github	데모
HuggingGPT: HuggingFace의 ChatGPT 및 그 친구들로 AI 작업 해결하기	arXiv	2023-03-30	Github	데모
MM-REACT: 멀티모달 추론과 액션을 위한 ChatGPT 프롬프트	arXiv	2023-03-20	Github	데모
지식 기반 비전 질의응답을 위한 대답 휴리스틱을 활용한 대규모 언어 모델 프롬프트	CVPR	2023-03-03	Github	-
비교적 훈련이 필요없는 구성적 비전 추론을 위한 비주얼 프로그래밍	CVPR	2022-11-18	Github	로컬 데모
Few-Shot 지식 기반 비전 질의응답을 위한 GPT-3의 경험적 연구	AAAI	2022-06-28	Github	-
퓨-샷 학습을 위한 비전 언어 모델 Flamingo	NeurIPS	2022-04-29	Github	데모
Frozen 언어 모델로 멀티모달 퓨-샷 학습	NeurIPS	2021-06-25	-	-

멀티모달 체인 오브 생각

제목	발표지	날짜	코드	데모
EmbodiedGPT: 시각-언어 사슬로 사고하는 것을 통한 비전-언어 사전 훈련	arXiv	2023-05-24	Github	-
프레임별로 생각해 보자: 비디오 인필링과 예측으로 비디오 체인 오브 생각 평가하기	arXiv	2023-05-23	-	-
Caption Anything: 다양한 멀티모달 컨트롤을 통한 대화형 이미지 설명	arXiv	2023-05-04	Github	데모
비주얼 체인 오브 생각: 멀티모달 인필링을 통해 논리적 간극을 극복	arXiv	2023-05-03	Coming soon	-
Chameleon: 대규모 언어 모델을 활용한 플러그 앤 플레이 구성적 추론	arXiv	2023-04-19	Github	데모
비전 언어 모델에서 체인 오브 생각 프롬프트 튜닝	arXiv	2023-04-16	Coming soon	-
MM-REACT: 멀티모달 추론과 액션을 위한 ChatGPT 프롬프트	arXiv	2023-03-20	Github	데모
Visual ChatGPT: 시각적 기반 모델로 대화하기, 그리기, 편집하기	arXiv	2023-03-08	Github	데모
언어 모델에서 멀티모달 체인 오브 생각 추론	arXiv	2023-02-02	Github	-
비주얼 프로그래밍: 훈련 없는 구성적 비주얼 추론	CVPR	2022-11-18	Github	로컬 데모
배우는 설명: 과학 질문 응답을 위한 체인 오브 생각을 통한 멀티모달 추론	NeurIPS	2022-09-20	Github	-

LLM을 이용한 시각 추론

제목	발표지	날짜	코드	데모
GPT4Tools: 자기 학습을 통한 대형 언어 모델에게 도구 사용 가르치기	arXiv	2023-05-30	Github	데모
LayoutGPT: 대형 언어 모델을 활용한 구성적 시각 계획과 생성	arXiv	2023-05-24	Github	-
IdealGPT: 대형 언어 모델을 통한 반복적인 시각과 언어 추론 분해	arXiv	2023-05-24	Github	로컬 데모
Caption Anything: 다양한 멀티모달 컨트롤을 통한 대화형 이미지 설명	arXiv	2023-05-04	Github	데모
Chameleon: 대규모 언어 모델을 활용한 플러그 앤 플레이 구성적 추론	arXiv	2023-04-19	Github	데모
HuggingGPT: ChatGPT와 그의 HuggingFace 친구들을 이용한 AI 작업 해결	arXiv	2023-03-30	Github	데모
MM-REACT: 멀티모달 추론과 액션을 위한 ChatGPT 프롬프트	arXiv	2023-03-20	Github	데모
ViperGPT: 추론을 위한 파이썬 실행을 통한 시각적 추론	arXiv	2023-03-14	Github	로컬 데모
ChatGPT Asks, BLIP-2 Answers: 풍부한 시각적 설명을 위한 자동 질문 생성	arXiv	2023-03-12	Github	로컬 데모
Visual ChatGPT: 시각적 기반 모델로 대화하기, 그리기, 편집하기	arXiv	2023-03-08	Github	데모
Prompt, Generate, then Cache: 강력한 퓨 샷 학습자를 만들기 위한 Foundation Model의 연속적인 적용	CVPR	2023-03-03	Github	-
PointCLIP V2: 강력한 3D 오픈 월드 학습을 위한 CLIP의 적응	CVPR	2022-11-21	Github	-
Visual Programming: 훈련 없는 구성적 시각 추론	CVPR	2022-11-18	Github	로컬 데모
Socratic Models: 언어를 통한 제로샷 멀티모달 추론 구성	arXiv	2022-04-01	Github	-

Foundation Models

Title	Venue	Date	Code	Demo
Transfer Visual Prompt Generator across LLMs	arXiv	2023-05-02	Github	데모
GPT-4 기술 보고서	arXiv	2023-03-15	-	-
PaLM-E: 신체를 갖춘 멀티모달 언어 모델	arXiv	2023-03-06	-	데모
Prismer: 전문가 앙상블을 활용한 시각-언어 모델	arXiv	2023-03-04	Github	데모
언어만으로는 충분하지 않다: 언어 모델과 인지를 조정하기	arXiv	2023-02-27	Github	-
BLIP-2: 얼어있는 이미지 인코더와 큰 언어 모델로부터의 언어-이미지 사전훈련	arXiv	2023-01-30	Github	데모
VIMA: 다모달 프롬프트를 통한 일반적인 로봇 조작	ICML	2022-10-06	Github	로컬 데모
MineDojo: 인터넷 규모의 지식으로 오픈엔드 엠보디드 에이전트 구축	NeurIPS	2022-06-17	Github	-

기타

Title	Venue	Date	Code	Demo
대형 사전 훈련 모델이 인식 작업에서 시각 모델에 도움이 될까요?	arXiv	2023-06-01	Coming soon	-
다모달 대형 언어 모델을 활용한 문맥적 객체 검출	arXiv	2023-05-29	Github	데모
다모달 언어 모델을 활용한 이미지 생성	arXiv	2023-05-26	Github	-
대형 시각-언어 모델의 적대적 내성 평가	arXiv	2023-05-26	Github	-
대형 시각-언어 모델에서 객체 환상 평가	arXiv	2023-05-17	Github	-
다모달 입력과 출력을 위한 언어 모델의 이미지 기반 그라운딩	ICML	2023-01-31	Github	데모

최고의 멀티모달 대형 언어 데이터셋

Pre-Training을 위한 데이터셋

Name	Paper	Type	Modalities
MS-COCO	Microsoft COCO: Context에서의 일반적인 객체	캡션	이미지-텍스트
SBU Captions	Im2Text: 100만 캡션화된 사진을 사용한 이미지 설명	캡션	이미지-텍스트
Conceptual Captions	개념 캡션: 자동 이미지 캡션을 위한 청소, 상위어 처리된 이미지 대체 텍스트 데이터셋	캡션	이미지-텍스트
LAION-400M	LAION-400M: CLIP로 걸러진 4억 개의 이미지-텍스트 쌍 오픈 데이터셋	캡션	이미지-텍스트
VG Captions	Visual Genome: 크라우드소싱된 밀집한 이미지 어노테이션을 사용한 언어와 비전의 연결	캡션	이미지-텍스트
Flickr30k	Flickr30k Entities: 더 풍부한 이미지-문장 모델을 위한 영역 대 구 사상 대응 수집	캡션	이미지-텍스트
AI-Caps	AI Challenger: 이미지 이해를 더 깊게 연구하기 위한 대규모 데이터셋	캡션	이미지-텍스트
Wukong Captions	Wukong: 1억 개의 대규모 중국어 크로스모달 프리트레이닝 벤치마크	캡션	이미지-텍스트
Youku-mPLUG	Youku-mPLUG: 프리트레이닝과 벤치마크를 위한 1천만 개의 대규모 중국어 비디오-언어 데이터셋	캡션	비디오-텍스트
MSR-VTT	MSR-VTT: 비디오와 언어를 연결하는 대규모 비디오 설명 데이터셋	캡션	비디오-텍스트
Webvid10M	Frozen in Time: 엔드 투 엔드 검색을 위한 공동 비디오 및 이미지 인코더	캡션	비디오-텍스트
WavCaps	WavCaps: ChatGPT 보조로 약하게 레이블된 오디오 캡션 데이터셋	캡션	오디오-텍스트
AISHELL-1	AISHELL-1: 오픈 소스 중국어 음성 말뭉치와 음성 인식 기준선	ASR	오디오-텍스트
AISHELL-2	AISHELL-2: 중국어 음성 인식 연구를 산업 규모로 전환	ASR	오디오-텍스트
VSDial-CN	X-LLM: 다중 모달을 외국어로 취급하여 고급 대형 언어 모델 부트스트래핑	ASR	이미지-오디오-텍스트

문맥 학습 데이터셋

이름	논문	링크	비고
MIMIC-IT	MIMIC-IT: 멀티모달 문맥 학습을 위한 인스트럭션 튜닝	Coming soon	멀티모달 문맥 학습 데이터셋

멀티모달 Chain-of-Thought 데이터셋

이름	논문	링크	비고
EgoCOT	EmbodiedGPT: 시각-언어 사전 훈련을 통한 몸에 기반한 Chain of Thought	Coming soon	대규모 몸에 기반한 계획 데이터셋
VIP	Frame 단위로 생각해 봅시다: VideoCOT 평가를 위한 Video Infilling과 Prediction	Coming soon	추론 시 평가하기 위해 사용할 수 있는 데이터셋
ScienceQA	설명을 배우자: 다양한 도메인과 멀티모달 과학 질문에 대한 Thought Chains를 통한 추론	링크	다양한 도메인과 멀티모달 과학 질문을 포함한 대규모 다중 선택 데이터셋

결론

마지막으로, 멀티모달 대형 언어 모델에 대한 학습 자료나 레퍼런스를 찾고 계신다면, 저희는 "Awesome Multimodal Large Language Models"라는 깃허브 저장소를 추천드립니다. 이 저장소에는 이 분야의 연구 논문, 튜토리얼, 도구 등 다양한 리소스가 모아져 있습니다.\

마치며, AI는 계속 발전하고 있으며, 우리 일상 생활에 점점 더 깊게 관여하고 있습니다. 이런 멀티모달 대형 언어 모델이라는 흥미로운 주제에 대해 알게 되셨다면, 앞으로 이 분야에 더 깊이 관심을 갖게 되셨기를 바랍니다. 다음 글에서 또 만나요!

728x90

저작자표시 비영리 변경금지 (새창열림)

'[AI] 프롬프트, Tools' 카테고리의 다른 글

학생들을 위한 13가지 뛰어난 AI 도구들 (ChatGPT 제외) (1)	2023.06.12
ChatGPT를 효과적으로 활용하기 위한 최상의 프롬프트 3가지 소스: Prompt.chat, ChatGPT Prompt Genius, FlowGPT (0)	2023.06.10
2023년 이후 가장 핫한 AI 도구 20선: 비즈니스 효율성 향상을 위한 필수 도구들 (0)	2023.06.09
"Rewrite"보다 나은 31가지 AI 프롬프트 (0)	2023.06.08

인공지능 최신 연구 동향: 대용량 언어-비전 모델을 위한 다중 모달 인스트럭션 튜닝

멀티모달 란?

대형 언어 모델이란?

멀티모달 대형 언어 모델의 중요성

최고의 멀티모달 대형 언어 모델 리소스

멀티모달 지시 튜닝

멀티모달 인컨텍스트 학습

멀티모달 체인 오브 생각

LLM을 이용한 시각 추론

Foundation Models

기타

최고의 멀티모달 대형 언어 데이터셋

Pre-Training을 위한 데이터셋

문맥 학습 데이터셋

멀티모달 Chain-of-Thought 데이터셋

결론

'[AI] 프롬프트, Tools' 카테고리의 다른 글

댓글

티스토리툴바

인공지능 최신 연구 동향: 대용량 언어-비전 모델을 위한 다중 모달 인스트럭션 튜닝

멀티모달 란?

대형 언어 모델이란?

멀티모달 대형 언어 모델의 중요성

최고의 멀티모달 대형 언어 모델 리소스

멀티모달 지시 튜닝

멀티모달 인컨텍스트 학습

멀티모달 체인 오브 생각

LLM을 이용한 시각 추론

Foundation Models

기타

최고의 멀티모달 대형 언어 데이터셋

Pre-Training을 위한 데이터셋

문맥 학습 데이터셋

멀티모달 Chain-of-Thought 데이터셋

결론

'[AI] 프롬프트, Tools' 카테고리의 다른 글

관련글

댓글

티스토리툴바