본문 바로가기
  • "Backtest, backtest, backtest." - Martin Schwartz
[AI] 프롬프트, Tools

인공지능 최신 연구 동향: 대용량 언어-비전 모델을 위한 다중 모달 인스트럭션 튜닝

by Eirene 2023. 6. 12.
반응형

멀티모달 대형 언어 모델을 위한 훌륭한 저장소!

안녕하세요, 여러분! 오늘은 IT 전문가, 그 중에서도 AI와 ChatGPT, 그리고 프롬프트에 대한 내용을 주로 다루고 있는 저의 블로그에 오신 것을 환영합니다. 이번 글에서는 멀티모달 대형 언어 모델에 대한 흥미로운 내용을 다룰 예정입니다. 흥미진진한 AI 세계를 함께 여행해 볼까요?

멀티모달 란?

챗봇, 기계 번역, 음성 인식 등 AI의 여러 분야에서 '모달'이란 단어를 많이 들어보셨을 것입니다. '멀티모달'은 여러 가지 모드 또는 형태의 데이터를 처리할 수 있는 AI를 의미합니다. 쉽게 말해, 텍스트, 이미지, 음성 등 다양한 형태의 데이터를 동시에 처리하는 AI 기술이 바로 '멀티모달'입니다.

대형 언어 모델이란?

언어 모델이란, 주어진 단어 또는 문장의 시퀀스에 대해 가장 가능성이 높은 다음 단어 또는 문장을 예측하는 AI 알고리즘입니다. '대형' 언어 모델이란, 그런 언어 모델 중에서 규모가 크거나, 훈련 데이터가 많은 모델을 가리킵니다. 대형 언어 모델의 예로는 OpenAI의 GPT-3, GPT-4 등이 있습니다.

멀티모달 대형 언어 모델의 중요성

멀티모달 대형 언어 모델은 다양한 형태의 데이터를 동시에 처리할 수 있는 능력 덕분에 AI 응용 분야에서 매우 중요한 역할을 합니다. 텍스트만 처리할 수 있는 기존의 AI 기술과 비교하면, 멀티모달 AI는 이미지, 음성 등의 다양한 데이터를 함께 활용해 보다 풍부하고 다양한 결과를 도출할 수 있습니다.

예를 들어, 이미지와 관련된 텍스트 정보를 동시에 이해하고 처리할 수 있는 AI는, 인공지능이 이미지를 '이해'하거나, 이미지에 대한 설명을 생성하는 등의 고차원적인 작업을 수행할 수 있게 합니다.

이렇게 멀티모달 대형 언어 모델은 향후 AI의 발전과 진화에 있어서 핵심 역할을 수행할 것으로 전망됩니다.

최고의 멀티모달 대형 언어 모델 리소스

멀티모달 지시 튜닝

제목 발표지 날짜 코드 데모
Star Video-ChatGPT: 큰 비전 및 언어 모델을 통한 세부적인 비디오 이해 arXiv 2023-06-08 Github 데모
Star MIMIC-IT: 다중모달 문맥 안에서의 지시 튜닝 arXiv 2023-06-08 Github 데모
M3IT: 다중모달 다국어 지시 튜닝을 위한 대규모 데이터셋 arXiv 2023-06-07 - -
Star Video-LLaMA: 비디오 이해를 위한 지시에 맞춘 오디오-비전 언어 모델 arXiv 2023-06-05 Github 데모
Star LLaVA-Med: 의학을 위한 대규모 언어-비전 보조 모델을 단 하루만에 훈련하기 arXiv 2023-06-01 Github -
Star GPT4Tools: 자기 교육을 통해 큰 언어 모델에게 도구 사용을 가르치기 arXiv 2023-05-30 Github 데모
Star PandaGPT: 모두를 위한 지시 따르기 arXiv 2023-05-25 Github 데모
Star ChatBridge: 언어 모델을 언어 촉매로 활용하여 모달리티 연결하기 arXiv 2023-05-25 Github -
Star Cheap and Quick: 큰 언어 모델을 위한 효율적인 비전-언어 지시 튜닝 arXiv 2023-05-24 Github 로컬 데모
Star DetGPT: 추론을 통해 필요한 것을 감지하기 arXiv 2023-05-23 Github 데모
Star VisionLLM: 큰 언어 모델은 비전 중심 작업에 대한 개방형 디코더이기도 하다 arXiv 2023-05-18 Github 데모
Star Listen, Think, and Understand arXiv 2023-05-18 Github 데모
Star VisualGLM-6B - 2023-05-17 Github 로컬 데모
Star PMC-VQA: 의료 비전 질의응답을 위한 비전 지시 튜닝 arXiv 2023-05-17 Github -
Star InstructBLIP: 지시 튜닝으로 일반화 가능한 비전-언어 모델 arXiv 2023-05-11 Github 로컬 데모
Star VideoChat: 채팅 중심의 비디오 이해 arXiv 2023-05-10 Github 데모
Star MultiModal-GPT: 대화를 위한 비전과 언어 모델 arXiv 2023-05-08 Github 데모
Star X-LLM: 다중 모달을 외국어로 다루며 고급 언어 모델 부트스트래핑 arXiv 2023-05-07 Github -
Star LLaMA-Adapter V2: 파라미터 효율적인 비전 지시 모델 arXiv 2023-04-28 Github 데모
Star mPLUG-Owl: 모듈화가 다중모달 대규모 언어 모델에 멀티모달리티를 제공하는 도구 arXiv 2023-04-27 Github 데모
Star MiniGPT-4: 고급 언어 모델을 통한 비전-언어 이해 향상 arXiv 2023-04-20 Github -
Star 비전 지시 튜닝 arXiv 2023-04-17 GitHub 데모
Star LLaMA-Adapter: 제로 초기화 어텐션을 이용한 언어 모델의 효율적인 파인튜닝 arXiv 2023-03-28 Github 데모
Star MultiInstruct: 지시 튜닝을 통한 멀티모달 제로샷 학습 개선 ACL 2022-12-21 Github -

멀티모달 인컨텍스트 학습

제목 발표지 날짜 코드 데모
Star MIMIC-IT: 다중모달 인컨텍스트 지시 튜닝 arXiv 2023-06-08 Github 데모
Star Chameleon: 대규모 언어 모델을 활용한 플러그 앤 플레이 구성적 추론 arXiv 2023-04-19 Github 데모
Star HuggingGPT: HuggingFace의 ChatGPT 및 그 친구들로 AI 작업 해결하기 arXiv 2023-03-30 Github 데모
Star MM-REACT: 멀티모달 추론과 액션을 위한 ChatGPT 프롬프트 arXiv 2023-03-20 Github 데모
Star 지식 기반 비전 질의응답을 위한 대답 휴리스틱을 활용한 대규모 언어 모델 프롬프트 CVPR 2023-03-03 Github -
Star 비교적 훈련이 필요없는 구성적 비전 추론을 위한 비주얼 프로그래밍 CVPR 2022-11-18 Github 로컬 데모
Star Few-Shot 지식 기반 비전 질의응답을 위한 GPT-3의 경험적 연구 AAAI 2022-06-28 Github -
Star 퓨-샷 학습을 위한 비전 언어 모델 Flamingo NeurIPS 2022-04-29 Github 데모
Frozen 언어 모델로 멀티모달 퓨-샷 학습 NeurIPS 2021-06-25 - -

멀티모달 체인 오브 생각

제목 발표지 날짜 코드 데모
Star EmbodiedGPT: 시각-언어 사슬로 사고하는 것을 통한 비전-언어 사전 훈련 arXiv 2023-05-24 Github -
프레임별로 생각해 보자: 비디오 인필링과 예측으로 비디오 체인 오브 생각 평가하기 arXiv 2023-05-23 - -
Star Caption Anything: 다양한 멀티모달 컨트롤을 통한 대화형 이미지 설명 arXiv 2023-05-04 Github 데모
비주얼 체인 오브 생각: 멀티모달 인필링을 통해 논리적 간극을 극복 arXiv 2023-05-03 Coming soon -
Star Chameleon: 대규모 언어 모델을 활용한 플러그 앤 플레이 구성적 추론 arXiv 2023-04-19 Github 데모
비전 언어 모델에서 체인 오브 생각 프롬프트 튜닝 arXiv 2023-04-16 Coming soon -
Star MM-REACT: 멀티모달 추론과 액션을 위한 ChatGPT 프롬프트 arXiv 2023-03-20 Github 데모
Star Visual ChatGPT: 시각적 기반 모델로 대화하기, 그리기, 편집하기 arXiv 2023-03-08 Github 데모
Star 언어 모델에서 멀티모달 체인 오브 생각 추론 arXiv 2023-02-02 Github -
Star 비주얼 프로그래밍: 훈련 없는 구성적 비주얼 추론 CVPR 2022-11-18 Github 로컬 데모
Star 배우는 설명: 과학 질문 응답을 위한 체인 오브 생각을 통한 멀티모달 추론 NeurIPS 2022-09-20 Github -

LLM을 이용한 시각 추론

제목 발표지 날짜 코드 데모
Star GPT4Tools: 자기 학습을 통한 대형 언어 모델에게 도구 사용 가르치기 arXiv 2023-05-30 Github 데모
Star LayoutGPT: 대형 언어 모델을 활용한 구성적 시각 계획과 생성 arXiv 2023-05-24 Github -
Star IdealGPT: 대형 언어 모델을 통한 반복적인 시각과 언어 추론 분해 arXiv 2023-05-24 Github 로컬 데모
Star Caption Anything: 다양한 멀티모달 컨트롤을 통한 대화형 이미지 설명 arXiv 2023-05-04 Github 데모
Star Chameleon: 대규모 언어 모델을 활용한 플러그 앤 플레이 구성적 추론 arXiv 2023-04-19 Github 데모
Star HuggingGPT: ChatGPT와 그의 HuggingFace 친구들을 이용한 AI 작업 해결 arXiv 2023-03-30 Github 데모
Star MM-REACT: 멀티모달 추론과 액션을 위한 ChatGPT 프롬프트 arXiv 2023-03-20 Github 데모
Star ViperGPT: 추론을 위한 파이썬 실행을 통한 시각적 추론 arXiv 2023-03-14 Github 로컬 데모
Star ChatGPT Asks, BLIP-2 Answers: 풍부한 시각적 설명을 위한 자동 질문 생성 arXiv 2023-03-12 Github 로컬 데모
Star Visual ChatGPT: 시각적 기반 모델로 대화하기, 그리기, 편집하기 arXiv 2023-03-08 Github 데모
Star Prompt, Generate, then Cache: 강력한 퓨 샷 학습자를 만들기 위한 Foundation Model의 연속적인 적용 CVPR 2023-03-03 Github -
Star PointCLIP V2: 강력한 3D 오픈 월드 학습을 위한 CLIP의 적응 CVPR 2022-11-21 Github -
Star Visual Programming: 훈련 없는 구성적 시각 추론 CVPR 2022-11-18 Github 로컬 데모
Star Socratic Models: 언어를 통한 제로샷 멀티모달 추론 구성 arXiv 2022-04-01 Github -

Foundation Models

Title Venue Date Code Demo
Star Transfer Visual Prompt Generator across LLMs arXiv 2023-05-02 Github 데모
GPT-4 기술 보고서 arXiv 2023-03-15 - -
PaLM-E: 신체를 갖춘 멀티모달 언어 모델 arXiv 2023-03-06 - 데모
Star Prismer: 전문가 앙상블을 활용한 시각-언어 모델 arXiv 2023-03-04 Github 데모
Star 언어만으로는 충분하지 않다: 언어 모델과 인지를 조정하기 arXiv 2023-02-27 Github -
Star BLIP-2: 얼어있는 이미지 인코더와 큰 언어 모델로부터의 언어-이미지 사전훈련 arXiv 2023-01-30 Github 데모
Star VIMA: 다모달 프롬프트를 통한 일반적인 로봇 조작 ICML 2022-10-06 Github 로컬 데모
Star MineDojo: 인터넷 규모의 지식으로 오픈엔드 엠보디드 에이전트 구축 NeurIPS 2022-06-17 Github -

기타

Title Venue Date Code Demo
대형 사전 훈련 모델이 인식 작업에서 시각 모델에 도움이 될까요? arXiv 2023-06-01 Coming soon -
Star 다모달 대형 언어 모델을 활용한 문맥적 객체 검출 arXiv 2023-05-29 Github 데모
Star 다모달 언어 모델을 활용한 이미지 생성 arXiv 2023-05-26 Github -
Star 대형 시각-언어 모델의 적대적 내성 평가 arXiv 2023-05-26 Github -
Star 대형 시각-언어 모델에서 객체 환상 평가 arXiv 2023-05-17 Github -
Star 다모달 입력과 출력을 위한 언어 모델의 이미지 기반 그라운딩 ICML 2023-01-31 Github 데모

최고의 멀티모달 대형 언어 데이터셋

Pre-Training을 위한 데이터셋

Name Paper Type Modalities
MS-COCO Microsoft COCO: Context에서의 일반적인 객체 캡션 이미지-텍스트
SBU Captions Im2Text: 100만 캡션화된 사진을 사용한 이미지 설명 캡션 이미지-텍스트
Conceptual Captions 개념 캡션: 자동 이미지 캡션을 위한 청소, 상위어 처리된 이미지 대체 텍스트 데이터셋 캡션 이미지-텍스트
LAION-400M LAION-400M: CLIP로 걸러진 4억 개의 이미지-텍스트 쌍 오픈 데이터셋 캡션 이미지-텍스트
VG Captions Visual Genome: 크라우드소싱된 밀집한 이미지 어노테이션을 사용한 언어와 비전의 연결 캡션 이미지-텍스트
Flickr30k Flickr30k Entities: 더 풍부한 이미지-문장 모델을 위한 영역 대 구 사상 대응 수집 캡션 이미지-텍스트
AI-Caps AI Challenger: 이미지 이해를 더 깊게 연구하기 위한 대규모 데이터셋 캡션 이미지-텍스트
Wukong Captions Wukong: 1억 개의 대규모 중국어 크로스모달 프리트레이닝 벤치마크 캡션 이미지-텍스트
Youku-mPLUG Youku-mPLUG: 프리트레이닝과 벤치마크를 위한 1천만 개의 대규모 중국어 비디오-언어 데이터셋 캡션 비디오-텍스트
MSR-VTT MSR-VTT: 비디오와 언어를 연결하는 대규모 비디오 설명 데이터셋 캡션 비디오-텍스트
Webvid10M Frozen in Time: 엔드 투 엔드 검색을 위한 공동 비디오 및 이미지 인코더 캡션 비디오-텍스트
WavCaps WavCaps: ChatGPT 보조로 약하게 레이블된 오디오 캡션 데이터셋 캡션 오디오-텍스트
AISHELL-1 AISHELL-1: 오픈 소스 중국어 음성 말뭉치와 음성 인식 기준선 ASR 오디오-텍스트
AISHELL-2 AISHELL-2: 중국어 음성 인식 연구를 산업 규모로 전환 ASR 오디오-텍스트
VSDial-CN X-LLM: 다중 모달을 외국어로 취급하여 고급 대형 언어 모델 부트스트래핑 ASR 이미지-오디오-텍스트

문맥 학습 데이터셋

이름 논문 링크 비고
MIMIC-IT MIMIC-IT: 멀티모달 문맥 학습을 위한 인스트럭션 튜닝 Coming soon 멀티모달 문맥 학습 데이터셋

멀티모달 Chain-of-Thought 데이터셋

이름 논문 링크 비고
EgoCOT EmbodiedGPT: 시각-언어 사전 훈련을 통한 몸에 기반한 Chain of Thought Coming soon 대규모 몸에 기반한 계획 데이터셋
VIP Frame 단위로 생각해 봅시다: VideoCOT 평가를 위한 Video Infilling과 Prediction Coming soon 추론 시 평가하기 위해 사용할 수 있는 데이터셋
ScienceQA 설명을 배우자: 다양한 도메인과 멀티모달 과학 질문에 대한 Thought Chains를 통한 추론 링크 다양한 도메인과 멀티모달 과학 질문을 포함한 대규모 다중 선택 데이터셋

결론

마지막으로, 멀티모달 대형 언어 모델에 대한 학습 자료나 레퍼런스를 찾고 계신다면, 저희는 "Awesome Multimodal Large Language Models"라는 깃허브 저장소를 추천드립니다. 이 저장소에는 이 분야의 연구 논문, 튜토리얼, 도구 등 다양한 리소스가 모아져 있습니다.\

마치며, AI는 계속 발전하고 있으며, 우리 일상 생활에 점점 더 깊게 관여하고 있습니다. 이런 멀티모달 대형 언어 모델이라는 흥미로운 주제에 대해 알게 되셨다면, 앞으로 이 분야에 더 깊이 관심을 갖게 되셨기를 바랍니다. 다음 글에서 또 만나요!

728x90
반응형

댓글