참여기관 목록
강좌소개
- 이 강좌는 멀티모달 AI에 대한 포괄적인 개요를 제공하며, 데이터 표현, 정렬, 융합의 기본 개념을 다루고, 현대적인 사전 학습 전략과 멀티모달 대규모 언어 모델(M-LLMs) 및 파운데이션 모델의 아키텍처, 훈련, 응용으로 나아갑니다.
- 왜
「멀티모달
인공지능 이해와 학습」을
수강해야하는가?
우리가 마주하는 현실 세계는 텍스트, 이미지, 소리 등 단편적인 정보의 합이 아닌, 복잡하게 상호 연결된 다양한 정보의 총체입니다. 인공지능이 이 세계를 인간처럼 깊이 있게 이해하고 소통하기 위해서는, 이질적인 데이터들을 통합적으로 바라보는 새로운 시각이 반드시 필요합니다. 이 강좌는 바로 그 핵심 질문, 즉 'AI는 어떻게 여러 감각을 동시에 이해할 수 있는가?'에서 출발합니다. 본 강좌는 서로 다른 데이터를 어떻게 '표현(Representation)'하고 , '정렬(Alignment)'하며 , '융합(Fusion)'할 것인지에 대한 근본적인 개념을 다룹니다. 나아가 현시대 AI의 정점인 '멀티모달 대규모 언어 모델(M-LLMs) 및 파운데이션 모델'의 아키텍처와 훈련, 응용으로 나아가는 지적 탐구의 기회를 제공하는데 그 의의가 있습니다.
- 「멀티모달
인공지능 이해와 학습」의
목표는 무엇인가?
본 강좌의 목표는 멀티모달 인공지능이라는 방대한 분야에 대한 포괄적인 개요를 제공하는 것입니다.수강생은 '멀티모달 머신러닝의 정의, 핵심 기술적 과제, 역사적 발전'과 같은 기본 개념을 이해하고 , '데이터 표현, 정렬, 융합'이라는 세 가지 핵심 기둥을 학습합니다. 또한 이미지(CNN)와 텍스트(RNN) 등 개별 모달리티를 처리하는 기본 아키텍처의 원리를 파악합니다. 이러한 탄탄한 기초를 배운 후에 '현대적인 사전 학습 전략'을 배우고, 궁극적으로 'M-LLMs 및 파운데이션 모델'의 작동 원리와 응용까지 체계적으로 나아가는 것이 본 강좌의 최종 목표입니다.
학습목표
- 멀티모달 인공지능의 핵심 개념과 작동 원리를 이해하고, 다양한 모달리티(텍스트, 이미지, 오디오, 비디오 등)를 융합하는 모델의 설계와 구현에 대한 통찰을 제공합니다.
- 멀티모달 아키텍쳐, Multimodal Pretraining, Cross-modal Alignment, Contrastive Learning 등 최신 기술을 학습하고, 이를 실제 응용 문제에 적용하는 방법을 익힙니다.
- 학습자가 멀티모달 인공지능 분야의 최신 연구 동향과 산업적 흐름을 이해하고, 이를 기반으로 창의적 문제 해결과 연구, 산업적 기여를 도모할 수 있는 기회를 제공합니다.
강좌 운영일정
- 수강신청기간 : 2026.01.01.~2026.01.31.
- 강좌운영기간 : 2026.01.01.~2026.01.31.
이수 및 평가기준
- 이수기준 : 60%의 이수기준은 블룸의 교육목표 분류에서 “이해”와 “적용” 단계 해당한다고 판단하며 이는 학습자가 개념을 이해하고 기본적으로 적용할 수 있는 수준에 판단됨
- 평가기준 : 총점(100%) = 퀴즈(25%) + 토론(25%) + 기말고사(50%)
수업계획서
주차 | 주차명(주제) | 차시 | 차시명(학습내용) | 평가방법 |
1 | 멀티모달 인공지능 소개 | 1-1 | 멀티모달 인공지능이란 무엇인가? | 퀴즈(1) |
멀티모달 인공지능의 정의, 핵심 개념, 주요 용어들을 소개하고 단일모달 AI와의 차이를 이해한다. | ||||
1-2 | 멀티모달 학습의 필요성과 응용 사례 | 퀴즈(2) | ||
멀티모달 학습이 필요한 이유를 설명하고, 실제로 사용되는 응용 분야(예: 자율주행, 챗봇, 의료 AI 등)를 분석한다. | ||||
1-3 | 멀티모달 AI 기술의 발전 흐름 | 퀴즈(3) | ||
멀티모달 AI의 발전 역사와 기술 흐름을 정리하고, 현재 주목받는 연구 분야와 산업 동향을 탐구한다. | ||||
2 | 멀티모달 데이터 표현 | 2-1 | 각 모달리티의 데이터 특성과 구조 | 퀴즈(1) |
텍스트, 이미지, 오디오, 비디오 등 주요 모달리티의 데이터 특성과 구조적 차이점을 분석한다. | ||||
2-2 | 모달리티별 표현 방법: 임베딩 기초 | 퀴즈(2) | ||
각 모달리티를 벡터 공간으로 표현하는 기본 임베딩 기법(e.g., Word2Vec, CNN, spectrogram 등)을 학습한다. | ||||
2-3 | 멀티모달 임베딩의 개념과 활용 | 퀴즈(3) | ||
여러 모달리티를 공통 표현 공간에 매핑하는 멀티모달 임베딩의 목적, 방법론, 활용 사례를 살펴본다. | ||||
3 | 모달리티 간 정렬 방법론 | 3-1 | 모달리티 정렬의 개념과 Late/Early Fusion | 퀴즈(1) |
Early fusion, late fusion, hybrid fusion의 개념을 이해하고 각각의 장단점을 비교한다. | ||||
3-2 | Cross-modal Attention과 정렬 기법 | 퀴즈(2) | ||
텍스트-이미지, 텍스트-오디오 등에서 활용되는 attention 기반의 정렬 방법(cross-attention 등)을 학습한다. | ||||
3-3 | 유사도 학습과 Feature Alignment | 퀴즈(3) 토론(1) | ||
contrastive learning, metric learning을 활용한 의미 기반 feature 정렬 기법을 학습하고 실제 모델 사례를 분석한다. | ||||
4 | 멀티모달 융합 방법론 | 4-1 | 기초 융합 전략 이해 | 퀴즈(1) |
Concatenation, averaging, attention 등 기본 융합 기법의 구조와 작동 원리를 학습한다. | ||||
4-2 | 고급 융합 기법 | 퀴즈(2) | ||
Co-attention, bilinear pooling, tensor fusion 등 고급 융합 모델의 설계와 원리를 이해한다. | ||||
4-3 | 융합 기법 비교 및 응용 분석 | 퀴즈(3) | ||
다양한 융합 기법들의 장단점을 비교하고, 실제 응용 사례에 적합한 전략을 도출한다. | ||||
5 | 멀티모달 사전학습 | 5-1 | 멀티모달 사전학습 개요 | 퀴즈(1) |
멀티모달 pretraining의 필요성과 전이학습 관점에서의 의의를 학습한다. | ||||
5-2 | Contrastive learning 기반 사전학습 | 퀴즈(2) | ||
CLIP, ALIGN 등의 contrastive 학습 모델 구조와 학습 방식을 분석한다. | ||||
5-3 | Masked/Matching 기반 사전학습 | 퀴즈(3) | ||
VilBERT, LXMERT 등의 masked modeling, matching task 기반 전략을 학습한다. | ||||
6 | 멀티모달 LLM 및 Foundation Models | 6-1 | 멀티모달 LLM의 구조 | 퀴즈(1) |
Flamingo, GPT-4V 등 멀티모달 대형 언어 모델의 입력 처리 구조와 특징을 학습한다. | ||||
6-2 | Pretraining과 Instruction Tuning | 퀴즈(2) | ||
Instruction tuning과 aligned fine-tuning 기법을 사례 기반으로 학습한다. | ||||
6-3 | Foundation Model의 확장 방향 | 퀴즈(3) 토론(1) | ||
멀티모달 Foundation Model의 범용성과 미래 활용 가능성을 분석한다. | ||||
7 | 기말고사 | 7 | 기말고사 시험 실시 |
|
강좌운영진
-
교수자 : 김준영중앙대학교 AI학과 김준영 교수는 KAIST 전기및전자공학부에서 학사, 석사, 박사 학위를 취득 후, Microsoft Research Asia의 NLP group 및 KAIST 정보전자연구소에서 박사후 과정을 거쳐 중앙대학교 AI학과에서 멀티모달 인공지능 연구를 활발히 수행중입니다. -
교수팀 운영 TA : 권민철Email: welchs3576@cau.ac.kr현 소속: 중앙대학교 일반대학원 AI학과
-
교수팀 운영 TA : 고재훈Email: gkdwngo@cau.ac.kr현 소속: 중앙대학교 일반대학원 AI학과