본문 바로가기

내 강의실

최근 수강강좌 목록

현재 진행중인 강좌(청강제외)만 출력됩니다.

최근접속순 최대 10개 강좌만 표시됩니다.

K-MOOC
K-MOOC 학점은행제

현재 진행중인 수강강좌가 없습니다.

수강신청 하러가기 →

현재 진행중인 수강강좌가 없습니다.

수강신청 하러가기 →
한국어
  • 한국어
  • ENGLISH

배우고 싶은 강좌를 찾아보세요.

추천 강좌

    다국어 설정

    강좌소개
    강좌소개
    • 이 강좌는 멀티모달 AI에 대한 포괄적인 개요를 제공하며, 데이터 표현, 정렬, 융합의 기본 개념을 다루고, 현대적인 사전 학습 전략과 멀티모달 대규모 언어 모델(M-LLMs) 및 파운데이션 모델의 아키텍처, 훈련, 응용으로 나아갑니다.
    • 왜 「멀티모달 인공지능 이해와 학습」을 수강해야하는가?

      우리가 마주하는 현실 세계는 텍스트, 이미지, 소리 등 단편적인 정보의 합이 아닌, 복잡하게 상호 연결된 다양한 정보의 총체입니다. 인공지능이 이 세계를 인간처럼 깊이 있게 이해하고 소통하기 위해서는, 이질적인 데이터들을 통합적으로 바라보는 새로운 시각이 반드시 필요합니다. 이 강좌는 바로 그 핵심 질문, 즉 'AI는 어떻게 여러 감각을 동시에 이해할 수 있는가?'에서 출발합니다. 본 강좌는 서로 다른 데이터를 어떻게 '표현(Representation)'하고 , '정렬(Alignment)'하며 , '융합(Fusion)'할 것인지에 대한 근본적인 개념을 다룹니다. 나아가 현시대 AI의 정점인 '멀티모달 대규모 언어 모델(M-LLMs) 및 파운데이션 모델'의 아키텍처와 훈련, 응용으로 나아가는  지적 탐구의 기회를 제공하는데 그 의의가 있습니다.

    • 「멀티모달 인공지능 이해와 학습」의 목표는 무엇인가?

      본 강좌의 목표는 멀티모달 인공지능이라는 방대한 분야에 대한 포괄적인 개요를 제공하는 것입니다.수강생은 '멀티모달 머신러닝의 정의, 핵심 기술적 과제, 역사적 발전'과 같은 기본 개념을 이해하고 , '데이터 표현, 정렬, 융합'이라는 세 가지 핵심 기둥을 학습합니다. 또한 이미지(CNN)와 텍스트(RNN) 등 개별 모달리티를 처리하는 기본 아키텍처의 원리를 파악합니다. 이러한 탄탄한 기초를 배운 후에 '현대적인 사전 학습 전략'을 배우고, 궁극적으로 'M-LLMs 및 파운데이션 모델'의 작동 원리와 응용까지  체계적으로 나아가는 것이 본 강좌의 최종 목표입니다.


    학습목표
    1. 멀티모달 인공지능의 핵심 개념과 작동 원리를 이해하고, 다양한 모달리티(텍스트, 이미지, 오디오, 비디오 등)를 융합하는 모델의 설계와 구현에 대한 통찰을 제공합니다.
    2. 멀티모달 아키텍쳐, Multimodal Pretraining, Cross-modal Alignment, Contrastive Learning 등 최신 기술을 학습하고, 이를 실제 응용 문제에 적용하는 방법을 익힙니다.
    3. 학습자가 멀티모달 인공지능 분야의 최신 연구 동향과 산업적 흐름을 이해하고, 이를 기반으로 창의적 문제 해결과 연구, 산업적 기여를 도모할 수 있는 기회를 제공합니다.
    강좌 운영일정
    • 수강신청기간 : 2026.01.01.~2026.01.31.
    • 강좌운영기간 : 2026.01.01.~2026.01.31.
    이수 및 평가기준
    • 이수기준 : 60%의 이수기준은 블룸의 교육목표 분류에서 “이해”와 “적용” 단계 해당한다고 판단하며 이는 학습자가 개념을 이해하고 기본적으로 적용할 수 있는 수준에 판단됨
    • 평가기준 : 총점(100%) = 퀴즈(25%) + 토론(25%) + 기말고사(50%)
    수업계획서

    주차

    주차명(주제)

    차시

    차시명(학습내용)

    평가방법

    1

    멀티모달 인공지능 소개

    1-1

    멀티모달 인공지능이란 무엇인가?

    퀴즈(1)

    멀티모달 인공지능의 정의, 핵심 개념, 주요 용어들을 소개하고 단일모달 AI와의 차이를 이해한다.

    1-2

    멀티모달 학습의 필요성과 응용 사례

    퀴즈(2)

    멀티모달 학습이 필요한 이유를 설명하고, 실제로 사용되는 응용 분야(: 자율주행, 챗봇, 의료 AI )를 분석한다.

    1-3

    멀티모달 AI 기술의 발전 흐름

    퀴즈(3)

    멀티모달 AI의 발전 역사와 기술 흐름을 정리하고, 현재 주목받는 연구 분야와 산업 동향을 탐구한다.

    2

    멀티모달 데이터 표현

    2-1

    각 모달리티의 데이터 특성과 구조

    퀴즈(1)

    텍스트, 이미지, 오디오, 비디오 등 주요 모달리티의 데이터 특성과 구조적 차이점을 분석한다.

    2-2

    모달리티별 표현 방법: 임베딩 기초

    퀴즈(2)

    각 모달리티를 벡터 공간으로 표현하는 기본 임베딩 기법(e.g., Word2Vec, CNN, spectrogram )을 학습한다.

    2-3

    멀티모달 임베딩의 개념과 활용

    퀴즈(3)

    여러 모달리티를 공통 표현 공간에 매핑하는 멀티모달 임베딩의 목적, 방법론, 활용 사례를 살펴본다.

    3

    모달리티 간 정렬 방법론

    3-1

    모달리티 정렬의 개념과 Late/Early Fusion

    퀴즈(1)

    Early fusion, late fusion, hybrid fusion의 개념을 이해하고 각각의 장단점을 비교한다.

    3-2

    Cross-modal Attention과 정렬 기법

    퀴즈(2)

    텍스트-이미지, 텍스트-오디오 등에서 활용되는 attention 기반의 정렬 방법(cross-attention )을 학습한다.

    3-3

    유사도 학습과 Feature Alignment

    퀴즈(3)

    토론(1)

    contrastive learning, metric learning을 활용한 의미 기반 feature 정렬 기법을 학습하고 실제 모델 사례를 분석한다.

    4

    멀티모달 융합 방법론

    4-1

    기초 융합 전략 이해

    퀴즈(1)

    Concatenation, averaging, attention 등 기본 융합 기법의 구조와 작동 원리를 학습한다.

    4-2

    고급 융합 기법

    퀴즈(2)

    Co-attention, bilinear pooling, tensor fusion 등 고급 융합 모델의 설계와 원리를 이해한다.

    4-3

    융합 기법 비교 및 응용 분석

    퀴즈(3)

    다양한 융합 기법들의 장단점을 비교하고, 실제 응용 사례에 적합한 전략을 도출한다.

    5

    멀티모달 사전학습

    5-1

    멀티모달 사전학습 개요

    퀴즈(1)

    멀티모달 pretraining의 필요성과 전이학습 관점에서의 의의를 학습한다.

    5-2

    Contrastive learning 기반 사전학습

    퀴즈(2)

    CLIP, ALIGN 등의 contrastive 학습 모델 구조와 학습 방식을 분석한다.

    5-3

    Masked/Matching 기반 사전학습

    퀴즈(3)

    VilBERT, LXMERT 등의 masked modeling, matching task 기반 전략을 학습한다.

    6

    멀티모달 LLM Foundation Models

    6-1

    멀티모달 LLM의 구조

    퀴즈(1)

    Flamingo, GPT-4V 등 멀티모달 대형 언어 모델의 입력 처리 구조와 특징을 학습한다.

    6-2

    PretrainingInstruction Tuning

    퀴즈(2)

    Instruction tuningaligned fine-tuning 기법을 사례 기반으로 학습한다.

    6-3

    Foundation Model의 확장 방향

    퀴즈(3)

    토론(1)

    멀티모달 Foundation Model의 범용성과 미래 활용 가능성을 분석한다.

    7

    기말고사

    7

    기말고사 시험 실시

     

    강좌운영진
    • 교수자 : 김준영
      중앙대학교 AI학과 김준영 교수는 KAIST 전기및전자공학부에서 학사, 석사, 박사 학위를 취득 후, Microsoft Research Asia의 NLP group 및 KAIST 정보전자연구소에서 박사후 과정을 거쳐 중앙대학교 AI학과에서 멀티모달 인공지능 연구를 활발히 수행중입니다.
    • 교수팀 운영 TA : 권민철
      Email: welchs3576@cau.ac.kr
      현 소속: 중앙대학교 일반대학원 AI학과
    • 교수팀 운영 TA : 고재훈

      Email: gkdwngo@cau.ac.kr
      현 소속: 중앙대학교 일반대학원 AI학과

    분야 공학 (컴퓨터 · 통신)

    난이도 전공심화

    운영기관 중앙대학교

    이수증 미발급

    주차 7 주

    학습인정시간 4시간 00분 (03시간 55분)

    수강신청기간 26.01.01 ~ 26.01.31

    강좌운영기간 26.01.01 ~ 26.01.31

    전화번호 02-820-6427

    자막언어 한국어 외 1건

    강좌언어 한국어(ko)

    추천강좌
    같은기관강좌