본문 바로가기

배우고 싶은 강좌를 찾아보세요.

추천 강좌

    다국어 설정

    강좌소개
    강화학습

       

      

    수업계획서

     

    주차

    주차명(주제)

    차시

    차시명(학습내용)

    평가방법

    1

    강화학습 소개

    1-1

    강화학습의 개요

    퀴즈

    1-2

    강화학습의발전 과정

    1-3

    강화학습의 구성 요소

    1-4

    강화학습의 동작 방식

    1-5

    강화학습의 문제 해결 방법

    2

    다중 슬롯머신 문제

    1-1

    다중 슬롯머신 소개

    퀴즈

    1-2

    탐욕적 알고리즘

    1-3

    점진적 구현

    1-4

    신뢰 상한 행동 선택

    1-5

    경사도 다중 슬롯머신 알고리즘

    3

    마르코프 결정 프로세스

    (MDP)

    1-1

    MDP의 정의

    퀴즈

    1-2

    MDP의 구성 요소

    1-3

    MDP의 목표

    1-4

    정책 평가와 개선

    1-5

    MDP를 활용한 문제 해결

    4

    벨만 방정식

    1-1

    상태 가치 함수의
    벨만 기대 방정식

    퀴즈

    1-2

    행동 가치 함수의
    벨만 기대 방정식

    1-3

    상태 가치 함수의
    벨만 최적 방정식

    1-4

    행동 가치 함수의
    벨만 최적 방정식

    1-5

    벨만 방정식의 적용

    5

    모델 기반 플래닝

    1-1

    동적 프로그래밍 소개

    퀴즈

    1-2

    반복적 정책 평가

    1-3

    정책 최적화를 위한 정책 반복법

    1-4

    정책 최적화를 위한 가치 반복법

    1-5

    정책 반복법과 가치 반복법 비교

    6

    모델 프리 가치 평가

    1-1

    모델 프리 학습 개요

    퀴즈

    1-2

    MC(Monte Carlo) 기반 가치 평가

    1-3

    TD(Temporal Difference) 기반 가치 평가

    1-4

    MCTD 기법 비교

    1-5

    TD 기법의 확장

    7

    모델 프리 정책 최적화

    1-1

    MC 기반 정책 최적화

    퀴즈, 과제

    1-2

    SARSA 알고리즘

    1-3

    Q-러닝 알고리즘

    1-4

    SARSAQ-러닝 알고리즘 비교

    1-5

    SARSAQ-러닝의 변형

    8

    중간고사

     

    중간고사 응시

    중간고사

    9

    강화학습을 위한 딥러닝

    1-1

    딥러닝 개요

    퀴즈

    1-2

    CNN(Convolutional Neural Network)

    1-3

    RNN(Recurrent Neural Network)

    1-4

    신경망의 학습

    1-5

    강화학습에서 딥러닝의 역할

    10

    심층 강화학습

    1-1

    강화학습에서 피드백 유형

    퀴즈

    1-2

    강화학습을 위한 함수 근사화

    1-3

    Q-러닝의 신경망 구현

    1-4

    정책 경사법 소개

    1-5

    심층 강화학습 알고리즘 분류

    11

    가치 기반 심층 강화학습

    1-1

    DQN(Deep Q Network)

    퀴즈

    1-2

    Double DQN

    1-3

    Dueling DQN

    1-4

    우선순위 경험 재현

    1-5

    Rainbow

    12

    정책 기반 심층 강화학습

    1-1

    REINFORCE 알고리즘

    퀴즈

    1-2

    Actor-Critic 알고리즘

    1-3

    DDPG(Deep Deterministic Policy Gradient)

    1-4

    SAC(Soft Actor-Critic)

    1-5

    TRPO(Trust Region Policy Optimization)PPO(Proximal Policy Optimization)

    13

    강화학습과 알파고

    1-1

    알파고의 구조

    퀴즈

    1-2

    MCTS(Monte Carlo Tree Search)

    1-3

    알파고의 학습 방법

    1-4

    알파고 제로

    1-5

    알파제로

    14

    메타 강화학습

    1-1

    메타러닝 소개

    퀴즈

    1-2

    메타러닝 종류

    1-3

    순환 정책 메타 강화학습

    1-4

    최적화 기반 메타 강화학습

    1-5

    컨텍스트 기반 메타 강화학습

    15

    기말고사

     

    기말고사 응시

    기말고사

    강좌운영진
    • 김정현 교수

      세종대학교 인공지능데이터사이언스학과 교수

      前 한국전자통신연구원 연구원

      前 삼성전자 삼성리서치 책임연구원

    • 여예린 (학습지원)

      문의 : yealin0817@gmail.com

    • 조예지 (학습지원)
      문의 : qryjm1502@gmail.com
    자주묻는질문

    Q 강좌 이수 기준이 어떻게 되나요?

    A 이수 기준 총점 60점 이상입니다.

    Q 평가 계획이 궁금합니다.

    A △퀴즈(매주, 20%) △과제(1회, 20%) △중간고사(1회, 30%) △기말고사(1회, 30%)

    기타·문의처
    세종대학교 Sejong-MOOC센터 02-3408-3864

    분야 공학 (컴퓨터 · 통신)

    난이도 전공심화

    운영기관 세종대학교

    이수증 미발급

    주차 15 주

    학습인정시간 23시간 34분 (18시간 16분)

    수강신청기간 25.02.04 ~ 25.02.28

    강좌운영기간 25.02.04 ~ 25.02.28

    전화번호 02-3408-3864

    자막언어 한국어 외 1건

    강좌언어 한국어(ko)

    추천강좌
    같은기관강좌