본문 바로가기

배우고 싶은 강좌를 찾아보세요.

추천 강좌

    다국어 설정

    강좌소개
    강좌개요

    ■ 학습 목표: 인공지능 기계학습 분야 중 하나인 강화학습의 수학적 기초와 알고리듬에 대한 이해

    ■ 수업 내용: 본 강의는 인공지능의 주요분야 중 하나인 강화학습(reinforcement learning) 방법론의 기본 수학적 개념과 원리를 다루고 있습니다. 강화학습의 최신이론을 설명하는 것 대신, 강화학습을 구성하는 기본적인 원리의 이해를 돕기 위해 강화학습의 수학적인 근간이 되는 '동적계획법', '마르코브 과정', '마르코브 의사결정 프로세스' 등에 대해 그 개념을 예시와 함께 설명하고, 이를 바탕으로 강화학습 방법론들에 대해 보다 쉽게, 깊은 이해를 할 수 있도록 도움을 주는 강의입니다.

    ■ 추천 학습 대상 체크리스트
    1. 인공지능에 관심이 있다.
    2. 강화학습의 원리를 이해하고 싶다.
    3. 인공지능 분야의 기초지식을 쌓고 싶다.
    4. 강화학습의 주요 원리인 동적계획법, 마르코프 체인, 몬테카를로 알고리듬 등을 체계적으로 이해하고 싶다.
    한 가지라도 해당된다면 이 강좌를 추천합니다!
    강좌 계획
    강의계획표
    주차 주제 강의명
    1주차 강화학습의 이해 1.1 강화학습 개요
    1.2 Multi-armed Bandit 문제
    1.3 강화학습 맛보기
    2주차 동적계획법 - 1 2.1 문제해결전략과 동적 계획법
    2.2 동적 계획법의 주요개념(1) 최적화의 원리
    2.3 동적 계획법의 주요개념(2) 중첩되는 부분문제와 역진귀납법
    3주차 동적계획법 - 2 3.1 최단거리 문제 (Shortest Path)
    3.2 방문판매원 문제(Traveling Salesman Problem, TSP)
    3.3 배낭문제 (Knapsack Problem)
    4주차 마르코브 과정 4.1 마르코브 프로세스 개요
    4.2 마르코브 프로세스 예시
    4.3 마르코브 보상 프로세스
    5주차 마르코브 결정 프로세스 - 1 5.1 MDP 개요
    5.2 MDP 예시 - Examples of Markov Decision Process
    6주차 마르코브 결정 프로세스 - 2 6.1 MDP 가치함수
    6.2 Infinite-horizon MDP
    7주차 마르코브 결정 프로세스 - 3 7.1 Value Iteration
    7.2 Policy Iteration
    8주차 중간고사 중간고사
    9주차 강화학습 알고리듬 - 1 9.1 강화학습 Model-Free Reinforcement Learning
    9.2 몬테칼로 학습 Monte-Carlo Learning
    10주차 강화학습 알고리듬 - 2 10.1 시간차 학습 Temporal-Difference (TD) Learning
    10.2 SARSA 알고리듬
    11주차 강화학습 알고리듬 - 3 11.1 On-policy vs. Off-policy
    11.2 Q-Learning 알고리듬
    12주차 딥 강화학습 - 1 12.1 인공신경망 개요
    12.2 Deep Q-Network (DQN) 개요
    13주차 딥 강화학습 - 2 13.1 정책경사 (Policy Gradient) 개요
    13.2 정책경사 정리 (Policy Gradient Theorem) 리뷰
    14주차 딥 강화학습 - 3 14.1 REINFORCE 알고리듬
    14.2 Actor-Critic 알고리듬
    15주차 딥 강화학습 - 4 + 강의 정리 + 전문가 사례소개 (1) 15.1 A3C 알고리듬
    15.2 강의 정리 및 요약
    15.3 학계 전문가 강연
    16주차 전문가 사례소개 (2) 16.1 산업계 전문가 강연
    17주차 기말고사 기말고사

    강좌 운영진

      교수소개  

    정태수교수님사
    정태수
    고려대학교 산업경영공학부 부교수
    고려대학교 공학대학원 스마트제조학과 주임교수
    前)싱가포르 국립대학, 산업시스템공학과 조교수
    前)Norfolk Southern Corp., Operations Research Analyst
    前)한국전자통신연구원, 연구원
    E-mail: tcheong@korea.ac.kr

      TA/운영진  

    강성호조교님사진
    강성호
    고려대학교 일반대학원 산업경영공학과 박사수료
    E-mail: ght2game@korea.ac.kr
    강좌 이수 요건
    강좌 이수 요건표
    퀴즈(20%)+중간고사(40%)+기말고사(40%)의 비중으로 성적에 반영됩니다. 전체 학습활동을 평가한 결과, 60% 이상의 학습 성과를 획득한 학습자에게 이수증을 발급할 예정입니다.
    교재 및 참고문헌

      참고교재  

    Reinforcement Learning: An Introduction
       R.S. Sutton and A.G. Barto (2018)
       『Reinforcement Learning: An Introduction』 MIT Press, Cambridge, MA   
    Markov Decision Processes: Discrete Stochastic Dynamic Programming
       M.L. Puterman (2005)
       『Markov Decision Processes: Discrete Stochastic Dynamic Programming』
       Wiley-Interscience 

    분야 공학 (컴퓨터 · 통신)

    난이도 전공기초

    운영기관 고려대학교

    이수증 미발급

    주차 17 주

    학습인정시간 29시간 30분 (17시간 54분)

    수강신청기간 22.08.30 ~ 22.12.21

    강좌운영기간 22.09.05 ~ 23.01.03

    전화번호 02-3290-1581

    자막언어 -

    강좌언어 한국어(ko)

    추천강좌
    같은기관강좌