Skip to main content
[집콕]강화학습의 수학적 기초와 알고리듬 이해 이미지

[집콕]강화학습의 수학적 기초와 알고리듬 이해




강좌개요

■ 학습 목표: 인공지능 기계학습 분야 중 하나인 강화학습의 수학적 기초와 알고리듬에 대한 이해

■ 수업 내용: 본 강의는 인공지능의 주요분야 중 하나인 강화학습(reinforcement learning) 방법론의 기본 수학적 개념과 원리를 다루고 있습니다. 강화학습의 최신이론을 설명하는 것 대신, 강화학습을 구성하는 기본적인 원리의 이해를 돕기 위해 강화학습의 수학적인 근간이 되는 '동적계획법', '마르코브 과정', '마르코브 의사결정 프로세스' 등에 대해 그 개념을 예시와 함께 설명하고, 이를 바탕으로 강화학습 방법론들에 대해 보다 쉽게, 깊은 이해를 할 수 있도록 도움을 주는 강의입니다.

■ 추천 학습 대상 체크리스트
1. 인공지능에 관심이 있다.
2. 강화학습의 원리를 이해하고 싶다.
3. 인공지능 분야의 기초지식을 쌓고 싶다.
4. 강화학습의 주요 원리인 동적계획법, 마르코프 체인, 몬테카를로 알고리듬 등을 체계적으로 이해하고 싶다.
한 가지라도 해당된다면 이 강좌를 추천합니다!
강좌 계획
강의계획표
주차 주제 강의명 오픈일
1주차 강화학습의 이해 1.1 강화학습 개요 1/25
1.2 Multi-armed Bandit 문제
1.3 강화학습 맛보기
2주차 동적계획법 - 1 2.1 문제해결전략과 동적 계획법 1/25
2.2 동적 계획법의 주요개념(1) 최적화의 원리
2.3 동적 계획법의 주요개념(2) 중첩되는 부분문제와 역진귀납법
3주차 동적계획법 - 2 3.1 최단거리 문제 (Shortest Path) 2/1
3.2 방문판매원 문제(Traveling Salesman Problem, TSP)
3.3 배낭문제 (Knapsack Problem)
4주차 마르코브 과정 4.1 마르코브 프로세스 개요 2/1
4.2 마르코브 프로세스 예시
4.3 마르코브 보상 프로세스
5주차 마르코브 결정 프로세스 - 1 5.1 MDP 개요 2/8
5.2 MDP 예시 - Examples of Markov Decision Process
6주차 마르코브 결정 프로세스 - 2 6.1 MDP 가치함수 2/8
6.2 Infinite-horizon MDP
7주차 마르코브 결정 프로세스 - 3 7.1 Value Iteration 2/15
7.2 Policy Iteration
8주차 중간고사 중간고사 2/15
9주차 강화학습 알고리듬 - 1 9.1 강화학습 Model-Free Reinforcement Learning 2/15
9.2 몬테칼로 학습 Monte-Carlo Learning
10주차 강화학습 알고리듬 - 2 10.1 시간차 학습 Temporal-Difference (TD) Learning 2/22
10.2 SARSA 알고리듬
11주차 강화학습 알고리듬 - 3 11.1 On-policy vs. Off-policy 2/22
11.2 Q-Learning 알고리듬
12주차 딥 강화학습 - 1 12.1 인공신경망 개요 3/1
12.2 Deep Q-Network (DQN) 개요
13주차 딥 강화학습 - 2 13.1 정책경사 (Policy Gradient) 개요 3/1
13.2 정책경사 정리 (Policy Gradient Theorem) 리뷰
14주차 딥 강화학습 - 3 14.1 REINFORCE 알고리듬 3/8
14.2 Actor-Critic 알고리듬
15주차 딥 강화학습 - 4 + 강의 정리 + 전문가 사례소개 (1) 15.1 A3C 알고리듬 3/8
15.2 강의 정리 및 요약
15.3 학계 전문가 강연
16주차 전문가 사례소개 (2) 16.1 산업계 전문가 강연 3/15
17주차 기말고사 기말고사 3/15

강좌 운영진

  교수소개  

정태수교수님사
정태수
고려대학교 산업경영공학부 부교수
고려대학교 공학대학원 스마트제조학과 주임교수
前)싱가포르 국립대학, 산업시스템공학과 조교수
前)Norfolk Southern Corp., Operations Research Analyst
前)한국전자통신연구원, 연구원
E-mail: tcheong@korea.ac.kr

  TA/운영진  

강성호조교님사진
강성호
고려대학교 일반대학원 산업경영공학과 박사수료
E-mail: ght2game@korea.ac.kr
강좌 이수 요건
강좌 이수 요건표
  • 퀴즈(20%)+중간고사(40%)+기말고사(40%)의 비중으로 성적에 반영됩니다.
  • 전체 학습활동을 평가한 결과, 60% 이상의 학습 성과를 획득한 학습자에게 이수증을 발급할 예정입니다.
  • 교재 및 참고문헌

      참고교재  

    Reinforcement Learning: An Introduction
  •    R.S. Sutton and A.G. Barto (2018)
       『Reinforcement Learning: An Introduction』 MIT Press, Cambridge, MA   
  • Markov Decision Processes: Discrete Stochastic Dynamic Programming
  •    M.L. Puterman (2005)
       『Markov Decision Processes: Discrete Stochastic Dynamic Programming』
       Wiley-Interscience 
  • 관련 강좌

    현재 강좌와 관련있는 강좌를 찾을 수 없습니다.
    1. Subject

      Engineering
      (Computers & Communication)
    2. 강좌 내용의 어려운 수준을 의미합니다. 교양, 전공기초, 전공심화 순으로 난이도가 증가합니다.

      Course difficulty

      intermediate
    3. 강좌를 개발하고 운영하는 기관입니다. 컨소시엄으로 운영 시, 대표기관의 명칭이 나타납니다

      Institution

      KOREA UNIVERSITY
    4. 운영 기관의 전화번호 입니다.

      Phone

      02-3290-1581
    5. 강좌의 구성 주차 수를 의미합니다. (강좌를 충실히 학습하기 위해 필요한 주당 학습시간을 의미합니다.)

      Course Week
      (Estimated Effort)

      17week
      (주당 01시간 50분)
    6. 본 강좌 이수자에게 인정되는 학습시간으로 해당 강좌의 동영상, 과제, 시험, 퀴즈, 토론 등의 시간을 포함합니다. (강의 내용과 관련된 동영상 재생 시간의 총 합계입니다.)

      Accredited learning time
      (Video Duration)

      29시간 30분
      (25시간 00분)
    7. 수강신청이 가능한 기간으로 해당 기간 내에만 수강신청이 가능합니다.

      Registration Period

      2021.01.25 ~ 2021.03.19
    8. 강좌가 운영되고 교수지원이 이루어지는 기간입니다. 이수증은 강좌운영기간이 종료된 이후에 발급받을 수 있습니다.

      Classes Period

      2021.01.25 ~ 2021.03.19
    9. ※ 만족도 응답 표본 수 미달 등 일정 기준이 충족되지 않은 경우 별점이 공개되지 않을 수 있습니다.