참여기관 목록
강좌소개

■ 학습 목표: 인공지능 기계학습 분야 중 하나인 강화학습의 수학적 기초와 알고리듬에 대한 이해
■ 수업 내용: 본 강의는 인공지능의 주요분야 중 하나인 강화학습(reinforcement learning) 방법론의 기본 수학적 개념과 원리를 다루고 있습니다. 강화학습의 최신이론을 설명하는 것 대신, 강화학습을 구성하는 기본적인 원리의 이해를 돕기 위해 강화학습의 수학적인 근간이 되는 '동적계획법', '마르코브 과정', '마르코브 의사결정 프로세스' 등에 대해 그 개념을 예시와 함께 설명하고, 이를 바탕으로 강화학습 방법론들에 대해 보다 쉽게, 깊은 이해를 할 수 있도록 도움을 주는 강의입니다.
■ 추천 학습 대상 체크리스트
1. 인공지능에 관심이 있다.
2. 강화학습의 원리를 이해하고 싶다.
3. 인공지능 분야의 기초지식을 쌓고 싶다.
4. 강화학습의 주요 원리인 동적계획법, 마르코프 체인, 몬테카를로 알고리듬 등을 체계적으로 이해하고 싶다.
한 가지라도 해당된다면 이 강좌를 추천합니다!

주차 | 주제 | 강의명 |
---|---|---|
1주차 | 강화학습의 이해 | 1.1 강화학습 개요 |
1.2 Multi-armed Bandit 문제 | ||
1.3 강화학습 맛보기 | ||
2주차 | 동적계획법 - 1 | 2.1 문제해결전략과 동적 계획법 |
2.2 동적 계획법의 주요개념(1) 최적화의 원리 | ||
2.3 동적 계획법의 주요개념(2) 중첩되는 부분문제와 역진귀납법 | ||
3주차 | 동적계획법 - 2 | 3.1 최단거리 문제 (Shortest Path) |
3.2 방문판매원 문제(Traveling Salesman Problem, TSP) | ||
3.3 배낭문제 (Knapsack Problem) | ||
4주차 | 마르코브 과정 | 4.1 마르코브 프로세스 개요 |
4.2 마르코브 프로세스 예시 | ||
4.3 마르코브 보상 프로세스 | ||
5주차 | 마르코브 결정 프로세스 - 1 | 5.1 MDP 개요 |
5.2 MDP 예시 - Examples of Markov Decision Process | ||
6주차 | 마르코브 결정 프로세스 - 2 | 6.1 MDP 가치함수 |
6.2 Infinite-horizon MDP | ||
7주차 | 마르코브 결정 프로세스 - 3 | 7.1 Value Iteration |
7.2 Policy Iteration | ||
8주차 | 중간고사 | 중간고사 |
9주차 | 강화학습 알고리듬 - 1 | 9.1 강화학습 Model-Free Reinforcement Learning |
9.2 몬테칼로 학습 Monte-Carlo Learning | ||
10주차 | 강화학습 알고리듬 - 2 | 10.1 시간차 학습 Temporal-Difference (TD) Learning |
10.2 SARSA 알고리듬 | ||
11주차 | 강화학습 알고리듬 - 3 | 11.1 On-policy vs. Off-policy |
11.2 Q-Learning 알고리듬 | ||
12주차 | 딥 강화학습 - 1 | 12.1 인공신경망 개요 |
12.2 Deep Q-Network (DQN) 개요 | ||
13주차 | 딥 강화학습 - 2 | 13.1 정책경사 (Policy Gradient) 개요 |
13.2 정책경사 정리 (Policy Gradient Theorem) 리뷰 | ||
14주차 | 딥 강화학습 - 3 | 14.1 REINFORCE 알고리듬 |
14.2 Actor-Critic 알고리듬 | ||
15주차 | 딥 강화학습 - 4 + 강의 정리 + 전문가 사례소개 (1) | 15.1 A3C 알고리듬 |
15.2 강의 정리 및 요약 | ||
15.3 학계 전문가 강연 | ||
16주차 | 전문가 사례소개 (2) | 16.1 산업계 전문가 강연 |
17주차 | 기말고사 | 기말고사 |

교수소개

- 정태수
- 고려대학교 산업경영공학부 부교수
- 고려대학교 공학대학원 스마트제조학과 주임교수
- 前)싱가포르 국립대학, 산업시스템공학과 조교수
- 前)Norfolk Southern Corp., Operations Research Analyst
- 前)한국전자통신연구원, 연구원
- E-mail: tcheong@korea.ac.kr
TA/운영진

- 강성호
- 고려대학교 일반대학원 산업경영공학과 박사수료
- E-mail: ght2game@korea.ac.kr



참고교재

- R.S. Sutton and A.G. Barto (2018)
『Reinforcement Learning: An Introduction』 MIT Press, Cambridge, MA

- M.L. Puterman (2005)
『Markov Decision Processes: Discrete Stochastic Dynamic Programming』
Wiley-Interscience
추천강좌
-
AI 알고리즘 개강예정 이수증AI 알고리즘
권수태
한국연구재단 산업교육센터
D-12 2025.06.24 ~ 2025.07.27-
운영기관
운영기관 한국연구재단 산업교육센터
-
주차
주차 15 주
-
학습인정시간
학습인정시간 (총 동영상시간) 19시간 00분 (19시간 50분)
-
운영기관
-
빅데이터를 위한 확률과 통계 개강예정 이수증빅데이터를 위한 확률과 통계
백창현
고려사이버대학교(매치업)
D-18 2025.06.30 ~ 2025.11.23-
운영기관
운영기관 고려사이버대학교(매치업)
-
주차
주차 8 주
-
학습인정시간
학습인정시간 (총 동영상시간) 15시간 00분 (09시간 52분)
-
운영기관
-
선형대수로 배우는 빅데이터 개강예정 이수증선형대수로 배우는 빅데이터
김경호
고려사이버대학교(매치업)
D-18 2025.06.30 ~ 2025.11.23-
운영기관
운영기관 고려사이버대학교(매치업)
-
주차
주차 8 주
-
학습인정시간
학습인정시간 (총 동영상시간) 17시간 15분 (12시간 00분)
-
운영기관
-
SQL 정형 데이터 분석 개강예정 이수증SQL 정형 데이터 분석
이건길
고려사이버대학교(매치업)
D-18 2025.06.30 ~ 2025.08.24-
운영기관
운영기관 고려사이버대학교(매치업)
-
주차
주차 8 주
-
학습인정시간
학습인정시간 (총 동영상시간) 15시간 00분 (09시간 51분)
-
운영기관
-
빅데이터 프레임워크 개강예정 이수증빅데이터 프레임워크
김윤기
고려사이버대학교(매치업)
D-18 2025.06.30 ~ 2025.08.24-
운영기관
운영기관 고려사이버대학교(매치업)
-
주차
주차 8 주
-
학습인정시간
학습인정시간 (총 동영상시간) 14시간 36분 (09시간 40분)
-
운영기관
-
컴퓨터로 여는 미래사회 진행중 이수증컴퓨터로 여는 미래사회
정재화
한국방송통신대학교
2025.06.02 ~ 2025.09.12한국방송통신대학교 방송대 방통대 방송통신대 컴퓨터 프로그램 디지털-
운영기관
운영기관 한국방송통신대학교
-
주차
주차 15 주
-
학습인정시간
학습인정시간 (총 동영상시간) 22시간 34분 (18시간 02분)
-
운영기관
-
생성형 AI를 적용시킨 Unreal engine 활용 진행중 이수증생성형 AI를 적용시킨 Unreal engine 활용
조옥희
상명대학교
2025.06.02 ~ 2025.06.30-
운영기관
운영기관 상명대학교
-
주차
주차 5 주
-
학습인정시간
학습인정시간 (총 동영상시간) 15시간 00분 (06시간 49분)
-
운영기관
-
Unreal engine 릴 이펙트 및 렌더링 최적화 진행중 이수증Unreal engine 릴 이펙트 및 렌더링 최적화
조옥희
상명대학교
2025.06.02 ~ 2025.06.30-
운영기관
운영기관 상명대학교
-
주차
주차 4 주
-
학습인정시간
학습인정시간 (총 동영상시간) 12시간 00분 (05시간 31분)
-
운영기관
-
부동산 데이터의 활용 진행중 이수증부동산 데이터의 활용
김창희 외 1 명
인천대학교
2025.06.02 ~ 2025.06.30인천대학교 한국부동산원 부동산 공공데이터 게임 보드게임 사회문제 사회문제해결-
운영기관
운영기관 인천대학교
-
주차
주차 8 주
-
학습인정시간
학습인정시간 (총 동영상시간) 5시간 00분 (03시간 13분)
-
운영기관
-
부동산 데이터 도메인 지식의 이해 진행중 이수증부동산 데이터 도메인 지식의 이해
김재한 외 6 명
인천대학교
2025.06.02 ~ 2025.06.30인천대학교 한국부동산원 부동산 공공데이터 도메인 전세사기-
운영기관
운영기관 인천대학교
-
주차
주차 7 주
-
학습인정시간
학습인정시간 (총 동영상시간) 5시간 00분 (03시간 44분)
-
운영기관
같은기관강좌
-
문학 데이터 분석 실습 진행중 이수증문학 데이터 분석 실습
이승은
고려대학교
2025.05.20 ~ 2025.06.30-
운영기관
운영기관 고려대학교
-
주차
주차 4주
-
학습인정시간
학습인정시간 (총 동영상시간) 6시간 00분 (04시간 03분)
-
운영기관
-
데이터 분석 기초 진행중 이수증데이터 분석 기초
송상헌
고려대학교
2025.05.20 ~ 2025.06.30-
운영기관
운영기관 고려대학교
-
주차
주차 10주
-
학습인정시간
학습인정시간 (총 동영상시간) 18시간 00분 (09시간 38분)
-
운영기관
-
역사 데이터 분석 실습 진행중 이수증역사 데이터 분석 실습
김근하
고려대학교
2025.05.20 ~ 2025.06.30-
운영기관
운영기관 고려대학교
-
주차
주차 4주
-
학습인정시간
학습인정시간 (총 동영상시간) 6시간 00분 (04시간 02분)
-
운영기관
-
공감의 뇌과학 진행중 이수증공감의 뇌과학
강준
고려대학교
2025.03.11 ~ 2025.06.16-
운영기관
운영기관 고려대학교
-
주차
주차 14주
-
학습인정시간
학습인정시간 (총 동영상시간) 18시간 26분 (18시간 02분)
-
운영기관
-
인공지능 시대의 언어학 입문 진행중 이수증인공지능 시대의 언어학 입문
송상헌
고려대학교
2025.03.11 ~ 2025.06.30-
운영기관
운영기관 고려대학교
-
주차
주차 16주
-
학습인정시간
학습인정시간 (총 동영상시간) 20시간 32분 (17시간 20분)
-
운영기관
-
미래 모빌리티 종료(청강)미래 모빌리티
김중헌
고려대학교
2025.03.11 ~ 2025.04.28-
운영기관
운영기관 고려대학교
-
주차
주차 7주
-
학습인정시간
학습인정시간 (총 동영상시간) 9시간 32분 (07시간 45분)
-
운영기관
-
AR/VR과 메타버스 종료(청강)AR/VR과 메타버스
김승현
고려대학교
2025.03.11 ~ 2025.04.28-
운영기관
운영기관 고려대학교
-
주차
주차 7주
-
학습인정시간
학습인정시간 (총 동영상시간) 7시간 00분 (05시간 03분)
-
운영기관
-
사물인터넷(Internet of Things) 종료(청강)사물인터넷(Internet of Things)
이상현
고려대학교
2025.03.11 ~ 2025.05.19-
운영기관
운영기관 고려대학교
-
주차
주차 10주
-
학습인정시간
학습인정시간 (총 동영상시간) 20시간 00분 (10시간 02분)
-
운영기관
-
ICBM+AI 개론 종료(청강)ICBM+AI 개론
안문석 외 5 명
고려대학교
2025.03.11 ~ 2025.04.21-
운영기관
운영기관 고려대학교
-
주차
주차 6주
-
학습인정시간
학습인정시간 (총 동영상시간) 12시간 00분 (06시간 31분)
-
운영기관
-
한국 알리기 외교 진행중 이수증한국 알리기 외교
Choong-Hee Hahn 외 5 명
고려대학교
2025.03.11 ~ 2025.06.16-
운영기관
운영기관 고려대학교
-
주차
주차 14주
-
학습인정시간
학습인정시간 (총 동영상시간) 20시간 00분 (17시간 27분)
-
운영기관