강좌 상세페이지 배경
참여기관 목록
강좌소개
수업계획서
주차 | 주차명(주제) | 차시 | 차시명(학습내용) | 평가방법 |
1 | 강화학습 소개 | 1-1 | 강화학습의 개요 | 퀴즈 |
1-2 | 강화학습의발전 과정 | |||
1-3 | 강화학습의 구성 요소 | |||
1-4 | 강화학습의 동작 방식 | |||
1-5 | 강화학습의 문제 해결 방법 | |||
2 | 다중 슬롯머신 문제 | 1-1 | 다중 슬롯머신 소개 | 퀴즈 |
1-2 | 탐욕적 알고리즘 | |||
1-3 | 점진적 구현 | |||
1-4 | 신뢰 상한 행동 선택 | |||
1-5 | 경사도 다중 슬롯머신 알고리즘 | |||
3 | 마르코프 결정 프로세스 (MDP) | 1-1 | MDP의 정의 | 퀴즈 |
1-2 | MDP의 구성 요소 | |||
1-3 | MDP의 목표 | |||
1-4 | 정책 평가와 개선 | |||
1-5 | MDP를 활용한 문제 해결 | |||
4 | 벨만 방정식 | 1-1 | 상태 가치 함수의 | 퀴즈 |
1-2 | 행동 가치 함수의 | |||
1-3 | 상태 가치 함수의 | |||
1-4 | 행동 가치 함수의 | |||
1-5 | 벨만 방정식의 적용 | |||
5 | 모델 기반 플래닝 | 1-1 | 동적 프로그래밍 소개 | 퀴즈 |
1-2 | 반복적 정책 평가 | |||
1-3 | 정책 최적화를 위한 정책 반복법 | |||
1-4 | 정책 최적화를 위한 가치 반복법 | |||
1-5 | 정책 반복법과 가치 반복법 비교 | |||
6 | 모델 프리 가치 평가 | 1-1 | 모델 프리 학습 개요 | 퀴즈 |
1-2 | MC(Monte Carlo) 기반 가치 평가 | |||
1-3 | TD(Temporal Difference) 기반 가치 평가 | |||
1-4 | MC와 TD 기법 비교 | |||
1-5 | TD 기법의 확장 | |||
7 | 모델 프리 정책 최적화 | 1-1 | MC 기반 정책 최적화 | 퀴즈, 과제 |
1-2 | SARSA 알고리즘 | |||
1-3 | Q-러닝 알고리즘 | |||
1-4 | SARSA와 Q-러닝 알고리즘 비교 | |||
1-5 | SARSA와 Q-러닝의 변형 | |||
8 | 중간고사 |
| 중간고사 응시 | 중간고사 |
9 | 강화학습을 위한 딥러닝 | 1-1 | 딥러닝 개요 | 퀴즈 |
1-2 | CNN(Convolutional Neural Network) | |||
1-3 | RNN(Recurrent Neural Network) | |||
1-4 | 신경망의 학습 | |||
1-5 | 강화학습에서 딥러닝의 역할 | |||
10 | 심층 강화학습 | 1-1 | 강화학습에서 피드백 유형 | 퀴즈 |
1-2 | 강화학습을 위한 함수 근사화 | |||
1-3 | Q-러닝의 신경망 구현 | |||
1-4 | 정책 경사법 소개 | |||
1-5 | 심층 강화학습 알고리즘 분류 | |||
11 | 가치 기반 심층 강화학습 | 1-1 | DQN(Deep Q Network) | 퀴즈 |
1-2 | Double DQN | |||
1-3 | Dueling DQN | |||
1-4 | 우선순위 경험 재현 | |||
1-5 | Rainbow | |||
12 | 정책 기반 심층 강화학습 | 1-1 | REINFORCE 알고리즘 | 퀴즈 |
1-2 | Actor-Critic 알고리즘 | |||
1-3 | DDPG(Deep Deterministic Policy Gradient) | |||
1-4 | SAC(Soft Actor-Critic) | |||
1-5 | TRPO(Trust Region Policy Optimization)와 PPO(Proximal Policy Optimization) | |||
13 | 강화학습과 알파고 | 1-1 | 알파고의 구조 | 퀴즈 |
1-2 | MCTS(Monte Carlo Tree Search) | |||
1-3 | 알파고의 학습 방법 | |||
1-4 | 알파고 제로 | |||
1-5 | 알파제로 | |||
14 | 메타 강화학습 | 1-1 | 메타러닝 소개 | 퀴즈 |
1-2 | 메타러닝 종류 | |||
1-3 | 순환 정책 메타 강화학습 | |||
1-4 | 최적화 기반 메타 강화학습 | |||
1-5 | 컨텍스트 기반 메타 강화학습 | |||
15 | 기말고사 |
| 기말고사 응시 | 기말고사 |
강좌운영진
-
김정현 교수
세종대학교 인공지능데이터사이언스학과 교수
前 한국전자통신연구원 연구원
前 삼성전자 삼성리서치 책임연구원
-
여예린 (학습지원)
문의 : yealin0817@gmail.com
-
조예지 (학습지원)문의 : qryjm1502@gmail.com
자주묻는질문
Q 강좌 이수 기준이 어떻게 되나요?
A 이수 기준 총점 60점 이상입니다.
Q 평가 계획이 궁금합니다.
A △퀴즈(매주, 20%) △과제(1회, 20%) △중간고사(1회, 30%) △기말고사(1회, 30%)
기타·문의처
세종대학교 Sejong-MOOC센터 02-3408-3864