![[집콕]R 데이터 분석 입문 이미지](/asset-v1:DKUK+DKUK0003+2020_T3+type@asset+block@_집콕_R데이터_분석_입문_210120_수정_.jpg)
[집콕]R 데이터 분석 입문
DKUK
01 강의소개
R 은 Python 과 더불어서 통계, 데이터 분석 분야에서 널리 사용되는 오픈소스 소프트웨어입니다. R 은 다양한 기능을 수행하는 패키지들이 계속해서 추가되어 데이터의 가공, 분석, 시각화가 용이하고 데이터 마이닝, 기계학습 분야를 위한 최신 이론들도 패키지로 제공되고 있어 그 활용도가 매우 높은 소프트웨어라고 할 수 있습니다. 일반적인 프로그래밍 언어는 전공자가 아니면 쉽게 접근하기 어려운 것과는 달리 R 은 비전공자도 쉽게 배우고 활용할 수 있는 장점이 있습니다. 본 강의는 R 의 기본 문법 및 프로그래밍 방법을 배우고, 이를 기반으로 데이터 분석에 관련된 다양한 내용을 학습하는 것을 목표로 합니다. 수강 대상은 R 프로그래밍의 기초적인 내용을 알고 싶으신 분, R 프로그래밍을 활용하여 데이터 분석을 시도하고 싶으신 분이며, 별도의 선수 과목은 없습니다. 강의 수강후 학습자들은 R에서 데이터를 읽어들여 분석이 필요한 부분을 추출하거나, 데이터를 변형, 가공할 수 있고, 다양한 방법으로 데이터를 시각화 할 수 있으며, 데이터에 함축된 정보를 찾아내어 표현할 수 있는 능력을 갖추게 될 것입니다.
02 학습목표
1. 데이터 분석언어인 R 의 기본 문법을 이해하고 활용할 수 있다.
03
강좌소개영상
2. R에서 제공하는 다양한 함수들을 이용하여 데이터를 가공하고 분석할 수 있다.
3. 데이터에 대한 기본적인 시각화를 할 수 있다.
4. 데이터 마이닝 기본 개념을 이해하고 알고리즘을 활용할 수 있다.
04 담당교수
![]() |
오세종 교수
현) 단국대학교 SW융합대학 소프트웨어학과 학력) 서강대학교 컴퓨터 접근제어 이론 박사 주요연구분야) 정보시스템 주요연구분야) 생물정보학 주요연구분야) 데이터 마이닝 주요연구분야) Data Analysis, data vsiualization |
---|
05 주차별 학습내용
• 강좌구성: 총 15주
• 강좌개설: 순차적으로 개설하며, 해당 주차일에 강의가 열립니다.
주차 | 주차명 | 소주제 |
---|---|---|
1 | Introduction | 도래한 데이터의 시대 |
빅 데이터 | ||
R, Rstudio 설치 및 테스트 | ||
2 | R 문법 기초 (1) | |
R 기본사용 | ||
변수(variable) | ||
벡터(vector) | ||
벡터연산, 함수, 논리값 | ||
3 | R 문법 기초 (2) | |
matrix | ||
data frame | ||
matrix, data frame 다루기 | ||
파일에서 데이터 읽어오기/쓰기 | ||
list, factor | ||
4 | 일변량 자료의 탐색 | |
기초 통계 개념 | ||
일변량 질적 자료의 분석 | ||
일변량 양적 자료의 분석 | ||
5 | 다변량 자료의 탐색 | |
산점도 | ||
상관분석 | ||
선 그래프 | ||
데이터분석 사례: iris | ||
6 | R 프로그래밍 | |
if 문 | ||
for, while 문 | ||
사용자정의 함수 | ||
apply 계열 함수 | ||
프로그래밍 예제 | ||
7 | 데이터 시각화 | |
나무지도 | ||
버블차트 | ||
다중상자그림 | ||
모자이크 플롯 | ||
ggplot | ||
8 | 중간고사 | |
9 | 지도상에 데이터 표현하기 | |
특정지역 지도 보기 | ||
지도위에 마커 출력 | ||
지도위에 데이터의 크기 표현하기 | ||
10 | 워드 클라우드 | |
워드 클라우드 | ||
네이버 데이터랩 | ||
구글 트렌드 | ||
11 | 데이터 전처리 | |
결측값(missing value) | ||
이상치(outlier) | ||
정렬(sort, order, rank) | ||
분리(split) & 선택(subset) | ||
샘플링(sampling) | ||
데이터 요약(aggregate) | ||
데이터 병합(merge) | ||
12 | 데이터분석 실습 | |
데이터셋 소개 | ||
데이터셋 읽어오기 및 전처리 | ||
탑승객 상위역 분석 및 시각화 | ||
노선별 분석 및 시각화 | ||
시간대별 탑승객수 분석 | ||
구글맵 위에 탑승객수 매핑 | ||
13 | 데이터마이닝 기초 (1) | |
단순 선형 회귀 | ||
중선형 회귀 | ||
로지스틱 회귀 | ||
14 | 데이터마이닝 기초 (2) | |
군집화, 분류 | ||
k-means clustering | ||
KNN classification | ||
k-fold cross validation | ||
15 | 최종평가 |
06 강좌 신청기간 및 강좌일정
• 강좌개강일정: 2020년 8월 31일(월)
• 강좌신청기간: 2020년 8월 24일(월) ~ 2020년 11월 27일(금)
• 강좌학습일정: 2020년 8월 31일(월) ~ 2020년 12월 18일(금)
07 이수기준
• Pass/Fail (100점 만점에 종합성적 60점 이상인 경우 이수)
과제 | 중간고사 | 최종평가 | 합계 |
---|---|---|---|
20% | 40% | 40% | 100% |
•과제 : 차시별 과제가 제시되며 총 41개임.
●●●●(단, 일부 차시 과제 없음. 4-1, 6-1, 6-4, 9-2, 9-3, 10-4, 10-6, 11-1, 11-2, 11-4, 13-1차시)
•중간, 최종평가 : 객관식 20문항, 풀이가능횟수는 1회이며, 정확한 일정과 평가 기준은 추후 재공지 예정임.
08 담당TA
![]() |
강재구
단국대학교 일반대학원 데이터지식서비스공학과 석사(재학) dankook.kmooc.R@gmail.com |
---|---|
![]() |
정대일
단국대학교 일반대학원 데이터지식서비스공학과(재학) dankook.kmooc.R@gmail.com |