5
KU Data Science Syllabus 1 KU Data Science Syllabus IDS501-00 < > | 2021 IDS501-00 Professor: | Dr. Yoonjung Joo Lecture: 2:00-3:15pm, Mon/Weds Online office hours: 11:00am-01:00pm, Tue Appointment only, can be one-on-one or a small group Email: [email protected] I try to stay on top of email, but don’t expect me to reply at all hours. If I haven’t replied back after 3 days, feel free to ping me again. TA: TBA Office hours: TBA Email: TBA Course Description . 4 , ‘ . , < > < > . , , , , R programming . 2021 3 , / . Prerequisite: None. Welcome everyone without prior statistical/programming knowledge.

KU Data Science Syllabus

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: KU Data Science Syllabus

KU Data Science Syllabus 1

📄KU Data Science Syllabus

📌 IDS501-00 고려대학교 대학원 일반공통 <데이터과학> 실라버스 | 2021년 봄학기

IDS501-00Professor: 주윤정 | Dr. Yoonjung Joo

Lecture: 2:00-3:15pm, Mon/Weds

Online office hours: 11:00am-01:00pm, Tue

💡 Appointment only, can be one-on-one or a small group

Email: [email protected]

💡 I try to stay on top of email, but don’t expect me to reply at all hours. If I haven’t replied back after 3 days, feel free to ping me again.

TA: TBA

Office hours: TBA

Email: TBA

📜 Course Description기본적인 데이터과학적 소양 없이는 살아남기 어려운 세상이다. 4차 산업혁명 시대가 도래함에 따라 분야를 막론하고 빅데이터가 범람하고, ‘진짜’ 정보를 구분하고 ‘객관적인’ 의사결정을 위한 데이터과학이 누구에게나 필요하다. 데이터과학은 단순한 통계와 컴퓨터 프로그래밍의 접목이 아닌, 하나의 <기술>이 아니라 세상의 수많은 문제들을 합리적으로 풀어갈 <수단>과 같은 필수 요소이다. 본 수업에서는 방대한 데이터 처리, 분석, 활용을 하기 위한 이론을 학습하고, 주기적인 저널리뷰를 통해 데이터과학의 최신 트렌드를 익히며, 실생활 자료를 이용한 R programming 실습을 진행한다. 2021년 3월초 현재 전체 온라인 수업으로 기획되어 있지만, 추후 학생들의 의견이 있다면 온/오프라인 전환도 고려가능하다.

Prerequisite: None. Welcome everyone without prior statistical/programming knowledge.

Page 2: KU Data Science Syllabus

KU Data Science Syllabus 2

🗝 Goal of the Class인문계/자연계 구분없이 모든 분야에 활용할 수 있는 데이터과학의 개념, 절차, 기법을 배우는 입문수업.

실생활에 널리 분포해있는 데이터과학의 영향력을 확인하고, 그중에 가치있는 ‘진짜’ 정보를 파악하고 잘못된 오류를 분별하는 비판적인 데이터과학적 사고관을 함양한다.

데이터를 자신만의 가설로 테스트하고, 의미있고, 합리적인 결론을 도출하는 데이터과학적 의사결정을 배운다.

각종 분야의 데이터분석 페이퍼를 쉽게 해석하고, 이해할 수 있는 기본기를 다진다.

해당 수업시간(75분)내에 끝내는 in-class 코딩세션에 참여해봄으로서, 다양한 실생활 데이터를 이용한 데이터분석의 실무능력을 배양한다.

The goal of this course is to teach students how to answer questions with data. The course will introduce several important concepts and necessary skills to manage and analyze data including exploratory data analysis, statistical inference and modeling, basic machine learning techniques, high-dimensional data analysis, data wrangling, reproducible research, and interdisciplinary communication. All class material will be motivated with real life examples involving data. We will use the R programming language. As with most things in life, you will get out what you put in.

Course Schedule

📌 The syllabus/schedule is subject to change based on the needs of the class.

Schedule

Name Dates Type Topic Contents

📒Week01Class01

📒 Lecture 데이터과학자의 기본소양빅데이터 시대, 왜 우리는 데이터과학자가 되어야하는가? | Why DataScience? + Class Overview

📒Week02Class02

📒 Lecture 데이터과학자의 기본소양 좋은 데이터과학자가 되기 위해 필요한 조건

📒Week02Class03

📒 Lecture데이터과학자의 기본소양

데이터분석법어떻게 데이터과학적 실험을 디자인하는가? | Experimental design

📒Week03Class04

📒 Lecture데이터과학자의 기본소양

데이터분석법

세상엔 어떤 데이터가 어떤 식으로 존재하는가? | 탐색적 데이터분석 |Explanatory data analysis

💻Week03Class05

Lab데이터과학자의 기본소양

데이터분석법

데이터를 어떻게 모으고 관리할 것인가? | Data collection andmanagement

📒Week04Class06

📒 Lecture 데이터과학자의 기본소양데이터 이해에 왜 확률/분포가 필요할까? | Foundation forinference/probability

💻Week04Class07

Lab Introduction to R 코딩이란 무엇인가? | Introduction to R

📒Week05Class08

📒 LectureStatistics

데이터분석법데이터 이해에 필요한 기본통계 | Basic Statistics for Data Science

📒Week06Class09

📒 LectureStatistics

데이터분석법데이터 이해에 필요한 기본통계 | Basic Statistics for Data Science

💻Week06Class10

LabStatistics

데이터분석법데이터 분석결과를 이해하는 통계법 | 회귀분석 모델 만들어보기

@Mar 3, 2021

@Mar 8, 2021

@Mar 10, 2021

@Mar 15, 2021

@Mar 17, 2021

@Mar 22, 2021

@Mar 24, 2021

@Mar 29, 2021

@Mar 31, 2021

@Apr 5, 2021

Page 3: KU Data Science Syllabus

KU Data Science Syllabus 3

Name Dates Type Topic Contents

📒Week06Class11

📒 LectureMachine Learning

데이터분석법

간단한 머신러닝 익히기 (지도학습과 비지도학습) | Introduction toMachine learning - Supervised/Unsupervised learning

📒Week07Class12

📒 LectureMachine Learning

데이터분석법데이터를 설명하는 가장 좋은 모델을 찾는법 | Model evaluation

💻Week07Class13

LabMachine Learning

데이터분석법데이터로 예측모델 만들어보기

📒Week08Class14

📒 Lecture Data Visualization 데이터를 소통하는 방법 + 데이터과학 저널읽는법

💻Week09Class15

Lab Data Visualization 데이터 시각화 및 공간지도 그려보기

📒Week10Class16

📒 LectureText analysis

데이터분석법

문자형 데이터는 어떻게 분석할까? | Text manipulation - NLP andregular expression

💻Week11Class17

LabText analysis

데이터분석법

텍스트마이닝과 감성분석 | 트럼프의 트위터는 누가 어떤 폰으로 썼을까? | Text analysis and Sentiment analysis

📒Week11Class18

📒 Lecture Data Sci in Academia서울대학교 심리학과 차지욱 교수님 강연 ("인문/심리학에서의 데이터과학")

📒Week12Class19

JournalClub

📒 LectureData Sci in Academia Special Topics in Data Science

📒Week13Class20

JournalClub

📒 Lecture

Statistics

데이터분석법시간차가 있는 데이터를 분석하는 방법 | Longitudinal data analysis

📒Week13Class21

JournalClub

📒 Lecture데이터과학자의 기본소양 재현가능한 실험 | Reproducible workflow

📒Week14Class22

JournalClub

📒 Lecture데이터과학자의 기본소양 Debugging and defensive programming

📒Week14Class23

JournalClub

📒 Lecture

AI

데이터과학자의 기본소양인공지능과 딥러닝 알고리즘 이야기 | AI and deep neural network

📒Week15Class24

JournalClub

📒 Lecture

AI

데이터과학자의 기본소양인공지능과 딥러닝 알고리즘 이야기 | AI and deep neural network

📒Week15Class25

JournalClub

📒 Lecture

AI

데이터과학자의 기본소양데이터과학의 미래와 한계 | Data, Ethics and Society

💯Week16Class26

📌 Assignment Data Science Conference Day - Final presentation

📌 Finalreport

📌 Assignment

@Apr 7, 2021

@Apr 12, 2021

@Apr 14, 2021

@Apr 19, 2021

@Apr 28, 2021

@May 3, 2021

@May 10, 2021

@May 12, 2021

@May 17, 2021

@May 24, 2021

@May 26, 2021

@May 31, 2021

@Jun 2, 2021

@Jun 7, 2021

@Jun 9, 2021

@Jun 14, 2021

@Jun 14, 2021

Page 4: KU Data Science Syllabus

KU Data Science Syllabus 4

🏆 Grading

Breakdown

출석: 20점

구글퀴즈 형식. 해당 수업시간 내 제출시 무조건 Pass 지만 내용을 보고 반 이상 엉뚱한 답을 제출했다면 0점 처리. (틀림유무가 아님)

출석체크 마감은 해당 수업이 끝나는 오후 3:30pm 까지이며, 마감시한이 넘은 제출은 점수를 계산하지 않습니다.

최대 2번의 결석은 조건없이 허용되며, 점수에 반영되지 않습니다.

Scale

A 90%~100% B 80%~90% C 70%~80% D 60%~70% F < 60%

과제: 60점

[Part 1] In-class Lab 과제: 30점 (6점 * 5회)

총 6번의 Lab session 이 진행되고, 이중 가장 점수가 낮은 과제 1개는 점수에 포함시키지 않습니다.

코딩이 있을 경우 R markdown 이나 pdf 형식의 리포트를 제출합니다. (마감: 3:30pm)

[Part 2] 저널리뷰: 30점

저널퀴즈 18점 (페이퍼당 2점 * 본인발표 제외하고 9번, Pass or Fail) + 저널리뷰 발표: 10점 + 동료평가 2점

기말고사 발표 및 제안서: 20점

포스터 발표 5분 10점 + 프로젝트 보고서A4 3-4장 이내 10점

😢 Class rules 표절은 엄격히 금지된다.

No Plagiarism - Presenting someone else’s ideas as your own, either verbatim or recast in your own words – is a serious academic offense with serious consequences. Please familiarize yourself with the use of plagiarism check software.

다른 구성원들의 인권을 존중함과 동시에 본인 스스로의 인권 역시 존중한다. (배움에 관한 권리를 훼방놓지 않을것)

그룹 프로젝트시 그룹내 동료평가가 존재하며, 이는 Free rider 를 지양하기 위함입니다.

모두가 과제에 24시간 늦을 수 있는 2번의 기회를 받는다. 그 이외에 마감시한이 넘은 과제는 받지않는다. (기말고사 및 출석체크 제외, 오직 과제에만 적용)

All essays and papers are due in lecture (final paper due dates are listed on the schedule).

Late submissions are intended to give students flexibility: students can use them for any reason, no questions asked. Student don’t get any bonus points for not using late submissions. Also, students can only use late days for the individual homework deadlines (e.g. journal review summary) - all other deadlines are hard (e.g., Google quiz, final exam).

과제 제출시 모든 파일은 either MS Words (.doc, .docx) or PDF format (.pdf) 의 제출을 바랍니다. (한글과컴퓨터 .hwp 사용금지)

기말대체 리포트의 경우, 폰트는 자유지만 크기 10-12pt. 줄간격 Single-spaced. Layout margin normal (상하좌우 1인치) 등 기본적인 사항 준수.

지정교과서는 없고, 매 강의 슬라이드는 KU Blackboard 에 수업전 업로드된다.

한주당 3~5시간 정도의 workload 를 기대한다.

최대 2번의 결석은 조건없이 허용될 수 있다.

해당 수업은 AI 모델이나 알고리즘을 깊게 다루지 않는다.

Do not expect serious AI study from this course.

Page 5: KU Data Science Syllabus

KU Data Science Syllabus 5

🧠 Final Examination데이터사고적 문제해결하기 - 원하는 데이터(공공 및 연구) 를 찾아서 자신만의 데이터과학분석 프로젝트를 디자인 및 분석해서 제출한다 (추후 안내).

The final examination will consist of an essay written about your personal data analysis project. Throughout the course, try sketching what kind of problem you want to solve with real-world data and how your final product should look like.

📚 Readings

📌 There is no required textbook for this course. There are several recommended books specified below. Hover over any item and click the link to access the textbook freely available online.

Additional Learning Materials | 온라인 참고교과서들

Name Author Publisher Year URL

An Introduction to StatisticalLearning

Gareth James, Daniela Witten, Trevor Hastieand Rob Tibshirani

Springer 2013 https://www.statlearning.com/

Bit by Bit: Social Research inthe Digital Age

Salganik, Matthew JPrincetonUniversity Press

2017https://www.bitbybitbook.com/en/1st-ed/preface/

Mathematics for MachineLearning

Marc Peter Deisenroth, A. Aldo Faisal, andCheng Soon Ong.

CambridgeUniversity Press

2020 https://mml-book.github.io/

Recommended Preparation:

1. Try to read the reading materials beforehand.

2. Try to play with publicly available datasets.

3. Try to learn some basic programming languages. (Need a guide? Read The ten commandments for learning how to code, Nature, 2019)

생활코딩 R programming 강좌 | 국문

R programming

데이터 분석 오픈소스로 자주 언급되고 있는 R 언어를 소개해 드립니다. 데이터 분석을 Programming을 접목시켜 효율적으로 하기

https://opentutorials.org/course/2070

Coursera Data Science courses | 영문

Data Science Online Courses | Coursera

Choose from hundreds of free Data Science courses or pay to earn a Course or Specialization Certificate. Data science

https://www.coursera.org/browse/data-science

네이버 커넥트재단 에드위드 | 국문

에듀케이션위드 : edwith

에드위드(edwith)는 네이버(NAVER)와 네이버 커넥트재단(NAVER Connect)이 제공하는 온라인 강좌(MOOC : Massive Online Open

https://www.edwith.org/

하버드 제공 온라인 R courses | 영문

Online R Courses

Browse the latest online R courses from Harvard University, including "Data Science: R Basics" and "Data Science:

https://online-learning.harvard.edu/subject/r