데이터 사이언스

개요

누구나 데이터 과학을 할 수 있다는 의미로 ‘시민 데이터 과학자의 등장’을 이야기한다. (PyTorch를 활용한 머신러닝, 딥러닝 철저 입문, 2018)

데이터 과학을 위한 통계 2017, 2018

  • EDA
  • 데이터와 표본 분포: Selection bias, Student’s t-distribution, Poisson distribution
  • 통계적 실험과 유의성 검정: A/B test, Hypothesis testing, p-value
  • 회귀와 예측
  • 분류
  • 통계적 머신러닝
  • 비지도 학습

NOTE: 데이터 과학자가 t 분포와 중심극한정리에 대해 알아야 할 것은 무엇일까? 실은 별로 없다. 이러한 분포는 고전적인 통계적 추론에 사용되기는 하지만, 데이터 과학이 주로 추구하는 목적과는 조금 거리가 있다. 데이터 과학자에게는 불확실성과 변동성을 이해하고 정량화 하는 것이 중요하다. 이러한 목적을 위해서라면, 경험적 부트스트랩 표본추출을 통해서도 표본 오차에 대한 대부분의 질문에 답을 얻을 수 있다. 하지만 데이터 과학자들은 R과 같은 통계 소프트웨어 혹은 A/B 테스트나 회귀분석과 같은 통계 절차를 통해 나온 t 통계량을 매일 만나게 될 테니 알아두면 도움이 된다. p.92

재표본추출 resampling

재표본추출에는 부트스트랩과 순열검정 permutation test이라는 두 가지 주요 유형이 있다.

  • 순열검정: 두 개 이상의 표본이 관여되며 이들은 통상적으로 A/B 또는 기타 가설검정을 위해 사용되는 그룹들이다. 첫 단계는 그룹 A, 그룹 B(더 필요하다면 C, D, …)의 결과를 하나로 합치는 것이다. 이는 그룹들에 적용된 처리 결과가 다르지 않다는 귀무가설을 논리적으로 구체화 한 것이다. 그런 다음 이 결합된 집합에서 무작위로 그룹을 뽑아 가설을 검정하고 서로 얼마나 다른지 살핀다.

2017 Book Reports · 2018 Book Reports · 2019 Book Reports · AWS · Activation, Cost Functions · CNN, RNN · C++ · Decision Tree · Docker · Go · HTML, CSS, JavaScript · Hadoop, Spark · Information Retrieval · Java · Jupyter Notebooks · Keras · LeetCode · LifeHacks · MySQL · NLP 가이드 · NLP 실험 · NLP · Naive Bayes · OAuth 2.0 · OOP · Project Management · Python Data Structure Cheatsheet · Python · RSA · Software Deployment · Support Vector Machine · TensorRT · Word Embedding · XGBoost · Scikit Learn · 거리 · 데이터 마이닝 · 데이터 사이언스 · 딥러닝 · 머신러닝 분류기 · 머신러닝 · 미래학 · 비지니스 · 사회심리학 · 수학 · 알고리즘 · 영어 · 운영체제 · 이산수학 · 인공지능 · 자료구조 · 진화생물학 · 컴파일러 · 컴퓨터시스템구조 · 통계학 응용 · 통계학 ·
is a collection of Papers I have written.
© 2000 - Sang-Kil Park Except where otherwise noted, content on this site is licensed under a CC BY-NC 4.0.
This site design was brought from Distill.