데이터 사이언스

개요

누구나 데이터 과학을 할 수 있다는 의미로 ‘시민 데이터 과학자의 등장’을 이야기한다. (PyTorch를 활용한 머신러닝, 딥러닝 철저 입문, 2018)

AI Career Pathways

링크

Books

데이터 과학을 위한 통계 2017, 2018

  • EDA
  • 데이터와 표본 분포: Selection bias, Student’s t-distribution, Poisson distribution
  • 통계적 실험과 유의성 검정: A/B test, Hypothesis testing, p-value
  • 회귀와 예측
  • 분류
  • 통계적 머신러닝
  • 비지도 학습

NOTE: 데이터 과학자가 t 분포와 중심극한정리에 대해 알아야 할 것은 무엇일까? 실은 별로 없다. 이러한 분포는 고전적인 통계적 추론에 사용되기는 하지만, 데이터 과학이 주로 추구하는 목적과는 조금 거리가 있다. 데이터 과학자에게는 불확실성과 변동성을 이해하고 정량화 하는 것이 중요하다. 이러한 목적을 위해서라면, 경험적 부트스트랩 표본추출을 통해서도 표본 오차에 대한 대부분의 질문에 답을 얻을 수 있다. 하지만 데이터 과학자들은 R과 같은 통계 소프트웨어 혹은 A/B 테스트나 회귀분석과 같은 통계 절차를 통해 나온 t 통계량을 매일 만나게 될 테니 알아두면 도움이 된다. p.92

재표본추출 resampling

재표본추출에는 부트스트랩과 순열검정 permutation test이라는 두 가지 주요 유형이 있다.

  • 순열검정: 두 개 이상의 표본이 관여되며 이들은 통상적으로 A/B 또는 기타 가설검정을 위해 사용되는 그룹들이다. 첫 단계는 그룹 A, 그룹 B(더 필요하다면 C, D, …)의 결과를 하나로 합치는 것이다. 이는 그룹들에 적용된 처리 결과가 다르지 않다는 귀무가설을 논리적으로 구체화 한 것이다. 그런 다음 이 결합된 집합에서 무작위로 그룹을 뽑아 가설을 검정하고 서로 얼마나 다른지 살핀다.

Last Modified: 2022/04/25 02:50:38

is a collection of Papers I have written.
© 2000 - Sang Park Except where otherwise noted, content on this site is licensed under a CC BY 4.0.
This site design was brought from Distill.