데이터 사이언스
개요
- folium: Make beautiful maps with Leaflet.js & Python
- Leaflet an open-source JavaScript library for mobile-friendly interactive maps
- Introduction to Python Machine Learning의 한글 번역본 주피터 노트북 scikit-learn 코어 개발자인 안드레이 뮐러의 책 번역본 주피터 노트북
누구나 데이터 과학을 할 수 있다는 의미로 ‘시민 데이터 과학자의 등장’을 이야기한다. (PyTorch를 활용한 머신러닝, 딥러닝 철저 입문, 2018)
AI Career Pathways
Books
데이터 과학을 위한 통계 2017, 2018
- EDA
- 데이터와 표본 분포: Selection bias, Student’s t-distribution, Poisson distribution
- 통계적 실험과 유의성 검정: A/B test, Hypothesis testing, p-value
- 회귀와 예측
- 분류
- 통계적 머신러닝
- 비지도 학습
NOTE: 데이터 과학자가 t 분포와 중심극한정리에 대해 알아야 할 것은 무엇일까? 실은 별로 없다. 이러한 분포는 고전적인 통계적 추론에 사용되기는 하지만, 데이터 과학이 주로 추구하는 목적과는 조금 거리가 있다. 데이터 과학자에게는 불확실성과 변동성을 이해하고 정량화 하는 것이 중요하다. 이러한 목적을 위해서라면, 경험적 부트스트랩 표본추출을 통해서도 표본 오차에 대한 대부분의 질문에 답을 얻을 수 있다. 하지만 데이터 과학자들은 R과 같은 통계 소프트웨어 혹은 A/B 테스트나 회귀분석과 같은 통계 절차를 통해 나온 t 통계량을 매일 만나게 될 테니 알아두면 도움이 된다. p.92
재표본추출 resampling
재표본추출에는 부트스트랩과 순열검정 permutation test이라는 두 가지 주요 유형이 있다.
- 순열검정: 두 개 이상의 표본이 관여되며 이들은 통상적으로 A/B 또는 기타 가설검정을 위해 사용되는 그룹들이다. 첫 단계는 그룹 A, 그룹 B(더 필요하다면 C, D, …)의 결과를 하나로 합치는 것이다. 이는 그룹들에 적용된 처리 결과가 다르지 않다는 귀무가설을 논리적으로 구체화 한 것이다. 그런 다음 이 결합된 집합에서 무작위로 그룹을 뽑아 가설을 검정하고 서로 얼마나 다른지 살핀다.
Last Modified: 2022/04/25 02:50:38