통계학 책

Books

숫자가 만만해지는 책 2018, 2020

『새빨간 거짓말, 통계』을 주로 언급한다. 실제로 그 책에 영향을 받은 내용들이 많다. 『틀리지 않는 법』을 언급하지는 않지만 그 책 처럼 통계에 주의하라는 내용이 책 내용의 주를 이룬다. 이외에 ‘이상한 문제에 대한 정답을 진지하게 추정하는 방법’을 보여주는 『위험한 과학책』도 추천한다.

  • 8장 까지는 계속 숫자, 단위 등에 혼동하지 말고 제대로 추정하라는 얘기를 한다.
  • 9장 통계의 4가지 거짓말: 평균에 혼동하지 말고, 편향에 주의하라는 내용, 상관관계와 인과관계를 혼동하지 말라는, 『새빨간 거짓말, 통계』 이후 거의 대부분의 통계책들이 얘기하는 내용을 동일하게 언급한다. 다른 통계책을 꾸준히 봐왔다면 색다른 내용은 없다. 특히 통계학 교수도 아닌 만큼 통계와 관련한 특이한 주장이나 사례 또한 전혀 없다.
  • 10장 그래프: 그래프의 모양에 유의하라는 내용, 11장 출처를 의심하라, 12장 복잡한 계산이 쉬워지는 간편셈: 어림계산을 활용하라.
  • 13장 추정이 만만해지는 페르미 문제: 페르미 문제 Fermi Problem 또는 페르미 추정 Fermi Estimation은 어떠한 문제에 대해 기초적인 지식과 논리적 추론만으로 짧은 시간 안에 대략적인 근사치를 추정하는 방법이다. e.g. 우리나라의 전봇대는 모두 몇 개인가? 1
  • 14장 당신을 지키는 법: 경고 신호를 포착하라, 출처에 주의할 것, 상식을 넓히고 간편셈을 익히자, 직관과 의심을 이용하자. 책에서 했던 주장의 요약:
    • p249. ‘어떤 숫자나 계산이나 결론이 미심쩍으며, 회의적인 시각으로 바라볼 만한 이유가 충분하다’는 경고 신호를 포착하라.
    • p252. 항상 정보의 출처를 확인하는 것이 좋다. 정보 제공자의 속셈이 뭘까? 그들의 동기가 뭘까? 그들은 사람들에게 뭘 믿게 하려는 걸까? 광고비를 지불한 사람은 누굴까?
    • p253. 몇 가지 정확한 팩트를 암기하고 있다면, 다른 사람들이 들이댄 팩트를 훨씬 더 잘 점검할 수 있다. 인구, 비율, 크기 등에 대한 지식이 좀 있다면, 최소한 도움은 된다.
    • 스스로에게 이렇게 질문하라. ‘그 숫자가 너무 크거나 너무 작지 않을까? 아니면 대충 적당할까? 이게 말이 될까? 만약 사실이라면, 시사하는 바가 뭘까?’ 여러분 나름의 근삿값을 추정하라.

이 책 내용 전체가 기존에 이미 통계학 관련 책을 많이 읽어왔다면 거의 겹치는 내용이며 특별히 새로운 내용은 없다. 특히 난이도가 매우 쉬운 수준으로 맞춰져 있어 책을 많이 읽는다면 사실상 건질 내용이 전혀 없다.

통계학을 떠받치는 일곱기둥 이야기 2016

  • Information: Its Measurement and Rate of Change
    정보 측정: 정보 측정과 변화율
    • The Trial of the Pyx 주화 표본 검정
      검정용으로 쓸 주화를 몇 개씩 골라 픽스Pyx라 부르는 상자에 넣었다.
    • Abraham de Moivre 아브라함 드 무아브르
      드 무아브르는 오늘날 이항 분포에 대한 정규 근사라 부르는 유명한 결과를 1733년에 도출하지만, 벌써 1730년에 분포의 결정적 측면이 n의 제곱근 편차와 엮여 있다는 것을 알았다. 드 무아브르는 개별 관측이나 관측 오차가 오떤 분포를 따르든 주화 표본의 무게 측정 같은 관측의 합계나 평균이 정규 분포를 따르리라는 같은 결론에 이르렀다. 증명이 철저하지 못한 데다, 1824년에는 푸아송이 오늘날 코시 분포라 부르는 예외 사례를 찾아냈다.
  • Likelihood: Calibration on a Probability Scale
    가능도: 확률 척도의 보정
    • Intercomparison: Within-Sample Variation as a Standard
      상호 비교: 표본 내 변동을 표준으로
      통계적으로 비교할 때 외부 기준을 참조하거나 믿지 말고 철저히 자료 내부에 있는 변동만으로 비교해야 한다는 발상이다.
  • Regression: Multivariate Analysis, Bayesian Inference, and Causal Inference
    회귀: 다변량 분석, 베이즈 추론, 인과 관계 추론

  • Design: Experimental Planning and the Role of Randomization
    설계: 실험 계획과 랜덤화의 역할
    • Randomization 랜덤화
  • Residual: Scientific Logic, Model Comparison, and Diagnostic Display
    잔차: 과학 논리, 모형 비교, 진단 표시

좋은 선택, 나쁜 선택 2019

  • 데이터에 기반한 선택이 좋은 선택이다
    선택의 방법에는 경험, 개연성, 영도에 따른, 다수의 선택 등 다양한 방법이 있지만 데이터에 기반한 선택이 최선이다.
  • 우리의 수치에 대한 직관은 믿을 만하지 않다
    생일이 겹치는 문제(파이썬 알고리즘 인터뷰에서도 언급), 몬티 홀 문제와 같은 대표적인 확률을 잘못 계산하는 문제가 나온다. 교양 통계 서적을 자주 봤다면 한번쯤 봤을 내용.
  • 확률과 통계의 함정
    독립 사건: 9번 모두 동전 앞면이 나와도 10번째에 앞면이 나올 확률은 1/2이다. 큰 수의 법칙과 이항 분포로 동전이 몇 번이나 나올지에 대한 확률을 계산할 수 있다. 1733년에 드 무아브르는 이항 분포의 시행 횟수를 크게 하면 종 모양의 분포로 근사시킬 수 있다고 주장했다. 이 분포는 지금의 정규 분포인 종 모양을 가진다. p.65 18세기 말 프랑스의 수학자 라플라스는 전체 사건이 어떤 확률 분포를 따르든 간에 표본을 뽑은 후 그 본의 평균을 구하면, 표본의 개수 n이 적당히 크기만 하다면 이 표본의 평균이 전체 사건의 집합인 모집단의 평균값을 중심으로 하는 정규 분포를 이룬다는 중심극한정리를 발표했다. p.66
  • 데이터 수치가 말하지 않는 것
    정확도와 재현율에 대해 언급하는데, 이 보다는 표본집단 sample에 대한 확률의 함정에 대해 다룬다. 모집단 population을 대표하는 표본 추출이 편향되게 bias 추출되지 않는게 중요하다. 생존 편향의 얘기도 나온다.
  • 거짓말은 아닙니다
    윤리, 데이터를 부풀려 표현하는 문제, 5% p-value의 함정, 재현 불가에 대해 얘기한다.
  • 숫자로 쌓아 올린 신기루
    화물숭배 Cargo Cult
    현대 사회에서 누군가에게 주술을 믿느냐고 물으면 대부분 얼굴을 붉히며 자신을 모욕하지 말라고 항의할 것이다. 그런데 아이러니한 것은 주술을 사용하여 자기 계발을 전파하는 책에 대해서는 극찬하면서 자신의 삶을 바꾸는 지표로 삼는다는 사람을 쉽게 찾아볼 수 있다는 점이다. p.132
  • 선택을 해봅시다
    ‘엘리베이터에서 배우자 고르기’는 『알고리즘, 인생을 계산하다』에 나온 37% 문제와 유사.
  • 합리적인 선택을 위해 해야 할 일
    데이터 시각화가 중요하다고 강조.

차를 맛보는 여인 2001, 2019

좋은 책이지만 2001년에 출간된 책이고, 이 책에 등장하는 내용 대부분은 이후 다른 책에서도 많이 언급한다. 스티븐 스티글러 교수의 『통계학의 역사』와 유사하다. 좀 더 정확히는 통계학자들의 역사라고 할 수 있다.

누구나 파이썬 통계분석 2018, 2020

PyData에 적합한 내용이지만 파이썬 기술 보다는 통계 기본에 대한 내용이기 때문에 우선 여기에 정리한다. 이 책은 여러 통계 수치를 이렇게 하면 구할 수 있다 라고 얘기하는데 어떻게 활용하는지에 대한 설명은 없다. 단순히 정의와 파이썬 코드 약간(주피터 노트북)을 보여줄 뿐이라 통계학에 대한 사전 지식이 없다면 보기 어렵다. 일본서 답게 매우 기초적인 부분부터 차근차근 짚어준다. 확실히 노트북을 놓고 함께 따라하면서 책을 읽을때 훨씬 더 잘 읽힌다. scipy.stats에 대부분의 필요한 함수가 있다.

  • 추측 통계 Inferential Statistics: 표본평균 sample mean을 여러차례 반복하여 모평균 population mean을 구할 수 있다. (표본평균의 분포에서 최빈값 mode으로 정할 수 있음) 400개의 모수에서 20개의 표본으로 실험. 모평균을 점추정 point estimation 했다.
  • 이산형 확률 변수 discrete random variable, 이산형 확률 분포 discrete probability distribution
    • 이항 분포 binomial distribution: 성공 확률이 \(p\)인 베르누이 시행을 \(n\)번 했을때 성공 횟수가 따르는 분포
    • 기하 분포 geometric distribution: 베르누이 시행에서 처음 성공할 때까지 반복한 시행 횟수가 따르는 분포
    • 포아송 분포 poisson distribution: 임의의 사건이 단위 시간당 발생하는 건수가 따르는 확률분포
  • 연속형 확률 변수 continuous random variable, 연속형 확률 분포 continuous probability distribution
    • 정규분포
    • 지수분포 exponential distribution: 어떤 사건이 발생하는 간격이 따르는 분포. 포아송 분포와 관련성이 강하다.
    • 카이제곱분포 chi-square dist: 여기서 부터는 분산의 구간추정이나 독립성 검정에 사용되는 특수한 확률분포
    • t 분포: 정규분포에서 모평균의 구간추정 등에 사용
    • F 분포: 분산분석 등에 사용
  • 통계적 추정: 이 장부터 본격적으로 추측통계를 하기 위해 앞서 모든 준비 과정이었음. (점추정, 구간추정 interval estimation)
  • 통계적 가설검증 statistical hypothesis testing: 실제로 p-value를 이용해 가설을 검증하는 과정을 다룬다.

Links

Last Modified: 2020/11/30 22:24:34


인공지능 책  ·  Serverless AI  ·  클라우드  ·  AWS  ·  2020 Book Reports  ·  통계학 책  ·  2017 Book Reports  ·  2018 Book Reports  ·  2019 Book Reports  ·  통계학 응용  ·  Template  ·  통계학  ·  Project Management  ·  인공지능  ·  머신러닝  ·  TensorRT  ·  Cryptography  ·  이산수학  ·  PyData  ·  BigQuery  ·  Flask  ·  Docker  ·  GCP  ·  비지니스 책  ·  비지니스  ·  강화학습  ·  머신러닝 책  ·  Markov Decision Process  ·  Santander Product Recommendation  ·  Java  ·  Android Development  ·  Kubernetes  ·  Zsh  ·  Software Deployment  ·  GCS  ·  XGBoost  ·  Deno  ·  JetBrains  ·  수식  ·  GPU Data Science  ·  Python  ·  Front-End  ·  Activation, Cost Functions  ·  알고리즘  ·  자료구조  ·  NLP 링크  ·  알고리즘 링크  ·  머신러닝 링크  ·  사회심리학  ·  Information Retrieval  ·  OOP  ·  데이터 사이언스  ·  진화생물학  ·  수학  ·  미래학  ·  LifeHacks  ·  C++  ·  Decision Tree  ·  NLP  ·  Hadoop, Spark  ·  데이터 마이닝  ·  CNN, RNN  ·  운영체제  ·  머신러닝 분류기  ·  거리  ·  Support Vector Machine  ·  OAuth 2.0  ·  Naive Bayes  ·  컴파일러  ·  딥러닝  ·  Word Embedding  ·  컴퓨터시스템구조  ·  영어  ·  Go  ·  Scikit Learn  ·  NLP 실험  ·  MySQL  ·  Keras
is a collection of Papers I have written.
© 2000 - Sang-Kil Park Except where otherwise noted, content on this site is licensed under a CC BY 4.0.
This site design was brought from Distill.