통계학 책

Books

숫자에 약한 사람들을 위한 통계학 수업 2019, 2020

  • 영국의 살인마 해럴드 시프먼의 사례로 ‘들어가며’ 시작
  • p17. 데이터 문해력 data literacy이라고 번역했는데, 통계를 해석하고 다른 사람의 통계적 결론을 이해하고 비판적으로 분석하는 능력 모두를 의미.
  • p18. PPDAC 모형. Problem-Plan-Data-Analysis-Conclusion
  • p51. 대중의(군중의) 지혜
  • p82. 팩트풀니스 TV 논쟁: 불행히도 책이란 매체는 움직이는 시각 자료들을 보여주기에 적절치 못하다. 한 번은 로슬링이 세상에 대한 잘못된 편견을 앵무새마냥 되풀이하는 덴마크 저널리스트와 텔레비전에서 논쟁한 적이 있었다. 이때 로슬링은 “이 사실들은 논쟁거리가 아닙니다. 내가 맞고, 당신이 틀렸습니다”라는 직설적인 발언으로 화제가 됐다.
  • p240. 조건부 확률:
    유방암 촬영은 90% 정확하다. 검사를 받은 여성 중 1%에게 실제 암이 있다고 가정했을때 촬영결과가 양성이 나왔을때 실제로 암에 걸릴 확률은?
    • 1,000
    • 정상(990), 암(10)
    • 정상-양성(99), 정상-음성(891), 암-양성(9), 암-음성(1)
    • 양성일때 \(\frac{9}{108}\) 확률로 진짜 암이다. 8.3%
  • p269. 신뢰구간의 원리는 1930년대 UCL에 있었던 폴란드 수학자이자 통계학자인 예르지 네이만 Jerzy Neyman과 칼 피어슨의 아들인 이건 피어슨 Egon Pearson에 의해 공식화됐다. 관례적으로 95% 신뢰구간을 가장 많이 사용하는 편이며 그 구간은 평균 \(\pm{2}\) 표준오차에 해당한다. 미국 노동 통계국은 실업에 대하여 90% 구간을 사용하는 반면, 영국 통계청은 95% 구간을 사용한다.

처음 시작하는 만화 통계학 2012, 2020

아래 내용은 모두 별도 페이지로 정리 가능할 듯

  • p68. 분산은 평균과의 거리를 정사각형으로 만듬. 넓이를 통해 재밌게 비유한다.
  • p79. 편찻값: 일본에서만 쓰인다고 예전에도 언급한 바 있다. 우리나라에서도 표준점수로 쓰인다. 주로 수험생들의 점수로 활용.
  • p176. 대체로 정규분포를 따른다는 의미: 단봉성 single-peaked 분포, 키 등. 몸무게는 제각각이어서(특히 어른) 적합하지 않다
  • p209. 정규분포 모집단에서 \(n\)개의 데이터를 추출하여 표본 sample으로 삼은 경우 t 분포를 따른다. n이 \(\infty\)면 정규분포와 같은 모양이 된다.
  • p218. ‘모평균’의 추정을 t 분포로, ‘모분산’ 추정은 ‘카이제곱분포’를 활용한다. 검정통계랑 \(\chi\)를 사용한다.

통계의 아름다움 2019, 2020

  • p16. 우리는 이성적이며 완벽한 체계를 추구하고 최고의 경지에 도달하기를 희망한다. 그러나 경험주의와 관찰, 실험, 귀납, 계산의 힘을 무시해서는 안된다. 이는 모두 과학이기에 편파적이지 말아야 한다.

통계와 과학

  • 몬티 홀 문제 같은 한 번쯤 들어봤을 유명한 여러 통계학 사건들이 총 망라되어 있다. 중국책이다 보니 중국 사례도 심심찮게 등장한다.
  • p55. 조지 박스: “모든 모델은 잘못되었지만 일부는 유용하다”

데이터와 수학

  • p86. 어떤 과학적 발견도 최초 발견자의 이름을 따서 명명되지 않는 ‘스티글러의 법칙’

데이터 시각화

  • 존 스노우의 데이터 지도, 나이팅게일의 파이 차트, 미나드의 나폴레옹 원정 차트 소개
  • p153. 존 투키는 20세기 후반기 가장 중요한 세 명의 통계학자 중 한 명으로 칭송 받았다. 그가 제시한 탐색적 데이터 분석(EDA)의 사상은 통계 그래프의 역할을 매우 중시하여 데이터 시각화 방면에서 많은 창의적 작업을 진행하였다. 저서에서 박스 플롯 또한 소개.

모델과 방법

  • p181. 맥주와 기저귀의 전설
  • p212. 아름다운 필터: CNN 소개

빅데이터 시대

  • 통계를 설명하는 책에서 흥미롭게도 빅데이터와 시스템에 대해서도 소개한다.
  • p254. 파이썬 이야기
  • p260. 클라우드 컴퓨팅을 얘기하는데, 맵리듀스와 하둡 얘기를 한다. 이건 클라우드가 아니라 빅데이터 플랫폼인데. 클라우드라 하면 AWS 등을 얘기해야 할텐데 여기서 저자가 주제 키워드를 혼동한듯 하다.

데이터의 함정

  • 『좋은 선택, 나쁜 선택』, 『틀리지 않는법』에서 처럼 잘못 판단할 수 있는 주의해야할 부분을 소개한다.

숫자가 만만해지는 책 2018, 2020

『새빨간 거짓말, 통계』을 주로 언급한다. 실제로 그 책에 영향을 받은 내용들이 많다. 『틀리지 않는 법』을 언급하지는 않지만 그 책 처럼 통계에 주의하라는 내용이 책 내용의 주를 이룬다. 책에서는 이외에도 ‘이상한 문제에 대한 정답을 진지하게 추정하는 방법’을 보여주는 『위험한 과학책』도 추천한다.

  • 8장 까지는 계속 숫자, 단위 등에 혼동하지 말고 제대로 추정하라는 얘기를 한다.
  • 9장 통계의 4가지 거짓말: 평균에 혼동하지 말고, 편향에 주의하라는 내용, 상관관계와 인과관계를 혼동하지 말라는, 『새빨간 거짓말, 통계』 이후 거의 대부분의 통계책들이 얘기하는 내용을 동일하게 언급한다. 다른 통계책을 꾸준히 봐왔다면 색다른 내용은 없다. 특히 통계학 교수도 아닌 만큼 통계와 관련한 특이한 주장이나 사례 또한 전혀 없다.
  • 10장 그래프: 그래프의 모양에 유의하라는 내용, 11장 출처를 의심하라, 12장 복잡한 계산이 쉬워지는 간편셈: 어림계산을 활용하라.
  • 13장 추정이 만만해지는 페르미 문제: 페르미 문제 Fermi Problem 또는 페르미 추정 Fermi Estimation은 어떠한 문제에 대해 기초적인 지식과 논리적 추론만으로 짧은 시간 안에 대략적인 근사치를 추정하는 방법이다. e.g. 우리나라의 전봇대는 모두 몇 개인가? 1
  • 14장 당신을 지키는 법: 경고 신호를 포착하라, 출처에 주의할 것, 상식을 넓히고 간편셈을 익히자, 직관과 의심을 이용하자. 책에서 했던 주장의 요약:
    • p249. ‘어떤 숫자나 계산이나 결론이 미심쩍으며, 회의적인 시각으로 바라볼 만한 이유가 충분하다’는 경고 신호를 포착하라.
    • p252. 항상 정보의 출처를 확인하는 것이 좋다. 정보 제공자의 속셈이 뭘까? 그들의 동기가 뭘까? 그들은 사람들에게 뭘 믿게 하려는 걸까? 광고비를 지불한 사람은 누굴까?
    • p253. 몇 가지 정확한 팩트를 암기하고 있다면, 다른 사람들이 들이댄 팩트를 훨씬 더 잘 점검할 수 있다. 인구, 비율, 크기 등에 대한 지식이 좀 있다면, 최소한 도움은 된다.
    • 스스로에게 이렇게 질문하라. ‘그 숫자가 너무 크거나 너무 작지 않을까? 아니면 대충 적당할까? 이게 말이 될까? 만약 사실이라면, 시사하는 바가 뭘까?’ 여러분 나름의 근삿값을 추정하라.

이 책 내용 전체가 기존에 이미 통계학 관련 책을 많이 읽어왔다면 거의 겹치는 내용이며 특별히 새로운 내용은 없다. 특히 난이도가 매우 쉬운 수준으로 맞춰져 있어 책을 많이 읽는다면 사실상 건질 내용이 전혀 없다.

통계학을 떠받치는 일곱기둥 이야기 2016

  • Information: Its Measurement and Rate of Change
    정보 측정: 정보 측정과 변화율
    • The Trial of the Pyx 주화 표본 검정
      검정용으로 쓸 주화를 몇 개씩 골라 픽스Pyx라 부르는 상자에 넣었다.
    • Abraham de Moivre 아브라함 드 무아브르
      드 무아브르는 오늘날 이항 분포에 대한 정규 근사라 부르는 유명한 결과를 1733년에 도출하지만, 벌써 1730년에 분포의 결정적 측면이 n의 제곱근 편차와 엮여 있다는 것을 알았다. 드 무아브르는 개별 관측이나 관측 오차가 오떤 분포를 따르든 주화 표본의 무게 측정 같은 관측의 합계나 평균이 정규 분포를 따르리라는 같은 결론에 이르렀다. 증명이 철저하지 못한 데다, 1824년에는 푸아송이 오늘날 코시 분포라 부르는 예외 사례를 찾아냈다.
  • Likelihood: Calibration on a Probability Scale
    가능도: 확률 척도의 보정
    • Intercomparison: Within-Sample Variation as a Standard
      상호 비교: 표본 내 변동을 표준으로
      통계적으로 비교할 때 외부 기준을 참조하거나 믿지 말고 철저히 자료 내부에 있는 변동만으로 비교해야 한다는 발상이다.
  • Regression: Multivariate Analysis, Bayesian Inference, and Causal Inference
    회귀: 다변량 분석, 베이즈 추론, 인과 관계 추론

  • Design: Experimental Planning and the Role of Randomization
    설계: 실험 계획과 랜덤화의 역할
    • Randomization 랜덤화
  • Residual: Scientific Logic, Model Comparison, and Diagnostic Display
    잔차: 과학 논리, 모형 비교, 진단 표시

좋은 선택, 나쁜 선택 2019

  • 데이터에 기반한 선택이 좋은 선택이다
    선택의 방법에는 경험, 개연성, 영도에 따른, 다수의 선택 등 다양한 방법이 있지만 데이터에 기반한 선택이 최선이다.
  • 우리의 수치에 대한 직관은 믿을 만하지 않다
    생일이 겹치는 문제(파이썬 알고리즘 인터뷰에서도 언급), 몬티 홀 문제와 같은 대표적인 확률을 잘못 계산하는 문제가 나온다. 교양 통계 서적을 자주 봤다면 한번쯤 봤을 내용.
  • 확률과 통계의 함정
    독립 사건: 9번 모두 동전 앞면이 나와도 10번째에 앞면이 나올 확률은 1/2이다. 큰 수의 법칙과 이항 분포로 동전이 몇 번이나 나올지에 대한 확률을 계산할 수 있다. 1733년에 드 무아브르는 이항 분포의 시행 횟수를 크게 하면 종 모양의 분포로 근사시킬 수 있다고 주장했다. 이 분포는 지금의 정규 분포인 종 모양을 가진다. p.65 18세기 말 프랑스의 수학자 라플라스는 전체 사건이 어떤 확률 분포를 따르든 간에 표본을 뽑은 후 그 본의 평균을 구하면, 표본의 개수 n이 적당히 크기만 하다면 이 표본의 평균이 전체 사건의 집합인 모집단의 평균값을 중심으로 하는 정규 분포를 이룬다는 중심극한정리를 발표했다. p.66
  • 데이터 수치가 말하지 않는 것
    정확도와 재현율에 대해 언급하는데, 이 보다는 표본집단 sample에 대한 확률의 함정에 대해 다룬다. 모집단 population을 대표하는 표본 추출이 편향되게 bias 추출되지 않는게 중요하다. 생존 편향의 얘기도 나온다.
  • 거짓말은 아닙니다
    윤리, 데이터를 부풀려 표현하는 문제, 5% p-value의 함정, 재현 불가에 대해 얘기한다.
  • 숫자로 쌓아 올린 신기루
    화물숭배 Cargo Cult
    현대 사회에서 누군가에게 주술을 믿느냐고 물으면 대부분 얼굴을 붉히며 자신을 모욕하지 말라고 항의할 것이다. 그런데 아이러니한 것은 주술을 사용하여 자기 계발을 전파하는 책에 대해서는 극찬하면서 자신의 삶을 바꾸는 지표로 삼는다는 사람을 쉽게 찾아볼 수 있다는 점이다. p.132
  • 선택을 해봅시다
    ‘엘리베이터에서 배우자 고르기’는 『알고리즘, 인생을 계산하다』에 나온 37% 문제와 유사.
  • 합리적인 선택을 위해 해야 할 일
    데이터 시각화가 중요하다고 강조.

누구나 파이썬 통계분석 2018, 2020

PyData에 적합한 내용이지만 파이썬 기술 보다는 통계 기본에 대한 내용이기 때문에 우선 여기에 정리한다. 이 책은 여러 통계 수치를 이렇게 하면 구할 수 있다 라고 얘기하는데 어떻게 활용하는지에 대한 설명은 없다. 단순히 정의와 파이썬 코드 약간(주피터 노트북)을 보여줄 뿐이라 통계학에 대한 사전 지식이 없다면 보기 어렵다. 일본서 답게 매우 기초적인 부분부터 차근차근 짚어준다. 확실히 노트북을 놓고 함께 따라하면서 책을 읽을때 훨씬 더 잘 읽힌다. scipy.stats에 대부분의 필요한 함수가 있다.

  • 추측 통계 Inferential Statistics: 표본평균 sample mean을 여러차례 반복하여 모평균 population mean을 구할 수 있다. (표본평균의 분포에서 최빈값 mode으로 정할 수 있음) 400개의 모수에서 20개의 표본으로 실험. 모평균을 점추정 point estimation 했다.
  • 이산형 확률 변수 discrete random variable, 이산형 확률 분포 discrete probability distribution
    • 이항 분포 binomial distribution: 성공 확률이 \(p\)인 베르누이 시행을 \(n\)번 했을때 성공 횟수가 따르는 분포
    • 기하 분포 geometric distribution: 베르누이 시행에서 처음 성공할 때까지 반복한 시행 횟수가 따르는 분포
    • 포아송 분포 poisson distribution: 임의의 사건이 단위 시간당 발생하는 건수가 따르는 확률분포
  • 연속형 확률 변수 continuous random variable, 연속형 확률 분포 continuous probability distribution
    • 정규분포
    • 지수분포 exponential distribution: 어떤 사건이 발생하는 간격이 따르는 분포. 포아송 분포와 관련성이 강하다.
    • 카이제곱분포 chi-square dist: 여기서 부터는 분산의 구간추정이나 독립성 검정에 사용되는 특수한 확률분포
    • t 분포: 정규분포에서 모평균의 구간추정 등에 사용
    • F 분포: 분산분석 등에 사용
  • 통계적 추정: 이 장부터 본격적으로 추측통계를 하기 위해 앞서 모든 준비 과정이었음. (점추정, 구간추정 interval estimation)
  • 통계적 가설검증 statistical hypothesis testing: 실제로 p-value를 이용해 가설을 검증하는 과정을 다룬다.

신호와 소음 2012, 2020, 2021

  • p554 사실 자본주의와 베이즈 정리는 같은 지적 전통 속에서 나타났다. 애덤 스미스와 토머스 베이즈는 같은 시대를 살았으며, 두 사람 다 스코틀랜드에서 교육을 받았고 철학자 데이비드 흄의 영향을 많이 받았다. 스미스의 ‘보이지 않는 손’도 베이즈주의적 과정이라 생각할 수있다. 가격은 수요와 공급의 변화에 반응하면서 점차 수정되다가 마침내 균형점에 이르기 때문이다. 베이즈주의적 추론을 ‘보이지 않는 손’이라 생각할 수도 있다. 우리 믿음을 지속적으로 업데이트하면서 점점 개선하고, 사람들 사이에 그 믿음에 이견이 있을 때는 내기를 한다는 점에서 서로 같기 때문이다. 이 둘은 기본적으로 ‘대중의 지혜’의 강점을 취하는 합의 추구 과정이다.
  • p624 12월의 코펜하겐은 해가 짧고 어두웠다. 설상가상으로 맥주는 비쌌는데, 덴마크에서 술을 비롯해 거의 모든 것에 매겨지는 엄청난 세금은 세계적으로 높은 경쟁력을 자랑하는 녹색기술 인프라를 구축하는 데 들어간다. 현재 덴마크의 에너지 소비량은 1960년대 말과 거의 비슷한 수준이다. 에너지 효율이 높은 미래는 ‘춥고 어둡고 비쌀 것이다’라는 게 그때 내가 받은 인상이다.

Last Modified: 2021/03/21 23:33:00


2021 Book Reports  ·  Project Management  ·  epoll  ·  Deno  ·  Serverless AI  ·  흥미로운 통계  ·  2017 Book Reports  ·  Keras  ·  Windows Subsystem for Linux  ·  비지니스  ·  gRPC  ·  Go  ·  통계학 책  ·  머신러닝  ·  GPU Data Science  ·  C++  ·  AWS  ·  NLP  ·  Distance  ·  알고리즘  ·  통계학  ·  인공지능 책  ·  Firebase Cloud Messaging  ·  OAuth 2.0  ·  인공지능  ·  온라인 개발  ·  Microservices  ·  App Engine  ·  Cloud Load Balancing  ·  Cloud Run  ·  Python  ·  NLP 실험  ·  2020 Book Reports  ·  Windows 10  ·  비지니스 책  ·  통계학 응용  ·  Links  ·  Recommender System  ·  미래학 책  ·  자기계발 책  ·  수학 책  ·  GCP  ·  건강 책  ·  Terraform  ·  클라우드 책  ·  BigQuery  ·  수학  ·  컴퓨터시스템구조  ·  JetBrains  ·  Kubernetes  ·  2018 Book Reports  ·  2019 Book Reports  ·  Template  ·  Cryptography  ·  이산수학  ·  PyData  ·  Flask  ·  Docker  ·  강화학습  ·  머신러닝 책  ·  Markov Decision Process  ·  Santander Product Recommendation  ·  Java  ·  Android Development  ·  Zsh  ·  Software Deployment  ·  GCS  ·  XGBoost  ·  Front-End  ·  Activation, Cost Functions  ·  자료구조  ·  사회심리학  ·  Information Retrieval  ·  OOP  ·  데이터 사이언스  ·  진화생물학  ·  LifeHacks  ·  Decision Tree  ·  Hadoop, Spark  ·  데이터 마이닝  ·  CNN, RNN  ·  운영체제  ·  머신러닝 분류기  ·  Support Vector Machine  ·  Naive Bayes  ·  컴파일러  ·  딥러닝  ·  Word Embedding  ·  영어  ·  Scikit Learn  ·  MySQL
is a collection of Papers I have written.
© 2000 - Sang-Kil Park Except where otherwise noted, content on this site is licensed under a CC BY 4.0.
This site design was brought from Distill.