머신러닝

개요

1

데이터 과학

(Principles of Data Science, 2016)

유명한 벤 다이어그램. Danger Zone: 수학, 통계학 지식이 없다면 위험하다는 것.

온라인 노트북

  • JupyterLab
    BigQuery 분석, 일반적인 공개 노트북 구동
  • Kaggle
    캐글 커널 구동
  • CoLab
    구글 제공 커널, GPU 가능
  • Datalore
    Kotlin 구동 가능, GPU는 유료

Improving ML inferences

2

차원 축소Dimensionality Reduction: PCA

PCA는 회전된 특징이 통계적으로 상관 관계가 없도록 데이타셋을 회전시키는 방법이다. 상관도가 높은 변수를 통합한다는 점에서 차원 축소dimensionality reduction 기법이라 한다. feature를 선별하는 것과 함께 feature engineering(extraction) 범주에 포함된다.

PCA(whiten=True): This is the same as using StandardScaler after the transformation. whitening corresponds to not only rotating the data, but also rescaling it.

속성 추출 기법

  • 선형 PCAprincipal component analysis 선형 제한
  • 비선형 MDSmultidimensional scaling

PCA 주로 성분 분석

  1. 데이터에서 평균값 빼서 데이터를 중심에
  2. 공분산covariance 매트릭스 계산
  3. 공분산의 고유벡터eigenvector 계산

Markov Chains

마코프 체인의 결과는 일정 비율로 수렴한다.

Grid Search

하이퍼 파라미터를 결정하기 위해 다양한 파라미터로 실험을 진행해 최적의 파라미터를 찾는 과정이다. scikit-learn의 Grid Search 문서에 잘 정리되어 있다.

Scaling, Normalization, Standardization

  • Scaling: 서로 다른 단위의 데이터를 같은 단위로 만들어서 큰 숫자가 더 중요해보이는 왜곡을 막는 것
  • Standardization(= z-score normalization): 분포를 평균 0, 표준편차 1로 바꾸는것
  • Normalization(= Min-Max scaling) : 변수를 0과 1사이로 바꾸는것

스케일링을 위한 노말라이제이션을 스탠다더라이제이션으로 할 수 있어서 구분이 어렵습니다. 3

정보 이론

정보량은 불확실성과 직접적 관련이 있다. 매우 불확실한 일이나 전혀 모르는 일을 이해하려면 많은 정보를 파악해야 한다. 반대로 이미 많이 알고 있는 일은 정보가 많지 않아도 쉽게 이해할 수 있다. 이런 점에서 정보량은 불확실성의 크기와 같다고 볼 수 있다.

(Information) Entropy, in other words, is a measure of uncertainty. 4

1948년 클로드 섀넌이 그의 유명한 논문 “A Mathematics Theory of Communication”에 ‘정보 엔트로피’ 개념을 제기하면서 정보의 단위 문제가 풀렸고, 정보의 역할을 계량화 할 수 있게 되었다. (수학의 아름다움, 2014, 2019)

월드컵 우승팀을 가리는 문제에서 브라질 처럼 우승 확률이 매우 높은 국가에 대한 사전 정보가 있다면 그 쪽을 선택하여 엔트로피를 더욱 낮출 수 있다. (수학의 아름다움에서 정리 필요)

단순성의 원리

  • 뉴턴의 제1법칙: 관성의 법칙
    물체의 질량 중심은 외부 힘이 작용하지 않는 한 일정한 속도로 움직인다.
    우쥔은 이를 단순성의 원칙이라 표현했다.

  • 오컴의 면도날(Occam’s Razor 또는 Ockham’s Razor)

    simpler solutions are more likely to be correct than complex ones
    단순한 솔루션이 복잡한 솔루션 보다 정확할 가능성이 높다.

Last Modified: 2020/11/25 20:57:07


인공지능 책  ·  Serverless AI  ·  클라우드  ·  AWS  ·  2020 Book Reports  ·  통계학 책  ·  2017 Book Reports  ·  2018 Book Reports  ·  2019 Book Reports  ·  통계학 응용  ·  Template  ·  통계학  ·  Project Management  ·  인공지능  ·  머신러닝  ·  TensorRT  ·  Cryptography  ·  이산수학  ·  PyData  ·  BigQuery  ·  Flask  ·  Docker  ·  GCP  ·  비지니스 책  ·  비지니스  ·  강화학습  ·  머신러닝 책  ·  Markov Decision Process  ·  Santander Product Recommendation  ·  Java  ·  Android Development  ·  Kubernetes  ·  Zsh  ·  Software Deployment  ·  GCS  ·  XGBoost  ·  Deno  ·  JetBrains  ·  수식  ·  GPU Data Science  ·  Python  ·  Front-End  ·  Activation, Cost Functions  ·  알고리즘  ·  자료구조  ·  NLP 링크  ·  알고리즘 링크  ·  머신러닝 링크  ·  사회심리학  ·  Information Retrieval  ·  OOP  ·  데이터 사이언스  ·  진화생물학  ·  수학  ·  미래학  ·  LifeHacks  ·  C++  ·  Decision Tree  ·  NLP  ·  Hadoop, Spark  ·  데이터 마이닝  ·  CNN, RNN  ·  운영체제  ·  머신러닝 분류기  ·  거리  ·  Support Vector Machine  ·  OAuth 2.0  ·  Naive Bayes  ·  컴파일러  ·  딥러닝  ·  Word Embedding  ·  컴퓨터시스템구조  ·  영어  ·  Go  ·  Scikit Learn  ·  NLP 실험  ·  MySQL  ·  Keras
is a collection of Papers I have written.
© 2000 - Sang-Kil Park Except where otherwise noted, content on this site is licensed under a CC BY 4.0.
This site design was brought from Distill.