📒base/ISL

· 📒base/ISL
6.1.2 Stepwise Selection  best subset selection은 변수의 수(p)가 매우 클 때는 적용하기 어렵다. 또한 , 변수의 수가 클때는 통계적 문제가 발생할 수 있다.이런 문제점의 대안으로 stepwise 방법이 있다.(1) Forward Stepwise Selection Forward Stepwise Selection은 변수 선택 방법 중 하나로, 빈 모델에서 시작하여 한 번에 하나씩 변수를 추가해나가는 방식이다. 이는 모든 가능한 변수 조합을 고려하는 Best Subset Selection의 계산적으로 효율적인 대안으로 개발되었습니다 forward stepwise selection 알고리즘(1) Null Model M0에서 시작(2) k = 0,1,2... , p-1까지..
· 📒base/ISL
3장: 종속변수 Y가 수치형데이터 일때 이를 예측하기 위해 최소제곱법을 사용하는 선형회귀를 다룸4장: 종속변수 Y가 범주형데이터인 경우를 다룸⇒ Y가 양적,질적도 아닌경우는? 선형회귀나 분류 사용 ❌ 4.6.1 Linear Regression on the Bikeshare Datahttps://www.kaggle.com/c/bike-sharing-demand/이 데이터의 종속변수는 'bikers'로, 워싱턴 DC의 자전거 공유 프로그램의 시간당 이용자 수⇒ 질적 변수도, 양적 데이터도 아니다. 0이상의 정수값, 즉 '건수(count)'를 나타낸다변수 설명mnth월, 1년 중 몇 월인지hr시간, 0-23시workingday평일 여부를 나타내는 지시변수로, 주말이나 공휴일이 아니면 1temp섭씨 온도를 정규..
· 📒base/ISL
선형판별분석(LDA)과 이차판별분석(QDA)은 통계학과 머신러닝에서 널리 사용되는 분류 기법이다.두 방법 모두 베이즈 정리를 기반으로 하며, 각 클래스의 관측치가 가우시안 분포를 따른다고 가정한다.그러나 LDA는 공분산 구조의 차이가 심하게 난다면 실행할 수 없다. 💡 베이즈 정리란?베이즈 정리는 새로운 정보를 토대로 어떤 사건이 발생했다는 주장에 대한 신뢰도를 갱신해 나가는 방법,사전 확률과 조건부 확률을 토대로 사후 확률을 추론하는 과정이다.4.4.3 QDA독립변수 x가 실수이고, 확률분포가 다변량 정규분포라고 가정, => 클래스별로 다른 공분산 구조를 갖는다. 1. 각 클래스의 관측치는 다변량 가우시안 분포를 따른다.2. 각 클래스마다 고유한 공분산 행렬(Σk) 사용한다.3. 각 클래스별로 고유한..
· 📒base/ISL
회귀 vs 분류3장에서 배웠던 선형회귀는 '수치'를 예측하는 방법이었다. (이때 반응 변수를 양적이라고 부른다.)ex)   - 집값 예측: 3억..4억.. - 판매량 예측: 100개..200개 하지만 실제로는 숫자가 아닌 종류를 예측해야 하는 경우가 많다. ex) 이메일이 스팸인지 아닌지 환자의 질병 유무  이 처럼 결과가 '범주' 또는 '클래스'로 나누어지는 경우를 우리는 분류문제라고 하며위와 같은 질적 반응변수들을 예측하는 것이 classification이라고 부르는 분류 방법이다. 이때 사용되는 분류기법으로는  logistic regression, linear discriminant analysis, K-nearest neighbors 가 대표적인 예이다.  4.1 An Overview of Cla..
kiwiio_v
'📒base/ISL' 카테고리의 글 목록