인공지능/머신러닝

6.1.2 Stepwise Selection best subset selection은 변수의 수(p)가 매우 클 때는 적용하기 어렵다. 또한 , 변수의 수가 클때는 통계적 문제가 발생할 수 있다.이런 문제점의 대안으로 stepwise 방법이 있다.(1) Forward Stepwise Selection Forward Stepwise Selection은 변수 선택 방법 중 하나로, 빈 모델에서 시작하여 한 번에 하나씩 변수를 추가해나가는 방식이다. 이는 모든 가능한 변수 조합을 고려하는 Best Subset Selection의 계산적으로 효율적인 대안으로 개발되었습니다 forward stepwise selection 알고리즘(1) Null Model M0에서 시작(2) k = 0,1,2... , p-1까지..
3장: 종속변수 Y가 수치형데이터 일때 이를 예측하기 위해 최소제곱법을 사용하는 선형회귀를 다룸4장: 종속변수 Y가 범주형데이터인 경우를 다룸⇒ Y가 양적,질적도 아닌경우는? 선형회귀나 분류 사용 ❌ 4.6.1 Linear Regression on the Bikeshare Datahttps://www.kaggle.com/c/bike-sharing-demand/이 데이터의 종속변수는 'bikers'로, 워싱턴 DC의 자전거 공유 프로그램의 시간당 이용자 수⇒ 질적 변수도, 양적 데이터도 아니다. 0이상의 정수값, 즉 '건수(count)'를 나타낸다변수 설명mnth월, 1년 중 몇 월인지hr시간, 0-23시workingday평일 여부를 나타내는 지시변수로, 주말이나 공휴일이 아니면 1temp섭씨 온도를 정규..
선형판별분석(LDA)과 이차판별분석(QDA)은 통계학과 머신러닝에서 널리 사용되는 분류 기법이다.두 방법 모두 베이즈 정리를 기반으로 하며, 각 클래스의 관측치가 가우시안 분포를 따른다고 가정한다.그러나 LDA는 공분산 구조의 차이가 심하게 난다면 실행할 수 없다. 💡 베이즈 정리란?베이즈 정리는 새로운 정보를 토대로 어떤 사건이 발생했다는 주장에 대한 신뢰도를 갱신해 나가는 방법,사전 확률과 조건부 확률을 토대로 사후 확률을 추론하는 과정이다.4.4.3 QDA독립변수 x가 실수이고, 확률분포가 다변량 정규분포라고 가정, => 클래스별로 다른 공분산 구조를 갖는다. 1. 각 클래스의 관측치는 다변량 가우시안 분포를 따른다.2. 각 클래스마다 고유한 공분산 행렬(Σk) 사용한다.3. 각 클래스별로 고유한..
회귀 vs 분류3장에서 배웠던 선형회귀는 '수치'를 예측하는 방법이었다. (이때 반응 변수를 양적이라고 부른다.)ex) - 집값 예측: 3억..4억.. - 판매량 예측: 100개..200개 하지만 실제로는 숫자가 아닌 종류를 예측해야 하는 경우가 많다. ex) 이메일이 스팸인지 아닌지 환자의 질병 유무 이 처럼 결과가 '범주' 또는 '클래스'로 나누어지는 경우를 우리는 분류문제라고 하며위와 같은 질적 반응변수들을 예측하는 것이 classification이라고 부르는 분류 방법이다. 이때 사용되는 분류기법으로는 logistic regression, linear discriminant analysis, K-nearest neighbors 가 대표적인 예이다. 4.1 An Overview of Cla..
머신러닝 학습절차: 문제정의 → 데이터전처리 → 학습 → 평가 1. 문제정의 내가 해결하고자 하는 문제가 무엇인지 이해하고, 어떤 목표를 달성하고 싶은지 정의하는 단계 지도학습은 학습데이터에 레이블이 있는 형태로 진행한다. 레이블값이 범주형 데이터, 즉 A타입, B타입, C타입 같이 범주로 구성되어있고 범주형 데이터를 예측하기 위한 문제를 ‘분류 문제’라고 한다. 💡 특히 범주 유형이 성공/실패 같이 두가지만 존재하는 문제를 “이진분류”라고 한다. 레이블 값이 범주형 데이터가 아닌 연속된 실수형인 지도학습의 유형을 ‘회귀 문제’라고 한다. 부동산 가격, 주식 가격등 수치를 예측하는 문제는 회귀 문제로 정의하고 머신러닝을 수행한다. 비지도학습은 지도학습과 다르게 학습 데이터에 레이블이 존재하지 않는다. 분..
분류의 성능 평가 지표 정확도 오차행렬 정밀도 제햔울 F1 스코어 ROC AUC 1. 정확도 정확도는 실제 데이터에서 예측 데이터가 얼마나 같은지를 판단하는 지표 불균형한 데이터의 경우에는 정확도는 적합한 평가 지표가 아니다. 2. 오차행렬 오차행렬은 학습된 분류모델이 예측을 수행하면 얼마나 헷갈리고 있는 지도 함께 보여주는 지표 이진분류의 예측 오류가 얼마인지와 어떠한 유형의 오류가 발생하고 있는지도 보여준다. 정확도 =예측결과와 실제 값이 동일한 건수 / 전체 데이터의 수 ㅇ (TN + TP) / (TN + FP + FN +TP) 3. 정밀도와 재현율 정밀도와 재현율은 Positive 데이터 세트의 예측 성능에 좀 더 초점을 맞춘 성과지표이다. 정밀도 = TP / (FP + TP) 재현율 = TP /..
머신러닝에서 Train 데이터와 Test 데이터는 모델의 학습과 성능 평가를 위해 사용되는 데이터 세트이다. Train 데이터 Train 데이터는 머신러닝 모델을 학습시키는 데 사용되는 데이터 세트이다. Train 데이터에는 입력 변수(Features)와 해당하는 정답(Label 또는 Target)이 함께 포함된다. 모델은 Train 데이터를 사용하여 입력 변수와 정답 간의 관계를 학습하여 최적의 예측 모델을 생성한다. 일반적으로 Train 데이터는 전체 데이터의 일부분으로 구성됩니다. 보통 70-80% 정도의 데이터를 Train 데이터로 사용한다. Test 데이터 Test 데이터는 학습된 머신러닝 모델의 성능을 평가하기 위해 사용되는 데이터 세트이다. Test 데이터에는 입력 변수(Features)만 ..
1. 머신러닝 컴퓨터가 데이터에서 패턴이나 규칙을 스스로 학습하여 예측이나 결정을 할 수 있는 알고리즘 기술의 집합 2. 데이터 정보의 집합으로 숫자, 텍스트, 이미지, 비디오 등으로 구성 될 수 있다. 머신러닝 모델은 데이터를 기반으로 학습하고 예측을 수행한다. 3. 모델 데이터로부터 학습된 알고리즘 또는 수학적인 함수이다. 모델은 입력된 특성을 기반으로 예측을 수행하거나 패터능ㄹ 발견한다. 4. 특성(Feature) 머신러닝 모델에 입력되는 변수들을 의미한다. 독립변수, 설명변수로 불리기도 한다. ex) 주택 가격을 예측하는 모델에서는 주택의 크기, 위치 등이 특성이 될 수 있다. => 모델은 이러한 특성을 사용하여 target변수를 예측하려고 한다. 5. 레이블(Lable) 머신러닝 모델이 학습할 ..
1. 넘파이 ● 리스트의 요소로 다른 리스트를 포함시키는 구조 => 2차원 배열 my_list_2 = [[10,20,30],[40,50,60]] 파이썬 리스트로 3개의 요소를 가친 1차원 배열을 2개 쌓은 예 2*3크기라고 이야기하며 2개의 행과 3개의 열 존재 [[10,20,30], [40,50,60]] ● 2차원 배열의 요소를 선택할 때 -> 2개 대괄호 사용 - 첫번째 대괄호: 행의 인덱스 - 두번째 대괄호: 열의 인덱스 print(my_list_2[1][1]) 50 두번째 열의 두번째 행을 선택했기 때문에 50출력 #넘파이는 파이썬 리스트처럼 문자열과 숫자 담을 수 없다 2. 맷플롯립 표준 그래프 패키지 별칭으로 plt를 사용 (1) 선그래프 그리기 선그래프를 그릴려면 x축 값과 y축 값을 지정해..
상관계수: 두 변수 간의 관계 정도를 측정하는 방법중 하나 피어슨 상관 계수 ● 피어슨 상관 계수는 선형 상관 관계를 측정합니다. 즉, 두 변수 간의 관계가 직선으로 나타낼 수 있는 경우 사용할 수 있습니다.● 피어슨 상관 계수는 -1부터 1까지의 값을 가집니다. 1에 가까울수록 양의 상관 관계가 강하며, -1에 가까울수록 음의 상관 관계가 강합니다. 0은 두 변수 간에 상관 관계가 없음을 나타냅니다.● 피어슨 상관 계수는 두 변수 모두 정규 분포를 따를 때 가장 잘 작동합니다. 또한, 이상치(outlier)가 존재할 경우에는 상관 관계를 왜곡할 수 있으므로 이를 제거하거나 대체하는 등의 전처리가 필요 할 수 있습니다. 피어슨 상관 계수 구하기1. 두 변수의 공분산 구하기2. 두 ..
kiwiio_v
'인공지능/머신러닝' 카테고리의 글 목록