머신러닝에서 Train 데이터와 Test 데이터는 모델의 학습과 성능 평가를 위해 사용되는 데이터 세트이다.
- Train 데이터
- Train 데이터는 머신러닝 모델을 학습시키는 데 사용되는 데이터 세트이다.
- Train 데이터에는 입력 변수(Features)와 해당하는 정답(Label 또는 Target)이 함께 포함된다.
- 모델은 Train 데이터를 사용하여 입력 변수와 정답 간의 관계를 학습하여 최적의 예측 모델을 생성한다.
- 일반적으로 Train 데이터는 전체 데이터의 일부분으로 구성됩니다. 보통 70-80% 정도의 데이터를 Train 데이터로 사용한다.
- Test 데이터
- Test 데이터는 학습된 머신러닝 모델의 성능을 평가하기 위해 사용되는 데이터 세트이다.
- Test 데이터에는 입력 변수(Features)만 포함되고, 모델이 예측한 결과와 실제 정답(Label)을 비교하여 성능을 측정한다.
- Test 데이터는 모델이 이전에 접하지 않은 새로운 데이터로 구성되어야 한다.
- 모델이 학습한 데이터와 다른 데이터에서의 성능을 평가하여 모델의 일반화 능력을 파악할 수 있다.
- 일반적으로 Train 데이터와 Test 데이터의 비율은 7:3 또는 8:2 정도로 나누어 사용한다.
- Train 데이터를 사용하여 모델을 학습시키고, Test 데이터를 사용하여 모델의 예측 성능을 평가함으로써 모델의 실제 예측 능력을 확인할 수 있다. 이를 통해 모델이 새로운 데이터에서도 일반화하여 예측을 수행할 수 있는지 평가할 수 있다.
'✨Data Science > machine learning' 카테고리의 다른 글
머신러닝 학습절차 (0) | 2023.05.11 |
---|---|
머신러닝 분류 모델 성능평가 (0) | 2023.05.11 |
<머신러닝> 기본 (0) | 2023.05.09 |
넘파이/ 맷플롯립 (0) | 2023.04.18 |