✨Data Science/machine learning
<머신러닝> train 데이터와 test 데이터
kiwiio_v
2023. 5. 9. 17:32
머신러닝에서 Train 데이터와 Test 데이터는 모델의 학습과 성능 평가를 위해 사용되는 데이터 세트이다.
- Train 데이터
- Train 데이터는 머신러닝 모델을 학습시키는 데 사용되는 데이터 세트이다.
- Train 데이터에는 입력 변수(Features)와 해당하는 정답(Label 또는 Target)이 함께 포함된다.
- 모델은 Train 데이터를 사용하여 입력 변수와 정답 간의 관계를 학습하여 최적의 예측 모델을 생성한다.
- 일반적으로 Train 데이터는 전체 데이터의 일부분으로 구성됩니다. 보통 70-80% 정도의 데이터를 Train 데이터로 사용한다.
- Test 데이터
- Test 데이터는 학습된 머신러닝 모델의 성능을 평가하기 위해 사용되는 데이터 세트이다.
- Test 데이터에는 입력 변수(Features)만 포함되고, 모델이 예측한 결과와 실제 정답(Label)을 비교하여 성능을 측정한다.
- Test 데이터는 모델이 이전에 접하지 않은 새로운 데이터로 구성되어야 한다.
- 모델이 학습한 데이터와 다른 데이터에서의 성능을 평가하여 모델의 일반화 능력을 파악할 수 있다.
- 일반적으로 Train 데이터와 Test 데이터의 비율은 7:3 또는 8:2 정도로 나누어 사용한다.
- Train 데이터를 사용하여 모델을 학습시키고, Test 데이터를 사용하여 모델의 예측 성능을 평가함으로써 모델의 실제 예측 능력을 확인할 수 있다. 이를 통해 모델이 새로운 데이터에서도 일반화하여 예측을 수행할 수 있는지 평가할 수 있다.