История такова:
Изначально есть два набора: Тренировочный и Тестовый
- Тренировочный, чтобы обучить модель,
- Тестовый, чтобы проверить правильность работы модели до встраивания в бизнес-процесс (предсказание выдачи кредита)
Процедура обучения это творческий процесс, в котором надо чтобы модель уловила закономерности в многомерных данных. Существует эффект, когда модель переобучена - означает что тренировочный набор модель освоила на 100%, а на тестовом показывает посредственные результаты. Для недопущения переобучение Тренировочный набор разбивают на Тренировочный2 и Валидационный
- Валидационный, чтобы проверить гиперпараметры модели как например переобучение.
В простом случае Валидационный набор - это отложенная выборка. Но существуют ряд техник, которые позволяют не сильно терять данные: кросс-валидация, бутстрап + out of bag.