Смотрите. У вас есть датасет из 10000 строк, любой. Это небольшой датасет. Сначало вы отделяете от него 1000 строк - тестовый набор. Модель не должна тренероватся на этих строках. Она будет на них проверяться.
Оставшиеся 9000 строк мы можем разбить на тренировочный и валидационный наборы. А можем пойти по другому, использовать оставшиеся 9000 строк в кросс-валидации (потому что изначально набор данных небольшой). Примеры датасетов вы можете найти на платформе Kaggle по ссылке ниже:
https://www.kaggle.com/datasets