Когда нужен SEO-аудит, проверить на ошибки или просто скопировать сайт. В этих случаях парсится либо весь сайт, либо определенный раздел, а зависимости от задачи.
Гугл тщательно следит за дублями и выпиливает их из поиска + гугл отслеживается так называемый thin-контент или мусор - страницы без ценности - их тоже выпиливает.