Привет! Большие данные относятся к огромным объемам данных, которые не могут быть сохранены, обработаны и проанализированы с использованием традиционных баз данных. По этой причине у нас есть фреймворки, такие как Hadoop, Spark, Cassandra для обработки больших данных.
Говоря только о данных, это может быть либо статистика, либо отчет, который может быть даже меньшего размера. Огромные куски данных, которые генерируются с высокой скоростью и имеют другой формат, называются большими данными.
Данные часто подразделяются на два отдельных контейнера.
Структурированные данные и неструктурированные данные. Структурированные данные - данные в реляционной базе данных. Они структурированы, потому что ты даёшь им структуру, прежде чем фактически хранить. Далее идут неструктурированные данные. Эти данные включают HTML-файлы, аудиофайлы, PDFи так далее. Когда ты слышишь «большие данные», подумай о неструктурированных данных.
Как насчет базы данных размером 5 ТБ? Это чертовски большие базы. Я бы согласился, но мы все еще не называем это большими данными. Google определяют это как «Если мне нужно подумать о данных, прежде чем что-то с ними делать, это большие данные»