Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

Чем «большие данные» отличаются от большого количества данных?

Дмитрий Сидельников
  · 4,1 K
Python Developer, VK Feed Expert, AI Operator.  · 9 июн 2022
Привет! Большие данные относятся к огромным объемам данных, которые не могут быть сохранены, обработаны и проанализированы с использованием традиционных баз данных. По этой причине у нас есть фреймворки, такие как Hadoop, Spark, Cassandra для обработки больших данных.
Говоря только о данных, это может быть либо статистика, либо отчет, который может быть даже меньшего размера. Огромные куски данных, которые генерируются с высокой скоростью и имеют другой формат, называются большими данными.
Данные часто подразделяются на два отдельных контейнера.
Структурированные данные и неструктурированные данные. Структурированные данные - данные в реляционной базе данных. Они структурированы, потому что ты даёшь им структуру, прежде чем фактически хранить. Далее идут неструктурированные данные. Эти данные включают HTML-файлы, аудиофайлы, PDFи так далее. Когда ты слышишь «большие данные», подумай о неструктурированных данных.
Как насчет базы данных размером 5 ТБ? Это чертовски большие базы. Я бы согласился, но мы все еще не называем это большими данными. Google определяют это как «Если мне нужно подумать о данных, прежде чем что-то с ними делать, это большие данные»
Отличие начинается там где количество переходит в качество.
Учёный, доктор наук, математика, информатика и экономика. Математические и инструментальны...  · 30 июн 2022
Хороший вопрос. Короткий ответ будет таким. Для обработки больших данных требуется определенная инфраструктура. То есть для их обработки требуется построить определенную инфраструктуру и строго соблюдать технологию обработки, прежде всего поэтапность применения различного инструментария. Большое количество данных, если они структурированы, то их можно разбить на части и... Читать далее