Все просто, большие данные - чисто маркетинговое понятие.
Есть принцип 5 V:
1) Volume (объем) - непосредственно объем данных. 1 гб вряд ли большой объем, но 1 гб в сек уже можно считать большими данными
2) Velocity (скорость) - данные получаем быстро, идеально - кликстрим
3) Value (ценность) - данные несут ценность для прикладной сферы, в которых они применяются. Например, вряд ли кликстрим из посещаемости сайта игрушек будет положительно влиять на работу больницы
4) Veracity (правдивость) - данные должны быть не противоречивы друг другу и отражать действительную картину мира
5) Variety (разнообразие) - данные должны описывать все состояния предметной области. Например, если мы решаем задачу кредитного скоринга, то нам нужно знать информацию не только о "плохих" заемщиках, но и о "хороших" тоже