Включение большого количества атрибутов в набор данных увеличивает вероятность того, что алгоритм найдет не относящиеся к делу или ложные закономерности, которые только кажутся статистически значимыми в рамках выборки объектов.
Наука о данных включает в себя набор принципов, методов постановки задач, алгоритмов и процессов для выявления скрытых полезных закономерностей в больших данных.
Другими словами, данные не являются идеальным отображением сущностей и процессов реального мира, которые мы пытаемся постичь, но если быть аккуратным при моделировании и сборе данных, то результаты анализа могут дать полезную информацию для решения наших реальных проблем.
Операции OLAP работают с отображением данных, называемым кубом данных, который построен поверх хранилища. Куб данных имеет фиксированный, заранее определенный набор измерений, где каждое измерение отображает одну характеристику данных.