Data Mining (раскопка данных). В широком смысле сюда относят практически все методы, применяющиеся для анализа больших данных. В этом смысле сюда относятся методы классификации, кластеризации, прогнозирования, визуализации, описательная статистика, корреляционно-регрессионный анализ, нейронные сети, методы поиска ассоциаций, эволюционное и генетическое программирование и даже лингвистический анализ текстов

Помимо перечисленных базовых технологий, для обработки больших данных используются традиционные реляционные СУБД и средства поддержки технологий Business Intelligence, а также специализированные программные системы лингвистического анализа неструктурированных текстов, позволяющие определять содержание текста; выявлять упоминания конкретных персон, организаций, событий и отношение (позитивное/негативное) к ним автора публикации; производить тематическое рубрицирование; классифицировать новости; выявлять текстовые заимствования из других текстов.

26 мая 2020

для решения задач параллельной распределённой обработки больших массивов данных. Поставляются компаниями Teradata, EMC, SAP и другими

26 мая 2020

Программно-аппаратные комплексы, специально сконфигурированные

26 мая 2020

R – язык и свободно распространяемая среда программирования статистических вычислений и графической визуализации данных

26 мая 2020

Hadoop – набор свободно распространяемых программных средств, создаваемых в рамках проекта фонда Apache Software Foundation, и предназначенных для разработки и выполнения программ, осуществляющих распределённые вычисления в кластерах из большого числа ЭВМ.

26 мая 2020

NoSQL (от англ. Not Only SQL, не только SQL) – класс СУБД, не использующих язык SQL и предназначенных для управления большими плохо структурированными базами данных. Используются для хранения и обработки данных с постоянно изменяющейся структурой, плохо приспособленных для хранения и обработки традиционными реляционными СУБД.

26 мая 2020

MapReduce – модель распределённой параллельной обработки больших наборов данных, предложенная корпорацией Google. В соответствии с ней общая задача обработки данных разделяется на несколько более простых заданий, параллельно выполняемых несколькими узлами кластера серверов. По мере выполнения заданий промежуточные данные обобщаются и сводятся в конечный результат. Метод Map разбивает данные на подмножества, а метод Reduce обрабатывает выбранные данные и агрегирует их.

26 мая 2020

Технологии работы с большими данными строятся исходя из соответствия правилу VVV и рассмотренных выше основным принципов: горизонтальной масштабируемости, отказоустойчивости и локальности данных.

26 мая 2020

С некоторой долей условности участников рынка больших данных можно разделить на следующие частично пересекающиеся группы. 1) Поставщики инфраструктурных программно-аппаратных комплексов для решения задач сбора, накопления, хранения и предварительной обработки данных; 2) Разработчики инструментов анализа больших данных; 3) Системные интеграторы, обеспечивающие развёртывание необходимой инфраструктуры и систем анализа больших данных на стороне клиента; 4) Разработчики готовых сервисов, основанных на технологиях больших данных, ориентированных на широкий круг пользователей малого и среднего бизнеса; 5) Потребители технологий больших данных.

26 мая 2020

Цитаты из книги «Искусственный интеллект и Большие Данные. Без хайпа и наукообразия»