Глава 2. Основы нейронных сетей и градиентного спуска

2.1. Процесс обучения нейронной сети

Обучение с учителем и без учителя

Обучение нейронных сетей можно классифицировать на несколько типов, среди которых наиболее распространенными являются обучение с учителем и обучение без учителя. Эти подходы отличаются как по методологии, так и по целям, которые они преследуют, и каждый из них подходит для решения определённых задач.

Обучение с учителем (Supervised Learning)

Обучение с учителем

Обучение с учителем (supervised learning) – это один из наиболее распространенных методов машинного обучения, который основан на использовании размеченных данных для обучения модели. В этом подходе каждая единица обучающего набора данных состоит из двух основных компонентов: входных данных и выходных значений (меток). Входные данные представляют собой характеристики или признаки, которые модель будет использовать для предсказания, в то время как выходные значения обозначают истинные результаты, которые модель должна научиться предсказывать. Основная цель обучения с учителем заключается в том, чтобы, обучив модель на этих парах "вход-выход", она могла эффективно предсказывать выходные значения для новых, ранее не виденных данных.

Структура данных

Структура данных в обучении с учителем подразумевает наличие четко обозначенных входных и выходных значений. Каждый элемент обучающего набора представляет собой пару, где входные данные могут быть представлены в виде векторов или матриц, а выходные значения – как метки классов (для задач классификации) или числовые значения (для задач регрессии). Например, в задаче классификации изображений, где необходимо определить, к какому классу принадлежит изображение, каждое изображение будет сопоставлено с конкретной меткой (например, "кошка" или "собака"). В регрессионных задачах, таких как предсказание цен на недвижимость, входными данными могут быть характеристики дома (площадь, количество комнат, местоположение), а выходным значением – его цена. Этот подход обеспечивает модель необходимой информацией для обучения и предсказания на новых данных.

Процесс обучения

Процесс обучения модели в рамках метода обучения с учителем включает в себя минимизацию функции потерь, которая служит метрикой для измерения точности предсказаний модели. Функция потерь вычисляет расхождение между предсказанными значениями, полученными моделью, и истинными выходными значениями, известными из обучающего набора. В процессе обучения модель настраивает свои параметры (веса и смещения), чтобы минимизировать значение функции потерь, используя такие методы, как градиентный спуск. Этот процесс итеративен: модель многократно обновляет свои параметры, анализируя, насколько хорошо она справляется с задачей на каждом шаге, и корректируя свои предсказания для улучшения точности. В результате, по мере увеличения числа итераций, модель становится более способной делать точные предсказания на основе входных данных.

Оценка производительности

После завершения этапа обучения необходимо оценить производительность модели, чтобы понять, насколько хорошо она будет работать на новых данных. Оценка производительности включает использование различных метрик, таких как точность (accuracy), полнота (recall), точность предсказаний (precision) и F1-мера, которые помогают определить, насколько хорошо модель выполняет задачу. Точность показывает долю правильных предсказаний среди всех предсказаний, полнота измеряет, какую долю истинных положительных случаев модель смогла правильно идентифицировать, а точность предсказаний указывает на процент правильных положительных предсказаний из общего числа предсказаний этого класса. F1-мера представляет собой гармоническое среднее между точностью и полнотой, что делает её полезной для задач с несбалансированными классами. Оценка производительности позволяет не только проверить, насколько эффективно модель выполняет задачу, но и внести коррективы в архитектуру или гиперпараметры для улучшения её работы.

Обучение без учителя (Unsupervised Learning)

Обучение без учителя (unsupervised learning) представляет собой подход в машинном обучении, который используется для анализа неразмеченных данных. В отличие от обучения с учителем, где модели обучаются на размеченных данных с известными выходными значениями, обучение без учителя направлено на выявление скрытых структур или паттернов в данных, которые не имеют заранее определённых меток. Основная задача этого метода заключается в организации и классификации данных на основе их характеристик, что позволяет моделям находить группы или закономерности, не имея при этом предварительной информации о том, как эти данные должны быть интерпретированы.

Структура данных

Структура данных в обучении без учителя отличается от таковой в обучении с учителем тем, что обучающие данные не содержат меток. Это означает, что каждая запись в наборе данных состоит лишь из входных характеристик, таких как числовые значения, текст или другие типы данных, без указания, к какому классу или категории они принадлежат. Например, в задаче сегментации клиентов модель может получать информацию о поведении клиентов (покупки, посещения сайта, взаимодействия с продуктами) без указания, к какой группе они относятся. Модель, использующая подходы обучения без учителя, должна самостоятельно анализировать эти данные и выявлять схожести и различия, что делает этот метод особенно полезным в ситуациях, когда размеченные данные трудно или дорого получить.

Процесс обучения

Процесс обучения в контексте обучения без учителя может варьироваться в зависимости от выбранного метода, но обычно включает такие техники, как кластеризация и ассоциативные правила.

– Кластеризация – это метод, который позволяет группировать данные в кластеры на основе их сходства. Модели, использующие кластеризацию, пытаются минимизировать внутриклассовую вариацию и максимизировать межклассовую вариацию. Одними из самых распространённых алгоритмов кластеризации являются K-средние (K-means), иерархическая кластеризация и алгоритмы, основанные на плотности, такие как DBSCAN.

– Ассоциативные правила помогают выявить взаимосвязи и закономерности в данных. Например, в ритейле модель может обнаружить, что клиенты, купившие молоко, часто также приобретают хлеб. Эти правила могут использоваться для оптимизации маркетинговых стратегий и повышения продаж.

Модели, работающие в режиме обучения без учителя, часто требуют предварительной обработки данных и выбора соответствующих алгоритмов, что может значительно повлиять на качество выявленных паттернов и структур.

Оценка производительности

Оценка производительности моделей, обучающихся без учителя, представляет собой особую задачу, так как отсутствуют заранее известные метки для сравнения. Вместо этого используются альтернативные подходы и метрики, которые позволяют оценить качество выявленных структур и паттернов.

Одной из таких метрик является силуэтный коэффициент (silhouette score), который измеряет, насколько хорошо объекты в кластере сгруппированы и насколько они отделены от других кластеров. Силуэтный коэффициент принимает значения от -1 до 1, где значения близкие к 1 указывают на то, что объекты хорошо сгруппированы, а значения, близкие к -1, указывают на возможное неверное распределение данных.

Другими подходами для оценки могут быть визуализация данных, например, с помощью алгоритмов понижения размерности, таких как t-SNE или PCA (методы главных компонент), которые позволяют визуализировать высокоразмерные данные в двухмерном пространстве и выявлять кластеры или паттерны, которые могут быть не очевидны в оригинальном пространстве данных.

Таким образом, обучение без учителя предоставляет мощные инструменты для анализа данных, позволяя находить скрытые закономерности и структуры без необходимости разметки, что делает его полезным в различных областях, от анализа клиентского поведения до научных исследований.

Примеры задач для каждого подхода

Примеры задач обучения с учителем:

1. Классификация изображений: Определение класса объектов на изображениях (например, распознавание лиц или классификация животных). Модель обучается на размеченных данных, где каждое изображение имеет соответствующую метку (например, "кошка" или "собака").

2. Регрессия: Прогнозирование количественных значений, таких как цены на недвижимость или температура. Модель обучается на данных, где известны как входные признаки (например, площадь, количество комнат), так и выходные значения (например, цена).

3. Обработка естественного языка: Задачи, такие как анализ тональности текстов (положительный, отрицательный или нейтральный). Модель обучается на текстах, которые уже имеют метки о том, какова их тональность.

Примеры задач обучения без учителя:

1. Кластеризация: Группировка данных по схожести, например, сегментация клиентов в маркетинге. Модель может выявить различные группы клиентов на основе их поведения без знания, к какой группе они принадлежат.

2. Снижение размерности: Методы, такие как главные компоненты (PCA), используются для упрощения данных, сохраняя при этом основные характеристики. Это полезно для визуализации многомерных данных.

3. Ассоциативные правила: Поиск паттернов и связей в больших наборах данных, например, анализ покупательских корзин в ритейле (например, "люди, купившие молоко, часто покупают хлеб"). Модель изучает зависимости между элементами без заранее заданных меток.

Обучение с учителем и без учителя представляют собой два основных подхода в области машинного обучения, каждый из которых подходит для различных типов задач и данных. Понимание этих подходов помогает выбрать правильную стратегию для решения конкретных проблем, а также эффективно использовать доступные данные для обучения моделей.

2.2. Подготовка данных

Преобразование и нормализация данных

Преобразование и нормализация данных – это важные этапы предварительной обработки в процессе обучения моделей машинного обучения, в том числе и нейронных сетей. Эти процедуры направлены на улучшение качества входных данных и, как следствие, на повышение точности и стабильности обучения модели.

Преобразование данных включает в себя различные методы изменения формата, структуры и типа данных для повышения их пригодности для анализа. Это может включать в себя такие действия, как:

– Изменение масштаба: Приведение всех значений признаков к единой шкале (например, от 0 до 1 или с использованием z-преобразования), что помогает избежать ситуаций, когда некоторые признаки оказывают непропорционально большое влияние на обучение из-за своих больших масштабов.

– Кодирование категориальных переменных: Преобразование категориальных признаков в числовые форматы (например, с использованием one-hot кодирования), чтобы модели могли работать с этими данными.

– Обработка пропусков: Замена отсутствующих значений в данных на средние, медианные или наиболее частые значения, а также использование более сложных методов, таких как интерполяция или моделирование.

Нормализация данных предполагает изменение диапазона значений признаков, чтобы они имели определённое распределение. Наиболее распространёнными методами нормализации являются:

– Min-Max нормализация: Приведение значений к диапазону [0, 1].

– Z-нормализация (стандартизация): Приведение данных к нулевому среднему и единичной дисперсии, что делает данные более согласованными и помогает улучшить скорость сходимости во время обучения.

Эти процедуры имеют ключевое значение, так как многие алгоритмы машинного обучения, включая нейронные сети, чувствительны к масштабу и распределению данных.

Разделение данных на тренировочные и тестовые наборы

Разделение данных на тренировочные и тестовые наборы – это критически важный этап в разработке моделей машинного обучения, который помогает избежать переобучения (overfitting) и оценить обобщающую способность модели. Обычно процесс разделения включает следующие этапы:

– Тренировочный набор: Это часть данных, на которой модель будет обучаться. Она используется для обновления параметров модели, позволяя ей учиться на известных входных и выходных данных.

– Тестовый набор: Это часть данных, которая не используется в процессе обучения. Она предназначена для оценки производительности модели на новых, невидимых данных, что позволяет проверить, насколько хорошо модель может обобщать свои знания.

Обычно данные разделяются в пропорции 70:30 или 80:20, но точные значения могут варьироваться в зависимости от объёма данных и конкретной задачи. Важно, чтобы данные были случайно перемешаны перед разделением, чтобы избежать смещения (bias), связанного с порядком данных.

Роль кросс-валидации в обучении

Кросс-валидация (cross-validation) – это метод оценки производительности модели, который позволяет лучше понять, как модель будет работать на независимых данных. Она помогает минимизировать влияние случайных факторов, связанных с разделением данных, и обеспечивает более надёжную оценку обобщающей способности модели. Наиболее распространённым методом кросс-валидации является **k-fold кросс-валидация**.

В процессе k-fold кросс-валидации:

1. Данные разбиваются на k равных по размеру подмножеств (folds).

2. Модель обучается k раз, каждый раз используя k-1 подмножеств для обучения и оставшееся подмножество для тестирования.

3. Результаты тестирования на каждом шаге записываются, и в конечном итоге производится усреднение метрик производительности (например, точности), чтобы получить оценку эффективности модели.

Этот подход позволяет более точно оценить, как модель будет вести себя на новых данных, так как она проверяется на различных подмножествах данных. Кросс-валидация также помогает в выборе гиперпараметров модели, так как можно протестировать различные конфигурации на каждом из подмножеств и выбрать наилучший вариант.

Таким образом, преобразование и нормализация данных, разделение на тренировочные и тестовые наборы, а также применение кросс-валидации играют ключевую роль в разработке эффективных моделей машинного обучения и нейронных сетей, обеспечивая надёжность и стабильность результатов.

Давайте рассмотрим пример кода, иллюстрирующий этапы подготовки данных, включая преобразование, нормализацию, разделение на тренировочные и тестовые наборы, а также кросс-валидацию. Для примера используем набор данных `Iris` из библиотеки `scikit-learn`.

Подготовка данных

1. Загрузка данных: используем датасет `Iris` и обрабатываем данные.

2. Обработка пропусков: Заменяем пропущенные значения на медианные.

3. Кодирование категориальных переменных: Кодируем целевой признак.

4. Нормализация данных: Применим Min-Max нормализацию.

5. Разделение на тренировочные и тестовые наборы: Разделяем данные для оценки.

6. Кросс-валидация: Применим k-fold кросс-валидацию.

Пример кода

```python

import numpy as np

import pandas as pd

from sklearn.datasets import load_iris

from sklearn.model_selection import train_test_split, KFold, cross_val_score

from sklearn.preprocessing import MinMaxScaler, StandardScaler, LabelEncoder

from sklearn.ensemble import RandomForestClassifier

from sklearn.metrics import accuracy_score

# Шаг 1: Загрузка и подготовка данных

data = load_iris()

df = pd.DataFrame(data.data, columns=data.feature_names)

df['target'] = data.target

# Шаг 2: Обработка пропущенных данных (для примера добавим пропуски)

df.iloc[0, 0] = np.nan # добавляем пропущенное значение для примера

df.fillna(df.median(), inplace=True) # заполняем медианными значениями

# Шаг 3: Кодирование категориального признака (в данном случае уже числовой)

# Для других данных LabelEncoder может быть полезен

# Шаг 4: Нормализация данных

scaler = MinMaxScaler()

df[data.feature_names] = scaler.fit_transform(df[data.feature_names])

# Шаг 5: Разделение данных на тренировочные и тестовые наборы

X = df.drop('target', axis=1)

y = df['target']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Шаг 6: Обучение модели и оценка

model = RandomForestClassifier(random_state=42)

model.fit(X_train, y_train)

predictions = model.predict(X_test)

accuracy = accuracy_score(y_test, predictions)

print(f'Точность на тестовом наборе: {accuracy:.2f}')

# Шаг 7: Кросс-валидация

kf = KFold(n_splits=5, shuffle=True, random_state=42)

cv_scores = cross_val_score(model, X, y, cv=kf)

print(f'Средняя точность при кросс-валидации: {cv_scores.mean():.2f}')

```

Описание кода

– Загрузка данных: Набор данных `Iris` предоставляет четыре признака и один целевой признак – вид цветка.

– Обработка пропусков: Пример добавляет пропущенные значения в первый признак и затем заменяет их на медианное значение по этому признаку.

– Кодирование категориальных переменных: `LabelEncoder` может использоваться для преобразования категорий в числовой формат (не требуется в этом наборе данных).

– Нормализация данных: Min-Max нормализация применяется ко всем признакам, чтобы привести их к диапазону [0, 1]. Это улучшает процесс обучения, делая данные более однородными.