На Kaggle нашел датасет с русским текстом (ссылка 6). Датасет содержит ~14 тыс комментариев с пикабу и пометкой, является ли текст токсичным или нет. Модель НС использовал ту же, что и для IMDB