Текст – это символьные данные, содержащие информацию, ...➤ MyBook

Цитата из книги «Об ИИ без мифов. Путеводитель по истории Искусственного Интеллекта»

Текст – это символьные данные, содержащие информацию, если текст обозрим, то человек без всякой помощи прекрасно справляется с решением задачи преобразования этих данных в полезную для себя информацию. Но в наше время объем текстов, доступных в цифровой форме, таков, что человек с ним справиться не может и возникает потребность в автоматизации этого процесса. Возвращаясь к иерархической модели DIKW, можно сказать, что NLP – это технология преобразования текстовых, она служит инструментом для интеллектуального анализа текстов (text mining, TM), для преобразования неструктурированного текста на естественном языке в нормализованные структурированные данные, которые можно хранить в базах или хранилищах данных и т. д. NLP сочетает методы лингвистики, математики и компьютерной науки и делится на две взаимодополняющие составляющие Natural Language Understanding (NLU) и Natural Language Generation (NLG). Иногда NLU еще называют Natural Language Interpretation (NLI), подтверждая тот факт, что для перевода английского слова understanding в NLU можно использовать и русское слово интерпретация. Для понимания-интерпретации текстовые данные подвергаются синтаксическому анализу (parsing), делятся на более мелкие и простые части, над которыми могут выполняться какие-то иные операции с целью превращения этих данных в структурированные и извлечения из них полезной информации. NLG решает обратную задачу превращения структурированных данных в читаемый текст на разговорном языке, то есть в неструктурированный и неформатированный текст, такой текст называют plain text. Три подхода к NLP Можно выделить три основных подхода к NLP: – Символьный подход предполагает использование лингвистических правил, записанных человеком. – Статистический подход основан на распознавании образов в больших объемах текстов с целью «понимания» естественного языка. – Коннекционистский подход сочетает элементы символьного и статического с использованием нейронных сетей.
18 ноября 2022

Поделиться