Цитаты из книги «Об ИИ без мифов. Путеводитель по истории Искусственного Интеллекта» Леонида Черняка📚 — лучшие афоризмы, высказывания и крылатые фразы — MyBook. Страница 3
image
Проблема умного железа Используя метафору «души и тела» в приложении к AI, можно сказать, что в CV – это проблема «души», она решается давно и успешно, но проблема «тела» остается далека от решения, несмотря на кажущееся благополучие, обеспечиваемое графическими процессорами GPU и собранными из них кластерами с рекордными показателями производительности, измеренной в петафлопах, то есть в единицах, не имеющих непосредственного отношения к нагрузке, создаваемой AI-приложениями. История специализированных аппаратных технологий для CV и вообще задач машинного обучения только начинается. Приходится признать, что для такого класса задач используемые ныне GPU и намного реже специализированные микросхемы (ASCI) и матричные массивы (FPGA) служат тем, что по-английски называют stopgap measures, то есть средствами, обеспечивающими временное решение, не более того. О степени несовершенства можно судить по тому, что мозг потребляет порядка 40 ватт, а если бы удалось создать компьютер, моделирующий равное число нейронов современными технологиями, его мощность оценивалась бы тысячами мегаватт, но есть на 7–9 порядков больше. Поэтому нынешнее положение можно сравнить с тем, что было в первые годы существования компьютеров, когда в ход шли любые доступные радиодетали – лампы, транзисторы, конденсаторы, сопротивления, магнитные сердечники. Это происходило до семидесятых, до тех пор пока не появились интегральные микросхемы, а позже и микропроцессоры. Проблема железа для CV заключается в том, что до сих пор нет процессоров, полностью соответствующих задачам моделирования. нейронных сетей. Фон-неймановские CPU были задуманы для расчетов, то есть для последовательного выполнения одной программы, хотя за десятилетия их научились искусственными приемами адаптировать к распараллеливанию, или, как сейчас чаще говорят, к работе в многопоточном режиме, более соответствующим требованиям машинного обучения. Однако CPU, имея относительно небольшое число (десятки) производительных ядер, остаются способными обрабатывать ограниченное количество мощных потоков. Ограниченность обычных CPU для задач CV и других задач, связанных с машинным обучением, была осознана давно, чтобы с ней справиться в ход идут не только графические, карты (GPU), аудиокарты, сигнальные процессоры, программируемые матрицы FPGA и многое другое. Успешнее других оказалось внедрение GPU, задуманные для задач трехмерного рендеринга они отличаются большим числом ядер, но эти ядра существенно меньше и проще, чем CPU. Так уж случилось, что GPU, рожденные для компьютерных игр, смогли обеспечить прорыв в AI. Сегодня огромные кластеры, собранные из игровых в прошлом процессоров, обеспечивают всю индустрию AI. Но GPU являются паллиативом, если посмотреть на проблему шире, то надо
18 ноября 2022

Поделиться

Средствами CV удается автоматически преобразовать фото- и видеоданные в информацию, что с успехом удалось сделать Ыну с коллегам в вышеописанном эксперименте с кошками с использованием технологий самообучения ANN. Еще в 2007 году группа авторов под руководством того же Эндрю Ына опубликовала статью «Обучение с самообучением: Трансферное обучение на неразмеченных данных» (Self-taught Learning: Transfer Learning from Unlabeled Data). В ней они рассматривают четыре типа обучения • Supervised Classification – Обучение с учителем • Semi-supervised Learning – Обучение с частичным участием учителя • Transfer Learning – Трансфертное обучение • Self-taught Learning – Обучение без учителя Эти виды обучения отличаются по степени использования заранее помеченных данных. В случае обучения с учителем она максимальна и, напротив, в случае обучения без учителя минимальна. Идея последнего проста, можно на некотором тестовом наборе научить саму сеть самостоятельно учиться, а после этого она получит возможность накапливать внутри себя необходимый ей комплекс метаданных, чтобы решать поставленную перед ней задачу распознавания. Но в отличие от человека, использующего при обучении творческие способности, ассоциации и т. п., машина по определению тупа, поэтому процесс ее обучения требует затрат большой вычислительной мощности, к тому же эта мощность при использовании фон-неймановских CPU на задачах машинного обучения используется нерационально. Основным инструментом для разработчиков CV служат библиотеки функций, позволяющие решать стоящие перед ними задачи с использование нейронных сетей и методы машинного обучения. Библиотеки позволяют аккумулировать опыт и небольшими силами создавать серьезные работающие системы из готовых блоков. Почти все библиотеки относятся к открытому ПО, в числе наиболее популярных: OpenCV, TensorFlow, CUDA, YOLO, MATLAB, Keras, SimpleCV, BoofCV, CAFFE, OpenVINO и DeepFace, но ими список не ограничивается, поскольку по своим возможностям они заметно различаются, выбор зависит от решаемой задачи. В подавляющим большинстве рейтингов лидирует библиотека OpenCV
18 ноября 2022

Поделиться

Математической основой метода является алгоритм машинного обучения AdaBoost (Adaptive Boosting, в данном случае можно перевести как адаптивное усиление).
18 ноября 2022

Поделиться

алгоритмы, реализующие SIFT, в процессе обучения выявляют и сохраняют координаты локальных признаков в масштабно-независимой форме и фиксируют их в базе данных. А далее объект в новом изображении распознается посредством сравнения его признака с признаками из базы данных. Подход, предложенный Лоу, оказался чрезвычайно результативным, он используется в самых разнообразных современных приложениях. Он развивается и создано несколько новых подходов к распознаванию, унаследовавших его основы.
18 ноября 2022

Поделиться

Компьютерное зрение в его современном понимании началось с отказа от идеи целостности и от восстановления трехмерных моделей по полученному тем или иным образом двумерному изображению в пользу более прагматических решений, нацеленных на выявленных заданных свойств наблюдаемого объекта. Этот путь можно назвать выделением скрытых метаданных.
18 ноября 2022

Поделиться

человеческий мозг ассоциируют с компьютером, Марр видел в нем систему, перерабатывающую входной поток сенсорной информации, он представил процесс переработки зрительной информации в виде иерархии из четырех стадий от первичной проекции внешнего объекта на сетчатку глаза до его опознания человеком.
18 ноября 2022

Поделиться

Результаты обработки зрительной информации на каждой предыдущей стадии, являются исходными данными для следующей стадии: • Собственно видение, формирование изображения на сетчатке. • Первичный анализ структуры изображения – выделение текстуры, контуров, формы, взаимного расположения объектов в пространстве. • Составление эскиза – определение общей ориентации и глубины контуров, оценка глубины и расстояния от точки наблюдения до объекта.
18 ноября 2022

Поделиться

Фундаментальные предпосылки к решению задачи компьютерного зрения были сделаны не математиками, а нейрофизиологами, причем исследования природы зрения начались существенно раньше упомянутого выше летнего семинара. Предположение о роли зрительной части головного мозга, отвечающей за обработку визуальной информации, в 1810 году выдвинул австрийский врач и анатом Франц Галль (Franz Gall, 1758–1828), известный как создатель паранауки френологии. Позже сложилось несколько школ исследования работы мозга, успешнее других механизмы зрения изучал немец Герман Мунк (Hermann Munk, 1839–1912), один из крупнейших физиологов своего времени.
18 ноября 2022

Поделиться

Data Labeling Для CV и NLP нужны размеченные данные, в связи с этим появилась новая технологи data labeling (нанесение этикеток на данные, аннотация). На данный момент никаких средств для автоматизации этого процесса нет и в обозримом будущем не будет, поэтому эту нудную работу (handmaid data labeling) будут вручную выполнять низкоквалифицированные работники. Их можно назвать «синими воротничками» индустрии AI. Рабочие должны выполнять вручную огромный объем работы, например, аннотация одного человеческого образа требует указания от 15 до 40 точек и делается это все обычными средствами человеко-машинного интерфейса. Для разметки изображений сейчас есть и свободно распространяемые технологии (Sloth, Visual Object Tagging) и коммерческие (Diffgram Supervisely), и другие. Список средств для разметки документов, используемых при обработке текстов на естественных языках NLP, существенно длиннее.
17 ноября 2022

Поделиться

Простейший вид явных метаданных – запись данных в предопределенную структуру, например в СУБД или в электронную таблицу, где нахождение числа или слова в определенной позиции придает ему значение и открывает возможность для поиска и анализа. Такие метаданные можно назвать структурными. Есть альтернативный способ явного представления метаданных, он по идее прост – достаточно можно снабдить данные ярлыками-метками, указывающими на смысл, который имеют следующие за ним записи. Такая разметка удобна для неструктурированных данных, в том числе и записей на естественном языке.
17 ноября 2022

Поделиться