Леонид Черняк — лучшие цитаты из книг, афоризмы и высказывания
image

Цитаты из книг автора «Леонид Черняк»

171 
цитата

Но в последние годы ситуация резко изменилась, что отражает лозунг «It's the data, stupid», указывающий на возрастающую роль данных в современной науке, бизнесе и других отраслях человеческой деятельности. Он представляет собой парафраз «Это экономика, тупица» – знаменитого лозунга предвыборной кампании Билла Клинтона, который помог ему в 1992 году победить Джорджа Буша-старшего. Если в 2008 году вопрос о данных был только поставлен, то через пару лет проблема выплеснулась на страницы ведущих экономических изданий. В февральском номере журнала Economist за 2010 год вышла статья «Данные, везде данные» (Data, data everywhere), в ней происходящее названо индустриальной революцией данных. Британский математик и успешный предприниматель Клив Хамби (Clive Humby, 1955) одарил человечество гениальным лозунгом «Данные – это новая нефть» (Data is the new oil)». Это утверждение развил журнал Economist в опубликованном в 2017 году отчете «Теперь самый ценный ресурс в мире не нефть, а данные» (The world’s most valuable resource is no longer oil, but data). Заслуга Хамби в том, что он раньше других увидел параллель – собственно нефть всего лишь сырье, потребительскую ценность имеют ее производные – бензин, пластики и все остальное, то же самое и данные, для того, чтобы они стали источником новой стоимости, они должны быть переработаны.
29 ноября 2022

Поделиться

Сложилась странная ситуация: есть технологии, якобы информационные, а вот что именно является предметом этих технологий, неизвестно, в одних случаях – цифры, в других – тексты, в третьих – управляющие сигналы и т. д. Можно ли представить себе еще какую-то технологию, не имеющую четкого представления о предмете обработки или переработки? Все, что необходимо было знать о данных, сводилось к представлению в двоичным или восьмеричных кодах и их количеству, выраженному в байтах, к форматам, к технологиям хранения и методам доступа. Игнорирование значения данных воспринималось как нечто само собой разумеющееся, такое положение могло бы продолжаться и далее, если бы количество данных не стало угрожающе велико, а сетевые методы доступа к данным не превратились в фактор заметного влияния на жизнь общества.
29 ноября 2022

Поделиться

можно оценить аэродинамику, но не все особенности поведения летательного аппарата в воздухе. Возможности моделей ограничены, показателен следующий афоризм британского статистика Джорджа Бокса (George Box, 1919–2013): «В сущности, все модели неправильны, но некоторые полезны». Своим высказыванием Бокс открыл многолетнюю дискуссию о значении моделей, которую статистики ведут более 40 лет. Если существует сомнение в справедливости статистических моделей, имеющих под собой серьезную математическую основу, то что говорить об эмпирических моделях мозга? Нет ничего удивительного в том, что MDAI на данный момент никаких практических перспектив на будущее не имеет. Но ни от чего нельзя зарекаться, не исключено, что в будущем станет возможен компромисс между MDAI и DDAI, но для этого нужны методы, обеспечивающие автоматизацию при создании моделей. Подход DDAI – продолжение коннекционизма, он назван так, потому что в данном случае AI строится на скрытых знаниях (tacit knowledge), самостоятельно излеченных машиной из предъявляемых ей данных в процессе обучения AI, такой процесс можно назвать автоматизированной излечения информации или знаний. Как любая автоматизация, DDAI гарантирует независимость от человеческих ошибок. DDAI того, что реально делается в AI-индустрии, «AI, который работает» (AI that works). Причина доминирующего положения DDAI имеет вполне очевидные объяснения – это доступное по цене и обладающее высокими показателями аппаратное обеспечение (серверы, процессоры и системы хранения) и успехи в программном обеспечении, реализующем машинное обучения (ML), и искусственные нейронные сети (ANN). Лет 10 назад настал момент, когда сложились условия для воплощения DDAI и после этого «процесс пошел». Ускоренное развитие методов DDAI стало стимулом к созданию новых программных и аппаратных технологий и далее, буквально на глазах складывается система с положительной обратной связью, где новые компьютерные технологии открывают более широкие перспективы для AI, а развитие AI стимулирует развитие технологий. Синергия AI и технологий позволяет качественно расширить сферу автоматизации. В отчете McKinsey «Четыре столпа автоматизации рабочих мест» (Four fundamentals of workplace automation) показано, что существовавшие до сих пор традиционные технологии позволяют автоматизировать не более 5 % рабочих мест, а с использованием методов DDAI количество автоматизируемых рабочих мест возрастет до 60 %, а уровень автоматизации составит порядка 30 %.
18 ноября 2022

Поделиться

можно предположить, что одним из долгоживущих AI останется предложенное Аланом Тьюрингом деление на два подхода «сверху-вниз» и «снизу-вверх». Они соответственно ассоциировалось с символьным AI и коннекционизмом, но сейчас по прошествии лет, накопив определенный опыт эти подходы можно назвать иначе – подход «сверху-вниз» ориентированным на модель (Model-driven AI, MDAI), а подход «снизу-вверх» ориентированным на данные (Data-driven AI, DDAI). MDAI – это прямой наследник символьного AI (symbolic AI), строившегося исходя из так и не доказанной гипотезы о возможности создания программной модели искусственного мозга. Для организации процесса передачи знаний в модели использовались самые разные приемы, но все они страдают общими непреодолимыми недостатками – они чрезвычайно трудоемки в процессе создания и поддержки, зависят от человеческих ошибок (prone to human error), а в ряде случаев сложность такова, что человек попросту оказывается не в состоянии создать необходимую модель знаний. Например, если средствами MDAI решать задача распознавания, то следует сделать полную декомпозицию опознаваемого предмета, выделить все возможные признаки и разработать правила сравнения данных, заложенных в модель с распознаваемым изображением. В экспериментах по распознаванию геометрических фигур такой подход был возможен, но для предметов из реального мира требуемое количество признаков и признаков и слишком велико. Поэтому MDAI неприменим к популярным сейчас компьютерному зрению и к работе с текстами на естественном языке. Однако модели были и остаются важным инструментом исследования, самых разных научных и технических областях создатели моделей стремятся приблизить их как можно ближе к природе, к реальной жизни, но при этом осознанно принимают во внимание их ограничения. На модели, например
18 ноября 2022

Поделиться

AI освободился от приписываемой ему способности делать что-то самостоятельно. Анализ известных внедрений AI показывает, что только чатботы являются примером в некоторой степени автономного AI, скорее всего потому что это приложение не отличается большой сложностью. Во всех остальных случаях AI играет сугубо вспомогательную роль, ему отведено место умного помощника человека или, точнее, как говорили прежде, соработника. Именно так следует перевести принятый английский термин AI-coworker. Такому AI-коллеге можно передать ряд рутинных функций, освободив от них человека, оставив за ним более сложные, с элементами творчества.
18 ноября 2022

Поделиться

забыты мечты о Сильном AI, полный отказ от мыслей о конкуренции AI с человеком (competition) в сторону сотрудничества (coopetition).
18 ноября 2022

Поделиться

За короткий срок представление о том, что такое AI радикально изменилось
18 ноября 2022

Поделиться

Текст – это символьные данные, содержащие информацию, если текст обозрим, то человек без всякой помощи прекрасно справляется с решением задачи преобразования этих данных в полезную для себя информацию. Но в наше время объем текстов, доступных в цифровой форме, таков, что человек с ним справиться не может и возникает потребность в автоматизации этого процесса. Возвращаясь к иерархической модели DIKW, можно сказать, что NLP – это технология преобразования текстовых, она служит инструментом для интеллектуального анализа текстов (text mining, TM), для преобразования неструктурированного текста на естественном языке в нормализованные структурированные данные, которые можно хранить в базах или хранилищах данных и т. д. NLP сочетает методы лингвистики, математики и компьютерной науки и делится на две взаимодополняющие составляющие Natural Language Understanding (NLU) и Natural Language Generation (NLG). Иногда NLU еще называют Natural Language Interpretation (NLI), подтверждая тот факт, что для перевода английского слова understanding в NLU можно использовать и русское слово интерпретация. Для понимания-интерпретации текстовые данные подвергаются синтаксическому анализу (parsing), делятся на более мелкие и простые части, над которыми могут выполняться какие-то иные операции с целью превращения этих данных в структурированные и извлечения из них полезной информации. NLG решает обратную задачу превращения структурированных данных в читаемый текст на разговорном языке, то есть в неструктурированный и неформатированный текст, такой текст называют plain text. Три подхода к NLP Можно выделить три основных подхода к NLP: – Символьный подход предполагает использование лингвистических правил, записанных человеком. – Статистический подход основан на распознавании образов в больших объемах текстов с целью «понимания» естественного языка. – Коннекционистский подход сочетает элементы символьного и статического с использованием нейронных сетей.
18 ноября 2022

Поделиться

NLP принято переводить как «обработка текста на естественном языке», хотя в оригинале текст не упомянут. Перевод вообще странен, если вдуматься. «Текст на естественном языке», а бывают ли тексты на неестественном языке? Казалось бы, к NLP имеют отношение лингвисты, а это явная периссология, пользуясь их терминологией, поэтому оставим NLP. Подавляющая часть работ из области NLP связана с операциями над текстами, но есть еще устная речь и другие знаковые системы, например, жестовые языки, из NLP им посвящено небольшое количество публикаций. Многие источники определяют NLP как способность программы или компьютера понимать человеческий язык или текстовые документы, хотя точнее интерпретировать, возможность такого перевода understanding обсужден выше. NLP, так же как и CV, служит интерфейсом между уровнем данных и уровнем информации в пирамиде DIKW, то есть представляет собой средство преобразования данных-текстов в более удобную для человека форму, иначе говоря, NLP – это зонтичный термин для различных средств, служащих для автоматизации работы с текстами.
18 ноября 2022

Поделиться

признать, что аппаратные средства, поддерживающие CV, NLP и другие решения из области machine intelligence, являющейся подмножеством AI, должны быть рассчитаны на совершенно иную нагрузку, чем традиционные. Во-первых, в их основе должен быть приближенный компьютинг (approximate computing), дающий удовлетворительно точный, но не гарантированно точный результат. Именно так, неточно, работает человеческое мышление. Исследования показывают, что снижение точности на 5–10 % может понизить энергопотребление на два порядка. Во-вторых, обучение должно стать органической частью архитектуры, идея обучения на основе программируемой архитектуры похоже на своего рода оксюморон. Пока удовлетворение этих требований возможно только в идеале. Тем, кого интересует проблема соотношения аппаратного обеспечения и машинного обучения, будет интересно данное в марте 2020 интервью Яна Лекуна «На экзотическом железе трудно добиться успеха». В нем он раскрывает проблему соотношения аппаратного обеспечения и машинного обучения, делая упор на том, что неэффективно использование матричного умножения для выполнения операций свертки – основы конволюционных сетей CNN. На данный момент альтернативу GPU, поставляемых компанией Nvidia, составляют несколько процессоров. Наиболее известно среди них существующее с 2016 года семейство тензорных процессоров Google (Tensor Processing Unit, TPU), представляющих собой специализированную интегральную схему, предназначенную для поддержки библиотеки машинного обучения TensorFlow. Возможно, подходящим решением проблемы железа для CV станут графовые модели, где вершины представляют вероятностные характеристики данных, а ребра – корреляцию между этими свойствами. Этим путем идёт британская компания Graphcore, производящая процессоры Colossus MK2 IPU (Intelligence Processor Unit), название которого адресует к электронно-механическому компьютеру Colossus, испробованному во время Второй Мировой Войны в операции Ultra. Другой многообещающий стартап Cerebras (Головной мозг) выбрал для себя в качестве руководящей идею использования специализированных процессоров на разреженных матрицах. К тому же ее процессор CS-1 изготовлен по необычной технологии Wafer-Scale Engine (WSE), то есть масштабирование на всю подложку. Он занимает всю поверхность кремниевой пластины размером 215 x 215 миллиметров, состоит из более чем 1,2 триллиона транзисторов, собранных примерно в 400 000 ядер.
18 ноября 2022

Поделиться