Сергей Гарбук: «Стандарты искусственного интеллекта»

Логотип компании
Стадарт направлен на то, чтобы выполнить миссию технического комитета — унифицировать методы испытания ИИ, гарантировать предсказуемый и достаточно качественный результат эксперимента.

Со дня создания в 2012 году Фонда перспективных исследований его деятельность направлена на содействие осуществлению научных разработок в сфере инновационных технологий и производства высокотехнологичной продукции военного, специального и двойного назначения. Сергей Гарбук, возглавляющий сегодня Технический комитет по стандартизации № 164 («Искусственный интеллект»), разрабатывал в ФПИ правила и методы оценки первых проектов по созданию технологий, которые мы сегодня называем искусственным интеллектом. Спустя несколько лет на базе этого направления была разработана серия национальных стандартов в области ИИ.

Какие первые проекты с использованием ИИ были реализованы в Фонде?

Всё началось с систем распознавания лиц в сложных условиях – например, когда человек, которого нужно узнать, противодействует этому. Следующим шагом стало распознавание речи, а затем — дешифрирование космических объектов, распознавание снимков, полученных из космоса и с беспилотных летательных аппаратов. Мы отбирали исполнителей для этих проектов и в какой-то момент поняли, что проводить конкурс в соответствии с привычными процедурами бессмысленно, потому что все претенденты напишут практически одинаковые конкурсные заявки: расскажут про искусственный интеллект, нейронные сети, глубокое обучение. В 2015 году еще не было выработано признанных сообществом унифицированных процедур оценки качества таких технологий. То есть, если нужно было сравнить технологии ИИ двух разных разработчиков, скажем, в области распознавания речи, возникала сложная ситуация. Заказчик слушает разработчика, а тот утверждает, что у него вероятность правильного распознавания, допустим, 99% и доказывает это на своей тестовой модели. Следом приходит другой разработчик и на основе уже своей тестовой выборки показывает, что и у него вероятность правильного распознавания 99%. В результате исполнители конкурируют лишь ценой. А это опасно, когда в таких сложных задачах будет выбрана компания, предложившая самую низкую цену, без учета множества других факторов, влияющих на качество решения. Если заказчик продвинутый и обладает достаточным опытом и компетенцией, а главное — ресурсами, то он сам создаст тестовый набор данных, который подходит именно ему, и на его основе проверит и выберет более подходящую систему. Однако это происходит далеко не всегда.

И как же вы решили эту проблему?

Мы стали проводить, как сейчас называют, технологические конкурсы. То есть готовили представительные тестовые наборы данных для прикладных задач по распознаванию лиц, речи, объектов и изображений и к этим наборам предлагали методики измерения результатов. И в какой-то момент поняли, что это и есть стандартные испытания искусственного интеллекта, выполняющие очень важную миссию — сравнение функционально подобных технологий и выявление из них лучших. Более того, мы решили, что, когда речь идет об автоматизации человеческой деятельности, необходимо ответственно заменить человека на компьютер, а значит, иметь возможность сравнивать не только программу с программой, но и действия программы и действия человека, который прежде решал эту задачу вручную и зачастую неплохо. Это и натолкнуло на мысль, что методики следует превращать в национальные стандарты, делать их публичными, доступными для сообщества. Другими словами, мы начали создавать прозрачные правила игры на этом рынке.

Но ведь у западных коллег тоже есть подобные работы. Вы действовали параллельно или с учетом стандартов, разрабатываемых в других странах?

Это не один, а два вопроса. Ведется ли деятельность по сравнению технологий? Да, уже лет 15 мы изучаем опыт и наработки друг друга, это очень серьезные и важные кейсы. Но нельзя просто взять западные образцы и сделать уверенный вывод, что технология подтвердила свое качество и будет хорошо работать при решении той или иной задачи. А во-вторых, мы практически никогда не знаем, как создавался тестовый набор данных, а это важнейший нюанс технологии искусственного интеллекта. Когда не знаешь, насколько несмещенным и объективным является тестовый набор, говорить о представительных оценках качества приложения невозможно. Есть опасность, что какая-то технология, демонстрирующая высокое качество на наборе, не нами придуманном, на практике будет подвержена специфическим информационным атакам. Более того, эта атака может быть даже предусмотрена в этом, не нами сделанном, наборе данных.

А стандарт избавляет от такой опасности?

Да, он направлен на то, чтобы выполнить миссию технического комитета — унифицировать методы испытания ИИ, гарантировать предсказуемый и достаточно качественный результат эксперимента. Вот это, пожалуй, самое главное. Есть и дополнительные функции, которые присутствуют в работе любого айтишного TK: унификация форматов, обеспечение терминологического единства и так далее. Но основное, повторяю, это гарантия предсказуемо качественной работы программы. Начали мы эту работу, ориентируясь на задачи безопасности, причём безопасность в нашем случае следует трактовать максимально широко: предлагаемые нами методики испытания необходимы везде, где речь идет об угрозе жизни и здоровью людей в случае некорректной работы системы. Я имею в виду множество отраслей и направлений — транспорт, медицину, технические средства обеспечения безопасности, промышленность и так далее. Отсутствие испытаний, гарантирующих качество работы систем, является, как сейчас принято говорить, нормативно-техническим барьером к их внедрению.

С чего начинается разработка стандарта?

Мы экспертным путем формируем перечень характеристик системы, которые необходимо проверить для каждой прикладной задачи, а также перечень существенных условий эксплуатации, факторов внешней среды, влияющих на качественную работу ИИ. Например, для распознавания лиц существенными факторами становятся ракурсы лица, возможность работы в условиях, когда часть лица закрыта очками, бородой, повязкой и так далее. Какая именно часть – 5 или 55%? Насколько сложными могут быть условия освещения, то есть градиент освещенности по лицу? Например, у нас есть фотографии двадцатилетнего человека, а опознать его надо спустя 30 лет, – как справится ИИ в таких условиях? На какие расы рассчитана система? Заказчиком определяется диапазон изменения возможных значений этих и других факторов, и исходя из заданных границ формируется тест для испытания.

Как формируется репрезентативная выборка? Что используется в качестве исходных материалов?

Иногда бывает непросто. Так, однажды перед нами встала задача выбора оптимальный технологии распознавания речи в сложных условиях: искусственному интеллекту предстояло справиться с акцентами, жаргонизмами, причем по широкой тематике, и при этом предполагалось, что речь будет искажена телефонными кодаками. И мы пошли следующим путем – подобрали соответствующие фрагменты разговоров радиослушателей с ведущими радиоэфира. Получилась 24-часовая выборка, которая была предварительно размечена нашими экспертами. И вот на этом, достаточно представительном наборе данных было проведено тестирование различных отечественных систем искусственного интеллекта. После этого с участием победителей такого технологического конкурса был реализован соответствующий проект ФПИ. Я убежден, что тогда мы получили лучшую на тот момент систему по распознаванию русской речи в сложных условиях.

Привлечь искусственный интеллект к ответственности за ошибки нельзя. Но тогда как решать юридические вопросы при его эксплуатации? Мне кажется, без этого многие рынки будут попросту закрыты для ИИ.

Стандарты в области оценки соответствия требованиям как раз и позволяют снять ограничения, о которых вы говорите. Именно стандарты могут перенести отношения потребителя технологии искусственного интеллекта и разработчика в цивилизованное русло. Потому что, как только мы измеряем характеристики технологии и гарантируем, что в данных условиях эксплуатация системы будет обеспечена с заданными характеристиками, сразу появляется возможность подключить к отношениям заказчика и разработчика страховую компанию. Риски становятся счетными, и, если вдруг что-то произошло, мы можем понять, страховой это случай или нет. Добросовестно ли разработчик провел сертификацию — на этот счет есть заключение органа по сертификации. В каких условиях использовалась система — легко проверить. Если разработчик и заказчик выполнили условия сертификации и, соответственно, условия эксплуатации, значит, это страховой случай — просчитанный и заложенный в страховые риски.

Кто может сертифицировать такие интеллектуальные продукты?

Я убежден, что оценка прикладных систем искусственного интеллекта должна осуществляться непосредственно в отраслях: в системе здравоохранения, на транспорте, в промышленности, то есть там, где есть возможность формировать представительные наборы данных, выявлять существенные факторы эксплуатации и проводить не абстрактную процедуру оценки соответствия требованиям, а решать прикладные задачи, учитывающие особенности отрасли. А наш комитет окажет методическую и любую другую помощь.

В ТК-164 входят научные учреждения, госструктуры и компании с государственным участием. А как в работе над стандартами участвуют компании, разрабатывающие такие системы? И насколько для них это важно?

Государство стоит на страже интересов общества и каждого человека. И структуры, входящие в наш комитет, гарантируют потребителям безопасность, надежность и функциональность предлагаемых продуктов. Но добросовестному разработчику участвовать в ТК не менее важно, чтобы защищать уже свои интересы. Лидеры рынка, потратившие много усилий, денег и идей на создание своих технологий, должны иметь гарантии, что появившаяся вчера компания с сырой и плохо работающей системой не сможет обмануть заказчика. Добросовестные игроки заинтересованы в установлении строгих и прозрачных правил игры.

Не могли бы вы привести такой пример?

Да, у нас есть опыт такой работы. Скажем, «Яндекс» сейчас по собственной инициативе и за счет собственных средств разрабатывает стандарты ИИ, связанные с контролем состояния водителя такси. Иными словами, компания борется за безопасность дорожного движения. И мы очень надеемся на участие бизнеса в разработке других стандартов, в частности в области распознавания речи. Драйвером разработки стандартов могут стать и сами клиенты, которым требуются качественные голосовые помощники, кол-центры, служба 112. И здесь перед нами стоит сложный вопрос – как получить гарантии, что тревожное сообщение человека будет воспринято с должным вниманием? Нужно ведь учитывать не только процент распознавания, но и эмоциональное состояние собеседника и соответственно реагировать. Я уже несколько раз подчеркнул, что гарантии эффективной работы систем искусственного интеллекта могут быть получены только в определенных условиях: нам надо знать, как наша система поведет себя, скажем, при разговоре на повышенных тонах, в других непредсказуемых сценариях. К счастью, ИИ достаточно гибок, чтобы существовать в атмосфере такой «плавающей автономности», и в зависимости от сложности задачи, внешних обстоятельств и даже правовых и политических ограничений передает свои функции человеку. Впрочем, правила по определению таких полномочий нам еще тоже предстоит выработать.

* Meta, Facebook и Instagram - признаны экстремистской организацией и запрещена на территории РФ

Читайте также
Наиболее популярны сейчас методологии Scrum и Kanban, однако не потерял актуальность и Waterfall. Какую лучше выбрать для вашего проекта и что необходимо учесть перед ее внедрением? Разбирался IT-World.

Читайте также
На что делают ставку злоумышленники, пытаясь угадать пароли пользователей? Какие факторы, помимо выбора пароля, влияют на безопасность данных пользователя? Какие меры могут принять пользователи для повышения безопасности своих данных?

Опубликовано 25.06.2022

Похожие статьи