Алексей КАДЕЙШВИЛИ: «Существенных различий между российским и мировым рынком распознавания лиц практически нет»

Логотип компании
Алексей КАДЕЙШВИЛИ: «Существенных различий между российским и мировым рынком распознавания лиц практически нет»
Технологии распознавания лиц становятся все более точными и доступными. Уже сегодня они позволяют в режиме реального времени обнаруживать подозрительных людей в метро в часы пик, хулиганов на стадионах и воришек в торговых центрах, проводить маркетинговый анализ и выполнять авторизацию пользователей ИС...

Технологии распознавания лиц становятся все более точными и доступными. Уже сегодня они позволяют в режиме реального времени обнаруживать подозрительных людей в метро в часы пик, хулиганов на стадионах и воришек в торговых центрах, проводить маркетинговый анализ и выполнять авторизацию пользователей информационных систем. Технический директор компании «Вокорд» Алексей Кадейшвили отвечает на вопросы главного редактора IT News Геннадия Белаша о том, как работают подобные системы и в каком направлении развивается сама технология.

Какие типы систем распознавания лиц существуют в настоящее время?

Классифицировать системы распознавания лиц можно по нескольким параметрам. Во-первых, по признаку вовлеченности людей в процесс распознавания их можно разделить на кооперативные – когда человек сотрудничает с системой, например смотрит в объектив камеры распознавания, и некооперативные, когда человек не позирует перед камерой специально или нарочно пытается скрыть свое лицо. Типичными примерами кооперативной системы являются авторизация в мобильном приложении или биометрический контроль доступа (СКУД), некооперативной – распознавание лиц в толпе в общественных местах. Во-вторых, по базовой технологии алгоритма распознавания. Один тип можно условно назвать параметрическим, когда задается определенный набор биометрических точек, а система анализирует соотношения между ними. Такой подход уже практически не используется в силу низкой точности идентификации, хотя для детектирования лиц он вполне может применяться. Еще один тип, получивший сегодня наибольшее распространение, основан на нейронных сетях и алгоритмах глубокого обучения, он дает максимальную точность даже для изображений низкого качества, устойчив к поворотам головы и обладает другими преимуществами. В-третьих, системы распознавания лиц отличаются платформой, на которой могут быть запущены: они могут работать на традиционной клиент-серверной архитектуре, в облаке, на мобильных и встраиваемых устройствах. Далее выделяются 2D- и 3D-системы.

Можно о последних подробнее?

Определенным преимуществом 3D-систем можно считать возможность получить шаблон, который будет использоваться в дальнейшем как эталон, работающий в более широком диапазоне ракурсов и менее чувствительный к артефактам. В некоторых случаях, например для получения эталонных моделей при пересечении границы, применение 3D-распознавания целесообразно, несмотря на то что для получения такого шаблона необходимо использовать более дорогие стереокамеры. Однако современные 2D-алгоритмы на нейронных сетях дают сопоставимые результаты и с обычными камерами. Наконец, системы распознавания лиц могут включать различные дополнительные функции, например автоматическое определение пола и возраста, распознавание эмоций, могут подсчитывать частоту появления данного человека в поле зрения и т. д. Эти функции «из коробки» будут очень полезны при создании прикладных систем. Таким образом, заказчик всегда может подобрать решение, которое оптимально подойдет для его задач. На рынке представлены разные типы систем: аппаратно-программные комплексы для обеспечения превентивной безопасности объектов, интегрированные с системами контроля и управления доступом (СКУД), встраиваемые решения и облачные сервисы. Исходя из условий, в которых будет работать система, подбирается необходимая техника – камеры, серверное оборудование, каналы передачи данных и т. п., строится архитектура системы.

Какие из систем появились относительно недавно?

Прежде всего необходимо отметить, что массовое распространение систем распознавания началось недавно, хотя отдельные проекты реализовывались и раньше. Поэтому здесь имеет смысл говорить скорее о направлениях развития технологии. Так, появились встраиваемые решения, что стало возможным благодаря высокой производительности современных графических процессоров и сверхкомпактным аппаратным платформам на их базе, таким как NVIDIA Jetson. Эти разработки позволяют интегрировать полностью автономную систему распознавания в различные устройства – СКУД, банкоматы, терминалы самообслуживания и т. д. При этом достигается быстродействие, сравнимое с мощной рабочей станцией. Еще одна тенденция – распознавание лиц как сервис: он может быть развернут в частном корпоративном облаке или использоваться по подписке из публичного облака. Подписка на сервис распознавания – это очень перспективное и своевременное решение для предприятий малого и среднего бизнеса, ведь облачная архитектура обеспечивает существенную экономию затрат. Разработчики web и мобильных приложений также смогут легко добавлять функцию распознавания в свои решения. В то же время крупные предприятия при запуске системы распознавания в корпоративном облаке получают возможность обеспечить все свои подразделения и филиалы. Например, облачный сервис позволяет собирать маркетинговую статистику – пол, возраст, количество посещений и их частоту, и на ее основании формировать отчеты посещаемости. Это очень удобный инструмент для анализа покупательской активности торговых точек. Возможно также отслеживание подозрительных посетителей. Здесь необходимо отметить, что сервис не собирает и не хранит персональные данные распознаваемых лиц, он только анализирует изображения. На сервере хранится лишь обезличенная информация и статистика.

Какова вероятность распознавания лиц различными системами?

Качество работы систем распознавания может быть описано разными способами, например с помощью графика зависимости двух величин: вероятности правильно идентифицировать человека (так называемый TPR, True Positive Rate) при различных значениях вероятности принять «чужого» за «своего» (FPR, False Positive Rate). Некоторые нейросетевые алгоритмы последнего поколения показывают очень высокие результаты. Так, для алгоритма «Вокорда» при FPR=10-4 TPR составляет 98,7%, а при FPR =10-6 (то есть одна ошибка на миллион) – 96,6%. Эти результаты позволяют уверенно использовать алгоритм для любых задач – от аутентификации в системах контроля доступа до автоматического обнаружения разыскиваемых лиц. Причем в самых сложных условиях, когда идентификация производится в некооперативном режиме, то есть человека нужно дистанционно распознать в толпе, при этом он никак не взаимодействует с системой.

За счет чего эта вероятность может быть повышена?

Помимо совершенствования самих алгоритмов распознавания, а этот процесс идет достаточно быстро, хороший эффект дает использование камер, специально предназначенных для распознавания лиц. Дело в том, что достоверность и скорость биометрической идентификации в значительной степени зависят от качества изображения, с которым работает алгоритм. Так, камера распознавания образов VOCORD NetCam имеет ряд встроенных алгоритмов улучшения изображения, которые эффективно борются с задней засветкой и контрастным боковым освещением, а DSP-процессор, который находит лицо прямо в камере, вырезает его из кадра и только его передает на сервер, что существенно разгружает сеть и позволяет передавать изображение в формате 12bit RAW, то есть без сжатия, в максимальном качестве. Благодаря этому алгоритму легче справляться с задачей.

Где системы распознавания применяются и насколько эффективно решают свои задачи?

Спектр областей применения чрезвычайно широк. Где-то, например в сфере обеспечения безопасности вокзалов, стадионов и других объектов или для предотвращения доступа нежелательных лиц, эти системы становятся уже привычными. А, например, в решении таких задач, как сбор аналитики в розничной торговле, персонификация рекламы, а также в системах удаленной аутентификации и контроля доступа сейчас стартуют первые проекты. Есть и целый ряд прикладных задач, где пока идет формулирование требований к системе. Например, в интерфейсах «человек – машина» для умного дома. В любом случае, по мере того как технология становится все более доступной, она неизбежно будет проникать во все новые ниши.

Как вы оцениваете российский и мировой рынок подобных систем?

Технология распознавания лиц еще молода, но количество внедрений показывает положительную динамику во всем мире. Я бы сказал, что существенных различий между российским и мировым рынком в данной сфере практически нет. Более того, распознавание лиц – одна из тех областей, где российские разработчики являются несомненными технологическими лидерами. Другое дело, что за границей биометрическая идентификация активно продвигается государственными институтами и касается таких сфер, как миграционный контроль, общественная безопасность, финансовый сектор. Например, в некоторых аэропортах Европы регистрация пассажиров уже осуществляется посредством биометрии. Правда, применяется пока лишь для граждан Евросоюза, но это только начало. Я полагаю, что российские органы, и в первую очередь ответственные за безопасность, должны активно использовать возможности данной технологии, тем более что накоплен уже немалый опыт реальных проектов, на которых доказана ее эффективность.

Какие факторы определяют развитие этого рынка?

Мы видим растущий интерес к данной технологии со стороны самых разных организаций. Превращение этого интереса в реальные проекты зависит от нескольких факторов. Во-первых, от уровня понимания, как именно система распознавания лиц будет решать ту или иную прикладную задачу. В некоторых сферах, например обеспечении общественной безопасности, такое понимание уже сформировано, а, скажем, в таких задачах, как повышение качества обслуживания клиентов коммерческих компаний, основные подходы и технические решения только прорабатываются. Во-вторых, многим компаниям важно получить законченные продукты – далеко не все заказчики готовы к разработке. В-третьих, как я упоминал выше, развитию рынка может способствовать более активное применение этих технологий государством.

В каких сегментах российской экономики вы ожидаете наибольший спрос на системы распознавания лиц в ближайшем будущем?

В первую очередь это сфера общественной безопасности, в том числе в связи с чемпионатом мира по футболу ‘2018, а также маркетинговые применения в коммерческом секторе –  банках, розничной торговле. Кроме того, различного рода решения для безопасности корпоративного уровня – от СКУД и борьбы с кражами и мошенничеством до идентификации пользователей на мобильных устройствах.

Какие требования предъявляют сегодня заказчики к системам распознавания лиц и что нужно учитывать при выборе системы?

Прежде всего заказчики хотят быть уверены в точности работы системы распознавания – это один из главных параметров, которые оцениваются при тестировании. Причем система должна хорошо работать даже с изображениями низкого качества, быть устойчивой к артефактам, засветке и прочим аспектам. Для систем потокового распознавания очень важна производительность, что достигается в том числе вычислениями на GPU, позволяющими многократно увеличить скорость построения биометрических шаблонов. Важна также скорость поиска изображений в базе данных. Для систем, где требуется аутентификация пользователя, например СКУД, мобильной идентификации, обязательны наличие и надежность механизмов проверки того, реальный живой человек находится перед камерой, или его фото- или видеоизображение (так называемый liveness check).

Какие технические задачи придется решать при внедрении проектов такого рода?

Исходя из поставленной задачи и имеющихся условий необходимо определить общую архитектуру системы: а) будет ли это клиент-серверное или облачное решение; б) локально или централизованно будет храниться база эталонных изображений; в) где будет происходить обработка видеопотока; г) какие будут использоваться камеры, в частности можно ли задействовать уже имеющиеся; д) с какими системами и как будет выполняться интеграция; е) как будет организована система оповещения операторов и службы безопасности; ж) каков регламент ведения и доступа к архивам и т. д.

В чем преимущества системы распознавания лиц «Вокорд»?

Алгоритм распознавания лиц «Вокорд» возглавляет мировые рейтинги Megaface и NIST, где для тестирования в используются изображения самого разного качества, полученные с обычных фото- и видеокамер. О показателях точности распознавания нашего алгоритма я говорил выше. Что касается быстродействия, то при использовании GPU NVIDIA Tesla у алгоритма «Вокорда» скорость вычисления биометрических шаблонов составляет более 250 лиц в секунду. При этом скорость поиска в базе данных достигает 300 млн в секунду. Алгоритм работает на любых вычислительных платформах – Linux, Windows и даже Android. На базе нашего алгоритма мы создали линейку коробочных продуктов, в том числе VOCORD FaceControl для массового распознавания, систему сбора и анализа статистики с готовыми отчетами и многие другие решения, включая пакет для разработчиков различных кастомных приложений с функцией распознавания. Наша компания выпускает и собственные специализированные камеры со встроенным детектором лиц, работающие в сложных условиях освещения. В скором будущем «Вокорд» представит на рынке камеру с функцией распознавания и сравнения «на борту». Все это облегчает создание эффективных комплексных систем.

Читайте также
Бизнес ориентирован главным образом на рост и финансовую выгоду, а потому зачастую видит в скорейшем внедрении ИИ панацею. Совсем другое дело — госорганы, которые обеспечивают комфорт и благополучие граждан. Далеко не всегда этого можно добиться за счет ИИ и прочих цифровых решений, уверен Денис Волков, министр цифрового развития Воронежской области — нужен многосторонний, взвешенный подход.

Опубликовано 25.09.2017

Похожие статьи