Трудности перевода. Хорошо ли ИИ разбирается в языках?
Это может иметь серьезные последствия: например, переводческие ошибки на основе ИИ сорвали несколько дел о предоставлении убежища в США.
Проблема в том, что в мире существует более 7000 языков, но большинство ИИ-чат-ботов обучены всего на сотне из них, причем английский язык доминирует, хотя на нем говорит менее 20% мирового населения. Это приводит к распространению ошибок и недоразумений, особенно в критических ситуациях.
Основные языковые модели (LLM) обычно отражают предпочтения своих создателей, которые в большинстве случаев живут в англоязычных странах. Из-за этого они плохо адаптируются к культурным и языковым особенностям других регионов. Это особенно важно, потому что такие чат-боты становятся всё популярнее, от работы в службах поддержки до умных помощников.
IT-World изучил исследование Стэнфорда, посвященное этой проблеме. Оно показало, что попытки «настроить» LLM под различные культуры и языки часто приводят к ошибкам, потому что разработчики не всегда правильно интерпретируют местные культурные контексты. Например, фразы или идиомы на английском могут быть неверно поняты и неудачно переведены, что затрудняет общение с пользователями из других стран.
Исследователи подчеркивают важность прозрачности в процессе разработки. Это значит, что нужно открыто сообщать, какие культурные и языковые аспекты были учтены при создании модели. Такой подход поможет избежать предвзятости и улучшит взаимодействие с пользователями по всему миру.
Кроме того, рекомендуется проводить обширное тестирование с местными пользователями до того, как чат-боты будут запущены в работу. Это поможет выявить и исправить культурные ошибки, которые могут возникнуть при использовании ботов. Важно также предоставлять пользователям возможность выбора языка и культурного контекста, чтобы они могли настроить бота под свои нужды.
Есть признаки того, что проблема начинает решаться. Например, правительство Индии разрабатывает систему перевода Bhashini, обученную на местных языках, а технологическая фирма Karya создает наборы данных для ИИ-моделей. В ОАЭ создана первая арабская языковая модель Jais AI, а в Новой Зеландии Te Hiku Media использует ИИ для сохранения и продвижения языка маори.
В Африке инициатива Masakhane занимается продвижением исследований NLP для африканских языков, а правительство Нигерии запустило свою первую многоязычную языковую модель. В Бразилии и Турции также предпринимаются усилия по сохранению и продвижению местных языков с помощью технологий ИИ.
Таким образом, несмотря на серьезные проблемы с языковой предвзятостью, предпринимаются активные шаги по ее преодолению. Генеративный ИИ может сыграть важную роль в сохранении языкового разнообразия, если будет правильно разработан и адаптирован для работы с разными языками и культурами.
К 2033 году объём мирового рынка чат-ботов на основе искусственного интеллекта прогнозируется на уровне 66,6 млрд долларов США, что значительно выше по сравнению с 6,4 млрд долларов в 2023 году. Ожидается, что в период с 2024 по 2033 год среднегодовой темп роста составит 26,4%.
Опубликовано 14.08.2024