История одного проекта. Десять лет спустя

Логотип компании
История одного проекта. Десять лет спустя
Словарь понемногу публикуется на страницах Виртуального компьютерного музея (www.computer-museum.ru), а наиболее интересные словарные статьи я помещаю на своей странице в «Фейсбуке». Возможно, со временем мы дозреем до того, чтобы сделать проект открытым...

Десять лет назад, к 20-летию работы над нашим англо-русским словарем по вычислительной технике и информационным технологиям (ВТ и ИТ), в IT World была опубликована моя статья «История одного проекта». И сегодня, в год 30-летия проекта, давайте посмотрим, что же за это время в нем произошло. Если тогда я с некоторой опаской утверждал, что наш словарь самый большой в мире в своей категории (в нем 27 750 словарных статей), то теперь я это делаю с гораздо большим основанием: наш труд вырос до 44 300 статей и стал просто гигантским. Каждая словарная статья описывает обычно не один термин, а несколько, и приводятся разные варианты их перевода.

Можно спросить: ну откуда в ВТ и ИТ столько терминов? Просто за эти годы наша область разрослась по множеству направлений – появились облачные вычисления, большие данные, анализ данных, блокчейн, предиктивная аналитика, машинное обучение, суперкомпьютерные и квантовые вычисления. Очень много терминов связано с информационной безопасностью. По появлению новых терминов хорошо видно, какие направления активно развиваются, какие стабилизировались, а какие стагнируют. Компьютерный язык, как и обычные, естественные языки, в постоянном движении, но мы не удаляем термины, вышедшие из употребления, иначе скоро будет невозможно читать старую документацию. Разумеется, трудно объять необъятное, и сейчас мы добавляем в словарь 50-60 новых статей в неделю.

В 2015 году вышло шестое бумажное издание нашего словаря объемом 1600 страниц формата A4 и весом ровно 3 кг. Стало понятно, что следующего уже не будет – делать многотомное издание совершенно бессмысленно. Так появилась идея выпускать небольшие, узкоспециализированные востребованные словари, делая выборку терминов из Большого словаря. Первый такой проект состоялся в 2019 году: издательство DirectMedia выпустило наш «Англо-русский словарь терминов по робототехнике и искусственному интеллекту». Он содержал всего 2600 словарных статей, что для такой актуальной темы недостаточно, и поэтому мы подготовили второе издание, добавив в него почти тысячу новых статей.

Вторым на 2020 год был запланирован «Англо-русский словарь по информационной безопасности», но из-за проблем с пандемией издание не состоялось. Сейчас в рукописи более 3200 словарных статей, но новые термины в этой области всё появляются. Может быть, что-то получится в наступившем, 2021 году.

Наконец, еще одним полезным опытом стало составление кратких словарей для альманаха «Искусственный интеллект», который выходит четыре раз в год, для него мы подготовили «Краткий англо-русский словарь по распознаванию речи». В момент публикации в нем было около 100 словарных статей, а сейчас уже около 300. Там же был словарь по распознаванию образов и недавний словарь по машинному обучению с подкреплением.

Разумеется, нам очень важна обратная связь с читателями. Поэтому словарь понемногу публикуется на страницах Виртуального компьютерного музея (www.computer-museum.ru), а наиболее интересные словарные статьи я помещаю на своей странице в «Фейсбуке». Возможно, со временем мы дозреем до того, чтобы сделать проект открытым. Меня пугает только предполагаемый объем модерирования.

Со словарными проектами сейчас какое-то непонятное состояние: они вроде бы есть, но начинаешь с людьми говорить, и выясняется, что проекты развиваются очень слабо, если вообще развиваются. Когда-то с гениальным Александром Нариньяни мы продвигали идею «Российской лингвистической инициативы» – создания электронных словарей языков народов мира. Словарные фирмы инициативу поддержали, но найти средства на ее реализацию не удалось. Другая моя мечта – превратить словарь в своеобразную энциклопедию ВТ и ИТ – постепенно осуществляется, мы постоянно расширяем толкования терминов. Понятно, что при таком объеме словаря этот процесс нескончаем.

Работа над словарями трудоемкая и кропотливая, не дает авторам возможности расслабиться, поскольку необходимо достаточно глубоко вникать в ту или иную тематику. У словарей есть одна большая проблема: чем словарь больше, тем больше усилий у автора уходит на поддержание его актуальности. Похоже, это правда: на 60 новых терминов мы еженедельно уточняем и дополняем примерно 150 уже существующих.

Я и мой уважаемый соавтор – уже ветераны ВТ, и наше поколение людей, которые знали развитие ВТ и ИТ достаточно широко, к сожалению, уходит. Вот даже думаю, что в пределах ближайшего десятилетия составление словарей ляжет на плечи искусственного интеллекта. Возможно, вначале будут проблемы с качеством и информационным шумом, но, полагаю, рано или поздно они будут до какой-то степени решены.

Эдуард Пройдаков

Читайте также
IT-World разбирался, как сделать так, чтобы специалист на удаленке не смотрел весь день сериалы под кофе, или тем более алкоголь? Как помочь ему сохранить рабочий фокус, но при этом не заставлять перерабатывать?

Опубликовано 16.01.2021

Похожие статьи