Что происходит в сфере управления данными
Современные тенденции в области работы с данными
Со временем в компаниях выросло количество информационных систем, отвечающих за различные участки бизнеса. Раньше управлять ими и объединять хранящиеся в них данные могли разработчики и администраторы, но постепенно их сложность, равно как и необходимость оперативного получения данных, потребовали привлечения отдельного специалиста – data-аналитика. Он отвечает за построение оптимального взаимодействия между информационными системами предприятия, проектирует правила хранения и обмена информацией, трансформирует требования бизнеса в функциональные, обеспечивает эффективность использования данных и их доступность для всех заинтересованных подразделений.
Широкое распространение работы с данными приводит к появлению отраслевых стандартов работы. По аналогии с набором практик для управления проектами PMBOK вышел набор стандартов DMBOK, уже в двух версиях. Появляются технические стандарты, которые условно можно назвать DataOps․ Начали проводиться конференции, где специалисты обмениваются опытом и агрегируют успешные практики в единые базы знаний.
Одновременно с этим появляются законы, регламентирующие правила сбора и обработки данных – в первую очередь, персональных.
Стандартом для бизнес-аналитики становится использование хранилищ OLAP (Online Analytical Processing): они хуже транзакционных баз справляются с быстрыми операциями чтения и записи, но отлично подходят для выборок и анализа больших массивов.
Еще одна важная современная тенденция – облачные инфраструктурные платформы с уже готовыми инструментами для быстрого развертывания хранилищ и работы с ними. Они сделали аналитическую работу с большими объемами данных доступной для любой организации: больше не требуется создавать собственную сложную инфраструктуру, достаточно воспользоваться сервисом, где все инструменты доступны «из коробки». Снизились требования к компетенции бизнес-аналитиков и экспертов, работающих с данными, поскольку BI-системы предоставляют множество готовых функций в части построения отчетов и визуализации данных (знание SQL перестает быть необходимостью, без которой нельзя сделать выборку данных). Подобные решения уже предлагают как западные компании – Google, Amazon – так и российские – “Яндекс”, “Вконтакте”. Это делает эффективную работу с большими объемами информации доступной для большего числа бизнесов, помогает расти культуре работы с данными.
В России основная текущая ИТ-тенденция — импортозамещение․ Российские компании выпустили несколько качественных замен зарубежных продуктов, они успешно внедряются крупными и небольшими компаниями. Можно отметить систему Visiology, позиционирующую себя как замена Power BI для среднего и крупного бизнеса. Analytic Workspace позволяет подключать множество источников данных и предлагает различные инструменты для визуализации “из коробки”. В области process mining стоит упомянуть российские решения Proceset от Infomaximum и недавно открытый для широкого использования Sber Process Mining․ Эти системы уже могут похвастаться успешными внедрениями в крупных компаниях финансового, промышленного и ИТ-секторов.
Решения с открытым исходным кодом
Также становятся все более функциональными BI-решения с открытым кодом. Писать собственное решение с нуля дорого, такая разработка оправдана только в случае жестких требований по импортозамещению или внутренних регламентов ИБ. Opensource системы можно настроить и при необходимости доработать под бизнес-процессы конкретной компании.
Так, на одном из наших проектов было необходимо внедрить решение для построения аналитики большого корпоративного портала, отвечающей на вопросы: насколько эффективна система с точки зрения быстродействия и отказоустойчивости, как порталом пользуются сотрудники, как работают его сервисы. Для мониторинга быстродействия и эффективности мы применили решение Grafana: оно снимало с серверов данные и регистрировало действия в системе, чтобы отслеживать появление критичных событий. Для анализа пользовательских активностей выбрали систему Matomo: ее можно разместить на серверах заказчика в закрытом контуре, и с минимальными настройками начать фиксировать действия на фронтенде портала. Для анализа эффективности работы конкретных сервисов мы настроили передачу их данных в наше приложение, которое дообогащало ими результаты работы Motomo․
Далее данные собирались в одном месте, сопоставлялись друг с другом и использовались как датасеты для построения отчетов. Система позволяла видеть, как пользователи работают с отдельными сервисами, отслеживать наиболее нагруженные из них для дальнейшей оптимизации, строить тепловые карты.
Возможности применения ИИ
Наконец, в сфере управления данных мы наблюдаем активное внедрение технологий, связанных с искусственным интеллектом и машинным обучением. В первую очередь, стоит отметить управление метаданными и категоризацию информации. Это особенно актуально при работе с базами знаний, когда необходимо выстраивать связи между на первый взгляд случайными единицами информации. Раньше этой работой занимался выделенный специалист, сейчас же, особенно после появления GPT 4, такую рутинную работу можно переложить на ИИ: он заметно эффективнее выполнит первичную категоризацию, а уже после этого эксперт может подправить те связи, которые посчитает нужным в его контексте.
Достаточно давно системы ИИ используются в области безопасности хранилищ, их защиты от внешних атак. Ранее в случае, например, DDoS-атаки эффективным решением считалось отключение подсети IP-адресов, с которых она идет. Поскольку подобные атаки, как правило, велись с большого числа IP, отключались целые регионы; это блокировало и вредоносный, и легитимный клиентский трафик и нарушало работу бизнеса. ИИ же, анализируя поведенческие паттерны, может выявлять аномальные действия конкретных пользователей и отсекать опасный трафик более эффективно.
Искусственный интеллект начинает применяться в сфере управления жизненным циклом данных. Он может своевременно упаковывать неактуальную информацию в архивы, убирать ее из поиска, либо организовывать хранение таким образом, чтобы редко запрашиваемые данные лежали на недорогих медленных носителях.
Машинное обучение используется в экспертных системах для поддержки принятия решений. ИИ предсказывает наиболее вероятные варианты развития событий, собирает наиболее релевантную для конкретной ситуации информацию, что позволяет эксперту быстрее и точнее реагировать на возникающие проблемы.
Еще одна сфера применения ИИ – интеллектуальный (контекстный) поиск. Классический полнотекстовый поиск, способный найти не только точные попадания в заданную строку, но и близкие по смыслу значения, настраивается вручную с помощью словаря синонимов. Это тяжелая, рутинная и малоэффективная работа. ИИ может выдавать более качественные рекомендации, сопоставляя поисковую строку с тем, что на самом деле ищут другие пользователи, вводящие аналогичные слова.
Наконец, ИИ может использоваться в управлении качеством данных. Базы часто засоряются дублями, пропусками, неверными форматами значений, опечатками – если раньше для борьбы с такого рода браком придумывались специальные алгоритмы, которые могли найти далеко не все проблемы, то с помощью машинного обучения исправление подобных недочетов проводится значительно эффективнее.
Опубликовано 22.12.2023