Данные: ДНК и «новая нефть» бизнеса
Данные часто называют «нефтью XXI века». Так же как нефть была самым ценным ресурсом XX века, данные становятся важнейшим активом сегодня. Компании, умеющие собирать, анализировать и монетизировать данные, получают огромные конкурентные преимущества. Работа с данными позволяет создавать новые продукты, услуги, бизнес-модели. Анализ больших объемов информации открывает возможности, которых раньше не было — как переработка нефти когда-то позволила создать множество новых материалов и продуктов. Данные, как и нефть, нуждаются в обработке. Сырые данные, как и сырая нефть, мало чего стоят сами по себе. Чтобы извлечь из них ценность, данные нужно «очистить», структурировать, проанализировать и превратить в полезную информацию, инсайты и решения. Ценные, качественные, полные данные — ограниченный ресурс, как и нефтяные месторождения. Доступ к данным и возможности по их сбору распределены неравномерно, что создает «богатых» и «бедных» в новой data-driven-экономике.
Для современного бизнеса критически важно научиться грамотно управлять данными, ведь они помогают лучше понимать клиентов, их потребности и поведение. Это позволяет создавать более персонализированные продукты и услуги, повышать лояльность и прибыль. Анализ данных улучшает принятие решений, помогает оптимизировать бизнес-процессы, снижать издержки, находить новые возможности для роста. Данные — источник конкурентного преимущества. Компании, которые могут извлекать ценные инсайты из данных, опережают конкурентов, не обладающих такими возможностями. Некачественные данные приводят к ошибочным решениям и потерям. Бизнес должен обеспечивать сбор данных высокого качества и поддерживать их актуальность.
Большие данные — серьезные вызовы
С особой ответственностью к работе с данными должны подходить те компании, оперирующие большими объемами информации, получаемой из множества источников, в числе которых «умные» датчики и устройства IoT. После ухода из России зарубежных ИТ-вендоров задачи по работе с данными легли на плечи российских ИТ-компаний и самих заказчиков. Какие вызовы стоят сегодня перед ними? «После ухода мировых вендоров российские компании столкнулись с нехваткой платформ по работе с данными. Когда мы начинали создание собственной DataOps Platform, на рынке не было ни единого продукта, отвечающего нашим требованиям к платформе для работы с большими объемами данных. Скажем, у кого-то есть хранилище, но нет визуализации BI. У кого-то — есть визуализация, но доступна она только в облаке и так далее», — комментирует Наджим Мохаммад, руководитель направления платформ данных компании МТС Digital.
«Новый подход и фактически новая философия и основной вызов — эти новые технологий пока недешевы, — говорит Наталья Данковцева, технический директор компании «Русатом Инфраструктурные решения» (ГК «Росатом»). — Внедрение такого подхода конкурирует с возможностью продолжать использование информационных систем в текущей редакции, в которые уже были инвестированы деньги, и просто подождать. Поэтому основной вызов — это по большому счету услышать, что существует столь непростой, пока инновационный и довольно экспертоемкий путь. И да, он означает, что текущие системы будут подлежать модернизации и потребуют инвестиций. Второй серьезный вызов — смена парадгмы с автоматизации текущих процессов на качественно новые принципы управления на основе данных у представителей региональных органов Минцифры, привычные реляционные подходы должны претерпеть изменения».
Сергей Карпович, заместитель руководителя направления «Т1 Искусственный Интеллект» ГК T1, считает, что в эпоху цифровизации важно не просто уметь собирать данные, но и правильно применять их для повышения эффективности процессов и качества предоставляемых сервисов. «В связи с этим перед компаниями стоят задачи по автоматизации и роботизации за счет технологий искусственного интеллекта. Но создать технологии ИИ невозможно без правильной организации данных внутри компании или экосистемы. А потому еще одним из важных вызовов является задача по предотвращению ситуации, когда озеро данных (Data Lake) превращается в болото данных (Data Swamp). Появлению «болота» способствует решение «хранить всё», при этом отсутствуют необходимые организационные и технические процедуры по созданию системы управления данными: регламенты, методики, инструменты ведения бизнес-глоссария с его привязкой к источникам данных и формирование ответственного подразделения. Третьим вызовом можно назвать задачу по обеспечению безопасности данных. И если в части обеспечения хранения данных многие вопросы уже давно решены, то вопросы доступа и защиты по-прежнему остаются слабым местом, так как должны быть тесно интегрированы в единую систему управления данными», — поясняет эксперт.
Современные технологии управления данными
Задача по управлению данными становится все более сложной и ответственной. Объем информации, а также требования к качеству, доступности и безопасности данных постоянно растут. В связи с этим организации активно ищут новые подходы и технологии, которые помогут им эффективно управлять своими данными. Какие современные подходы и технологии могут повысить эффективность управления данными? Владимир Афанасьев, директор компании ICE Partners, обозначает три технологических направления, которые помогут в этом. «Во-первых, однозначно облачные ресурсы. Это и сокращение нагрузки на внутренние ресурсы, и гибкость с масштабируемостью. Во-вторых, ИИ и машинное обучение. Их можно эффективно использовать вместе с RPA-системами. Ну и третье — блокчейн, правда он больше про безопасность, но куда ж мы без нее», — говорит он.
Антон Балагаев, директор по консалтингу компании Arenadata, полагает, что производительные и гибкие современные СУБД являются одним из важнейших инструментов, позволяющих повысить эффективность обработки данных. «Современное управление данными интегрирует ряд технологических решений для обеспечения гибкости, скорости и масштабируемости. В частности, СУБД для обработки больших данных помогают эффективно справляться с объемами информации, предоставляя возможности для распределенной обработки и хранения. СУБД и сервисы реального времени для обработки потоков данных позволяют организациям оперативно реагировать на изменения, анализируя данные по мере их поступления и позволяя автоматизировать принятие решений. Инструменты контроля качества данных и их унификации все еще важны и гарантированно приносят ценность, экономя время и страхуя от неправильных решений. Ключевое значение в последние годы приобрели также системы управления данными и каталоги данных, которые поддерживают единый подход к хранению, доступу и анализу информации, упрощая интеграцию и обеспечивая качество. Тренд последних шести месяцев — использование больших языковых моделей искусственного интеллекта как для управления данными через облегчение поиска по метаданным за счет понимания их схожести по смыслу, а не по точному названию, так и для непосредственного анализа данных, чтобы на его основе формировать разные представления одних и тех же данных для разных потребителей, проводить интеллектуальную каталогизацию, помогать в дедупликации и очистке. В то же время стоит оговориться, что за счет лавинообразного развития этих инструментов и появления множества их вариаций они могут вызывать опаску у крупных компаний, привыкших к таким обязательным атрибутам технологических решений, как поддерживаемость, детерминированность, интерпретируемость и наличие документации», — утверждает он.
По мнению Юрия Макаренко, руководителя экспертного отдела компании Umbrella IT, в ситуации, когда данные хранятся разрозненно, процесс анализа и получения ценных инсайтов может быть затруднен. «Озера данных (Data Lakes) помогают собрать данные в цельную картину. Data Lake позволяет создавать модели машинного обучения и «витрины» данных без дополнительных затрат на преобразование информации. Постепенное расширение корпоративного озера данных новыми источниками и инструментами превращает его в полноценную платформу управления данными, которая повышает эффективность их хранения, обработки и использования для принятия бизнес-решений», — рассказывает эксперт.
Борьба за качество данных
Качество данных играет критическую роль в процессе принятия управленческих решений в компании. Высококачественные данные позволяют руководству лучше понимать рыночные тенденции, предпочтения потребителей и конкурентную среду. Это обеспечивает более обоснованное стратегическое планирование и целеполагание. Они также способствуют операционной эффективности и повышению конкурентоспособности бизнеса. «Никто не будет доверять аналитике, построенной на недостоверных данных. Поэтому при внедрении BI over BigData одновременно запускаются проекты очищения и повышения качества данных», — напоминает Алексей Никитин, генеральный директор компании Visiology.
«При использовании некачественных данных бизнес рискует допустить дорогостоящие ошибки. Существует статистика — стоимость каждой ошибки из-за некачественных данных в десять раз больше стоимости всей системы управления качественными данными, — отмечает Наджим Мохаммад (МТС). — Высококачественные данные значительно улучшают бизнес-процессы: информации, полученной на их основе, можно доверять, что приводит к принятию более точных стратегических решений».
«Качество данных, впрочем, как и целостность и наличие большой выборки данных, напрямую влияет на все дальнейшие процессы. К сожалению, такова одна из проблематик, которая сейчас стоит перед всеми, кто собирается двинуться в этом направлении. Старые информационные системы, по сути, не позволяют предложить качественные, нормированные, хорошие данные. Сам data-driven-подход позволяет собрать эти данные из разных источников с учетом версионности, необходимости очистки, обогащения. То есть в целом массив данных уже можно составить за счет современных технологий. Однако основная проблема, с которой мы сталкиваемся, очень проста — текущие системы имеют слишком ограниченные, не консистентные данные. Например, какие-то транзакционные данные «терялись», чтобы системы выдержали объем хранения. Вторая проблематика — это непосредственно недостаточность, какие-то поля есть, каких-то нужных полей нет. Есть проблема неправильной организации данных, противоречий — система одного владельца может противоречить данным из системы другого владельца. Соответственно, сейчас самая сложная задача — собрать единый нормированный набор данных из всех противоречивых источников. Добиться хорошего, полезного набора данных непросто, потому что исходные системы редко качественные. Но это лишь вопрос времени. Как только образуются новые технологии, которые правильно собирают данные, начнет увеличиваться их объем, полнота, широта. И соответственно, данные станут более чистыми», — комментирует Наталья Данковцева («РИР»).
«На принятие решений негативно влияют ошибки, допущенные при вводе данных, а также неверно выстроенная архитектура систем, в результате чего меняется восприятие происходящих процессов. Тот же эффект, если данные недостоверны, не проверены и недостаточны», - отмечает Юрий Антропов, владелец портфеля продуктов «Центры мониторинга» компании Quillis, - «Приведу простой пример. Есть система для создания электронного образовательного контента и есть единый регламент, который предписывает, как правильно создавать электронные материалы. Но авторов настолько много, что регламент знает далеко не каждый. При создании контента необходимо заполнять атрибуты, позволяющие коротко понять, что за материал и для кого он предназначен. В процессе заполнения этих атрибутов начинаются массовые ошибки, кто-то случайно заполнил не то, кто-то специально внес «опгнагот», чтобы не тратить на это время. Владельцы ресурса решают создать еще материалы, например, в преддверии ЕГЭ, и им нужно выбрать темы, по которым меньше всего создано контента, чтобы увеличить количество использований информации по этой теме в два раз. Делают аналитику, выявляют темы, заказывают контент. Было 10 материалов, создали еще 10, чтобы увеличить использование в два раза, но прирост оказался 20%. Стали выяснять, оказалось, что по данной теме не 10, а 50 материалов и что дефицита в контенте тут не было. В итоге деньги потрачены, но экономический эффект не такой, как ожидался».
Грамотно спроектировано — легко масштабировано
Архитектура данных оказывает значительное влияние на гибкость и масштабируемость бизнес-процессов в компании. Грамотно спроектированная архитектура позволяет организациям легко адаптироваться к изменениям на рынке, расширяться, внедрять новые технологии и обслуживать растущие потребности клиентов. «Архитектура данных — это в первую очередь правильная их организация, которая позволяет обеспечить скорость и удобство получения данных. Можно сказать, что прямого влияния на гибкость и масштабируемость бизнес-процессов нет, но есть влияние на качество и эффективность этих процессов, а значит, и эффективность бизнеса компании. Также следует отметить, что архитектура данных позволяет обеспечить скорость и удобство их получения, что соответственно влияет на скорость принятия решений. При этом окончательное решение всегда остается за людьми. Если мы мгновенно получим отчет о том, что наши бизнес-процессы неэффективны, а процесс их изменения утонет в бюрократической процедуре организационных изменений, то данные не спасут. Чтобы быть data-driven company, мало анализировать данные, надо еще быть готовым быстро меняться», — комментирует Сергей Карпович (T1).
Как замечает Антон Балагаев (Arenadata), хорошо спланированная архитектура данных позволяет легко масштабировать операции и адаптироваться к изменениям рынка, обеспечивая при этом устойчивость и производительность систем. «Это может включать интеграцию новых источников данных без значительных изменений в системе, что сокращает затраты и упрощает управление. Важно, однако, отметить, что в качестве альтернативы централизованным и единообразным архитектурам в последние годы очень крупные компании также применяют Data Mesh, этот подход подразумевает децентрализованное управление данными, где каждый бизнес-юнит функционирует как центр компетенции по своим данным, что улучшает масштабируемость и способность быстро адаптироваться к изменениям в требованиях к данным. В то же время мы ожидаем в скором времени обратный шаг крупнейших корпораций от децентрализации к централизации за счет возможностей по радикальному уменьшению сложности ландшафтов данных посредством использования искусственного интеллекта», — говорит он.
Юрий Макаренко (Umbrella IT) приводит пример, когда внедрение NoSQL баз данных может способствовать улучшению горизонтальной масштабируемости системы, что позволит более эффективно обрабатывать большие объемы данных и поддерживать распределенные системы. В то же время использование гибридной модели данных, объединяющей как реляционные, так и NoSQL базы данных, позволяет, по мнению эксперта, эффективно управлять разнообразными типами данных и требованиями, обеспечивая высокую гибкость и адаптивность бизнес-процессов.
«Казалось бы – где данные, архитектура, а где процессы. Но не всё так просто», - полагает Павел Кравчук, технический директор дивизиона компании Notamedia Integrator, - «Для любого процесса необходимо собрать данные. Процессы могут меняться – и изменения эти порой огромные. Элементарно, процесс найма сотрудников в компании из 5 человек меняется на 100% когда команда вырастет до 300 человек. Чем удачнее спроектирована архитектура – тем проще получить доступ к определенному типу данных, дешевле создать какое-то представление, срез данных и использовать это в новом процессе».
Защита самого ценного
Как и любой бизнес-актив, данные необходимо защищать от несанкционированного доступа, от дискредитации и других угроз.
«При обеспечении защиты данных от несанкционированного доступа, в первую очередь, нужно минимизировать набор обрабатываемой информации и круг лиц, допущенных к обработке. Если особо чувствительную информацию будет обрабатывать узкий круг лиц, то это не только снизит вероятность несанкционированного доступа, но и поможет сэкономить на системе защиты», — утверждает Алена Игнатьева, руководитель направления консалтинга и аудита информационной безопасности компании Step Logic (ГК «НКК»). К основным мерам защиты от несанкционированного доступа, по мнению Алены, наряду с общепринятыми мерами физической защиты и контроля подключаемого к сети оборудования, относятся хэширование, маскирование и шифрование данных везде, где не требуется хранение и обработка в неизменном виде; защита сетевого периметра; аутентификация и авторизация не только обычных, но и привилегированных пользователей. «После внедрения указанных мер есть смысл в выстраивании дополнительных уровней защиты, таких как инвентаризация хранимых данных; контроль действий привилегированных пользователей с помощью PAM-решений; контроль на уровне обращений к базам данных с применением решений класса DAM; контроль обмена с сетью Интернет, использование почты, отчуждаемых носителей информации и портов ввода/вывода, печати (с этой задачей справятся DLP-системы и решения для сканирования Wi-Fi сетей); контроль данных на мобильных устройствах с помощью MDM-систем. Кроме этого, мы рекомендуем обеспечить гарантированное и своевременное уничтожение информации, обработка которой уже не требуется, для этого можно воспользоваться различными шредерами, импульсными уничтожителями, прокалывателями и т. п. Еще одна необходимая мера, о которой часто забывают, — скрытое маркирование конфиденциальных документов. Она не предотвратит НСД, но поможет выявить, кто из допущенных лиц «слил» документ, например, путем фотографирования экрана», — рекомендует эксперт.
«Визуализация данных (а точнее информации, получаемой на их основе) определяется задачей — бизнес-потребностью. У каждой функциональной области есть устоявшиеся логики представления информации, максимально понятные и правильно трактуемые специалистами в этих бизнес-областях», — говорит Артем Гришковский, заместитель генерального директора по стратегическому развитию компании Tops BI (ГК «НКК»).
Михаил Шляпников, руководитель департамента информационной безопасности компании «РИТ Сервис» называет два подхода к защите данных от несанкционированного доступа. Первый заключается в ограничении доступа к данным лиц, не имеющих на то права. Ограничение может быть сетевым (применение межсетевых экранов), путем шифрование передаваемых данных или физическое. Второй подход состоит в развитии встроенного иммунитета систем и ПО к кибератакам. «Если с первым все достаточно понятно, технологии отработаны и успешно применяются, то с иммунитетом к кибератакам сложнее. Здесь нужно думать о стеке технологий, способах авторизации и аутентификации, связях модулей ПО. Бизнес требует высокой скорости разработки. Никому не объяснишь, что приложение делалось два года, зато оно очень хорошее. Оно просто никому уже не нужно. Одна из методологий, которая приходит на помощь, — DevSecOps (Development Security Operations). Она направлена на интеграцию мер безопасности в процесс разработки программного обеспечения с целью минимизации рисков и повышения общей безопасности продукта. DevSecOps акцентирует внимание на автоматизации процессов безопасности, включая сканирование кода на наличие уязвимостей, мониторинг безопасности в реальном времени и внедрение механизмов защиты на всех этапах жизненного цикла разработки.
Один из инструментов технологии — продукты класса Application Inspector, которые используют комбинацию статического (SAST), динамического (DAST) и интерактивного (IAST) анализа безопасности кода. Они мониторят изменения в мастер-ветке разработки и при очередном коммите самостоятельно анализируют код. Если находится уязвимость, то отчет направляется разработчику для исправления. Таким образом ошибка не «закапывается» под слоями нового функционала. После релиза продукта ранние ошибки исправлять затратнее.
Простая и при этом очень действенная технология — двухфакторная аутентификация. Ее иногда путают с двухэтапной, что тоже эффективно для безопасности. К примеру, я знаю логин, пароль и имею телефон для SMC второго фактора (пример Госуслуги). Я что-то знаю и еще что-то знаю для второго этапа (Telegram). В более продвинутых и критичных системах факторы поменяны местами. Если у вас имеется много последовательных записей, задача в целостности данных (чтобы не подменили информацию в записи или не вставили между ними дополнительную запись), то вам нужна блокчейн-технология. Все записи в блокчейне представлены в виде блоков, которые связаны между собой. Каждый новый блок содержит данные о предыдущем (хэш-сумму), создавая таким образом цепочку.
Самым уязвимым элементом автоматизированной системы является человек. Крайне сложно остановить сотрудника, желающего навредить себе. Повышение осведомленности и обучения еще один важный элемент защиты данных. Информирование о киберугрозах, методах социальной инженерии и важности соблюдения правил безопасности приносит свои плоды, и это дешевле навороченных средств защиты (одно другого не отменяет). Для поддержки в тонусе работников достаточно раз в год проводить обучение, раз в два месяца рассылать памятки и на постоянной основе проводить фишинговые учения (персонализированная рассылка раз в неделю)», — заключает эксперт.
В целом, эффективное управление данными и их защита являются критически важными факторами для обеспечения долгосрочного успеха бизнеса в условиях цифровизации. Компании продолжают искать новые подходы и технологии для повышения эффективности процессов управления данными, что позволяет им сохранять конкурентное преимущество, обеспечивать непрерывность бизнеса и поддерживать доверие клиентов.
Опубликовано 02.05.2024