Строим Фабрику данных
Данные нужно не просто собирать и хранить, но еще структурировать и анализировать, чтобы в дальнейшем использовать их для принятия решений по управлению бизнесом. Такие решения могут принимать не только акционеры и топ-менеджеры, но и руководители среднего звена, а также все сотрудники, которым это необходимо. Иными словами, данные и результаты их анализа на современном предприятии должны стать чем-то сродни услуги, сервису, о происхождении которого мы не задумываемся, а просто пользуемся, как интернет-соединением или водопроводом. Подобный сервис должен быть максимально гибким и масштабируемым, легко адаптирующимся под запросы и размеры организации. Эти серьезные и сложные задачи решают Фабрики данных (Data Fabric) — архитектурная концепция и набор подходов к работе с данными. Важно понимать, что это не «коробочное» решение, которое достаточно купить, установить, настроить интеграцию с существующими системами, а затем успешно эксплуатировать. Речь идет о методологиях, поэтому нужно понимать, как они работают, как их грамотно применять и т. д.
В одном из прошлых номеров мы попросили экспертов ИТ-индустрии поделиться мнением о том, что представляет собой Data Factory, какие задачи она помогает решить и чем может быть полезна современному предприятию. Сегодня мы хотели бы продолжить разговор, посвятив его практическим аспектам построению Фабрики данных.
Взгляд в будущее
С чего начать построение Фабрики данных на предприятии? Дмитрий Демидов, руководитель лаборатории компании «Норбит» по AI и Big Data рекомендует начать его с взгляда в будущее. «Фабрику данных нужно строить, исходя из того, в каком виде через несколько лет предприятие должно быть с точки зрения процессов в области данных. При этом нужно ориентироваться на то, как станут расти потребности в сохранении, обработке и доступах к данным, и обязательно нужно закладывать ресурсы на все процессы, связанные с обеспечением качества данных и масштабируемости инфраструктуры. Поэтому все больше специалистов смотрят на облачные технологии в этой области, так как они снимают ограничения классических корпоративных хранилищ данных», — говорит он.
«Все начинается с методологии, которая включает определение задач, стоящих перед предприятием в разрезе работы с данными, — уверен Роман Шемпель, эксперт по системам управления данными компании IBM в России. — Достаточно распространенная практика на предприятиях — организация офиса работы с данными (Data Office), где формируется процесс и политика взаимодействия с ними, чтобы понять, какие системы и для каких задач включать в работу Data Fabric. Это проактивный процесс: делается то, что представляется наиболее целесообразным и стратегически выверенным. Можно также применять и реактивный процесс — когда подход к построению Data Fabric строится не на базе стратегического видения работы с данными, а текущих или насущных задач, требующих скорейшего разрешения».
Data Fabric обеспечивает связанность уже имеющихся систем хранения, обработки и аналитики данных.
Евгений Балыкин, руководитель группы интеграционной разработки АО «Русатом Инфраструктурные решения» рекомендует придерживаться нескольких ключевых принципов. «Во-первых, следует использовать алгоритмы Machine Learning на каждом этапе работы с информацией, где оправдано их применение. Во-вторых, должна присутствовать сквозная интеграция всех источников и потребителей информации, в том числе файловых хранилищ, СУБД и озер данных (Data Lake), в единое информационное пространство с помощью API-интерфейсов. Важно не забывать про микросервисную архитектуру вместо монолитных продуктов. Следует помнить и о преобладании облачных решений в корпоративном ИТ-ландшафте, об оркестрации информационных потоков, виртуализации, унификации и повышении качества данных», — комментирует эксперт.
Цель современного предприятия не только собирать и хранить информацию, а извлекать из собранной информации «скрытые возможности» и знания, полезные для развития бизнеса предприятия, оптимизации процессов.
Никита Кардашин, руководитель практики комплексной цифровизации процессов компании Naumen, говорит о первостепенной важности технологий машинного обучения. По его словам, они могут и должны использоваться на всех этапах работы Фабрики — от анализа поступающих данных до оптимизации алгоритмов их обработки и хранения. Также, по мнению эксперта, целесообразно применение методологии DataOps, ориентированной на максимальную стандартизацию и автоматизацию процессов сбора, обучения, развертывания моделей и обработки результатов их работы по аналогии с автоматизированным управлением разработкой и доставкой ценности (DevOps).
Благодаря созданию унифицированных интерфейсов и тесной связки с аналитическими системами, данные становятся доступны «на кончиках пальцев», что позволяет значительно сократить путь от запроса на аналитику к ее получению.
«В основе проектирования Фабрики данных лежит понимание, какими данными располагает организации, как они интерпретируются, кому и для чего нужны и, как следствие, как должны храниться и обрабатываться, — объясняет Иван Попов, директор практики Applied Intelligence компании Accenture в России. — На практике это происходит так: берется определенная предметная область или направление, на ее основе готовится бизнес-глоссарий и согласовывается со всеми заинтересованными сторонами, назначаются владельцы данных. Формируется процесс управления качеством этих данных и требования к проверкам качества. Совокупность этих требований идет на проработку архитектору, который на базе этого глоссария предлагает концептуальную корпоративную модель данных, а также формирует концепцию ее дальнейшего расширения и развития. Далее прорабатывается концептуальная и технологическая архитектура решения, определяется инструментарий, с помощью которого будет реализована Фабрика. И происходит пилотное внедрение — на пилотной области данных реализуется прототип решения. По мере его готовности начинается планомерное развитие решения: в модель добавляются новые блоки данных — цикл процессов будет таким же. Так этап за этапом Фабрика разрастается, наполняется новыми данными до момента, пока все основные ключевые потребности заказчика не будут удовлетворены».
Современная Фабрика данных должна в обязательном порядке включать специализированные инструменты управления данными, систему мониторинга качества данных и многое другое.
Без ненужного «наследия»
Что касается стека технологий, которые должны быть внедрены до момента запуска Фабрики данных, то Александр Васильев, руководитель практики Microsoft Atos в России обращает наше внимание на то, что Фабрика данных по максимуму использует весь потенциал облачных технологий, виртуализируя все компоненты ИТ-инфраструктуры. В связи с этим компаниям следует прежде всего обеспечить бесперебойное и быстрое функционирование облаков.
«Фабрика данных, в принципе, не требует наличия каких-то технологий до момента ее внедрения в организации, единственным исключением является операционная инфраструктура — репозитории кода, CI/CD-инструменты и другие элементы автоматизации и упрощения работы из мира DevOps», — дополняет Кирилл Голожин, архитектор решений Cloudera.
Архитектура Фабрики данных изначально строится вокруг бизнес-сценариев по использованию данных и возможности быстрой реализации новых, по мере адаптации Фабрики в организации.
«Большие данные не статичны, они постоянно изменяются: возникают новые источники, какие-то данные быстро теряют актуальность и так далее. Поддерживать всю эту историю внутри единого корпоративного хранилища данных не представляется возможным. Поэтому Фабрика — это и корпоративные хранилища данных, и озера данных, и облака, и «Интернет вещей», и потоковые данные. Все вместе», — резюмирует Юлия Кудрявцева, директор по стратегическому развитию компании «Форсайт».
Нельзя сбрасывать со счетов вопросы защиты и безопасности данных, которые в наше время становятся все более актуальными.
«С точки зрения производителей систем хранения, при построении современных инструментов нужно использовать современную платформу. В первую очередь — это инструменты для взаимодействия API, чтобы с ними можно было работать через ПО, а не ручными инструментами. Современные платформы, предназначенные для фабрик данных должны поддерживать автоматизацию и уметь работать с помощью этих инструментов, — отмечает Алексей Аверин, руководитель технической команды финансового сектора, Pure Storage в России/СНГ и странах Балтии. — Второе — уровень хранения должен быть построен по принципу «без исторического наследия». Флэш-память обеспечивает быстрые вычисления, которые могут масштабироваться. Современные платформы фактически делают доступными большие объемы данных по одному API-адресу. При этом обеспечивается высокая скорость ввода/вывода, а платформа построена на принципиально новых операционных системах. Объем неструктурированных данных и количество типов файлов растет, и организациям необходимо иметь возможность обрабатывать их очень быстро. Моя любимая аналогия здесь — это овощи для винегрета. Там есть все, что угодно: картошка, морковка и т. д. С точки зрения данных — это также разные типы файлов и объектов, а нам нужна аналитика по всем». По мнению Дмитрия Демидова («Норбит»), потребность в Фабрике данных обычно не возникает спонтанно, а представляет собой эволюционный этап, новый уровень запросов со стороны бизнеса. «Как правило, у компании уже в каком-то виде должно быть корпоративное хранилище данных и какие-то компоненты фабрики данных в виде сервисов, обеспечивающих ETL, качество данных, каталоги данных, подсистемы безопасности», — отмечает эксперт.
«Неправильно спроектированная инфраструктура может остановить бизнес-процесс из-за невозможности дальнейшего масштабирования. Правильные методы проектирования Data Fabric позволят избежать многих ошибок. После построения модели необходимо внедрить ее в текущие процессы, техническую инфраструктуру компании, — предупреждает Роман Ройфман, технический директор NetApp в России и СНГ. — В России это актуально для ИТ-сектора, кроме того, тренд пришел в ретейл и промышленность. Так, по оценкам аналитиков, к 2025 году 10% предприятий, которые внедрят передовые методы проектирования, получат больше прибыли, чем конкуренты, а этого трудно достичь без правильного подхода к проектированию аналитических слоев данных».
Для построения Фабрики данных ИТ-отделу нужны корпоративные инвестиции в инструменты и навыки в области ИТ-инфраструктуры, управления данными, сетевых технологий и безопасности
Не выбрасываем деньги на ветер
Фабрика данных — серьезный проект, в который должны быть вовлечены не только ИТ-специалисты, но и бизнес, причем как топ-менеджмент, так и все заинтересованные сотрудники. «На практике мы видели, сколько появляется команд DevOps за последние несколько лет. Почему это происходит? Компания хочет выпускать продукты на рынок быстро. Это невозможно, если внутри компании нет взаимодействия и согласованности между разными отделами. Над проектом должно работать предприятие целиком, а не отдельные ИТ-специалисты. Каждый на своем уровне должен понимать роль, которую он играет в процессе построения Фабрики и озер данных», — говорит Алексей Аверин (Pure Storage).
Если раньше набор инструментов для работы с данными был существенно ограничен, а производительность не всегда отвечала требованиям, то сейчас все четко понимают, как и когда данные должны быть использованы в бизнесе, поэтому на первый план выходит автоматизация и расширенные возможности по интеграции с уровнем систем хранения.
По мнению Ивана Попова (Accenture), в первую очередь нужны специалисты двух профилей: дата-аналитики, реализующие задачи функционального и технического дизайна дата-решений, и дата-инженеры, которые разрабатывают интеграции данных. «Необходимы опыт и компетенции в классических СУБД, традиционных ETL-инструментах, а также опыт разработки на Java (со спецификой под Hadoop) и Python. Также очень востребованы хорошие архитекторы, знакомые с современными технологиями, особенно cloud-based. Хороший архитектор при проектировании может правильным образом сфокусировать работу команд на проработке определенных архитектурных компонентов решения. В процесс обязательно должны быть вовлечены и конечные бизнес-заказчики, особенно на этапах сбора требований и приемки решения. Ни в коем случае внедрение Фабрики не должно превращаться в сугубо ИТ-проект без участия конечного потребителя информации — это деньги, выброшенные на ветер», — комментирует он.
«С точки зрения технической экспертизы для реализации проекта по построению корпоративной фабрики данных потребуются инженеры данных. Они отвечают за сбор, перемещение, хранение и подготовку данных. Эти специалисты хорошо владеют инструментами ETL, а также принципами моделирования и хранения данных в SQL/NoSQL. Помимо этого, на этапе реализации необходим системный архитектор, ответственный за архитектуру платформы и интеграцию с зависимыми системами. Следует также привлечь специалистов по анализу данных, которые могут сформировать дополнительные требования к построению будущей системы. Нужно не забывать, что кроме специалистов по данным, понадобятся эксперты по инфраструктурной части. В случае применения облачных сервисов эти функции может совмещать инженер по данным, а если у компании локальное размещение в собственном ЦОД, то, скорее всего, специалистам по администрированию и сетям уже не обойтись без эксперта по системам хранения данных. Если говорить о вовлеченности подразделений компании в проект, сейчас наблюдается интересный тренд — все больше представителей бизнеса (даже не из сегмента ИТ) проявляют интерес к анализу данных», — утверждает Александр Васильев (Atos).
Фабрика данных имеет большое значение для функционирования BI-систем. BI-специалисты получают такие преимущества, как видимость всех данных, возможности быстрого анализа, удобный доступ к информации и контроль за ней, а также безопасность данных.
Как подчеркивает Дмитрий Демидов («Норбит»), главными исполнителями проекта по созданию Фабрики данных должны стать директор по цифровизации (CDO) и его команда. «В зависимости от структуры предприятия это могут быть и специалисты, отвечающие за данные внутри направлений бизнеса. Синхронизация их действий и планов является ключевой задачей для построения Фабрики данных. С точки зрения содержательной работы при построении фабрики потребность в специалистах практически такая же, как и при внедрении других проектов в области больших данных, то есть нужны архитекторы нескольких видов, девопсы, ETL-аналитики и разработчики, разработчики для фронт- и бэкэнда», — заключает он.
В свою очередь, Александр Тарасов, управляющий партнер компании DIS Group, напоминает о том, что для построения Фабрики данных необходимы технологии управления качеством данных, решения, позволяющие построить карту трансформации данных и каталогизировать их, а также уже упомянутый бизнес-глоссарий.
Фабрики данных содержат персональную информацию и другие чувствительные данные. Необходимы решения по их защите: технологии создания тестовых копий и тестовых сред, маскирования данных, управления доступом к этим данным и т. д.
Как отмечает Виталий Тукмаков, ведущий консультант HPE Pointnext, Hewlett Packard Enterprise в России, с развитием современных технологий фокус специалистов смещается с технологического на функциональный и прикладной. «Это не означает, что нужно совсем забыть про инфраструктуру и технологии, это означает, что любой проект по аналитике больших данных, ML и ИИ — это в первую очередь прикладной проект. Основную роль в нем играют технологи, аналитики, предметные специалисты в своей прикладной области», — говорит он.
Некоторые заказчики исторически накопили и используют технологии хранения и аналитики больших данных, в частности Hadoop, NoSQL, Spark, Kafka. Такие технологии внедрялись изолированно и, вполне вероятно, привели к возникновению технологических островов. В этом смысле реализация Фабрики данных в первую очередь будет связана с преодолением технологических барьеров, разделяющих данные, и предоставление широкого набора инструментов для их обработки. Другие заказчики могут начать с чистого листа, с реализации единой платформы управления и обработки данных и в дальнейшем наращивать свои функциональные и технологические возможности, развитием вычислительной платформы и единых сред разработки.
О необходимости организационных изменений напоминает Михаил Шпак, руководитель отдела технологического консалтинга Huawei Enterprise в России. Перед построением Фабрики нужно сломать «силосные башни» классических подразделений и выстроить новую внутреннюю структуру для выполнения этой задачи. Попытки построения вертикали под CDO/CDTO иногда приводят к острой конкуренции с классическими CTO/CIO предприятия», — предупреждает эксперт.
Архитектурные принципы построения фабрик данных широко известны по лучшим практикам гиперскейлеров и провайдеров инфраструктуры больших данных. Однако классические принципы — эластичности, надежности и предсказуемой производительности зачастую многие производители обеспечивают спустя рукава.
Опубликовано 03.02.2022
Главное преимущество Фабрики данных — ее доступность для сотрудников компании, то есть такое состояние КХД, которым можно взять и быстро начать пользоваться, не погружаясь долгие месяцы в тонкости доступов и настройку инструментов.