Как обеспечить катастрофоустойчивость ИТ-инфраструктуры в непредсказуемом мире
В мире информационных технологий управление инцидентами и готовность к катастрофам играют ключевую роль в обеспечении стабильности и безопасности бизнеса. Управление инцидентами направлено на то, чтобы предвидеть и предотвращать возможные сбои в работе систем. Это включает в себя регулярный мониторинг, анализ рисков, обновление программного обеспечения и другие превентивные меры.
Однако существуют и угрозы, которые невозможно предугадать или предотвратить, такие как природные катастрофы, масштабные кибератаки, внезапные отключения электроснабжения или последствия вооруженных конфликтов. В таких случаях минимизировать ущерб и быстро восстановить работу систем поможет готовность к катастрофам. Она предполагает разработку планов действий в чрезвычайных ситуациях, резервное копирование данных, использование облачных технологий и распределенных систем, другими словами — катастрофоустойчивую ИТ-инфраструктуру. В этой статье мы рассмотрим ключевые стратегии и подходы к ее построению.
Анализ рисков и оценка угроз
Пользователи ИТ-систем делятся на две категории: тех, кто делает резервные копии данных, и тех, кто их пока не делает. Вторые работают в рамках определенных регламентов, где написан порядок действий в случае аппаратного или программного сбоя. После того как произошел инцидент, выходящий за рамки регламентных процедур, даже самые беспечные задумываются о стратегии защиты. В случае возникновения чрезвычайных ситуаций руководству компании необходимо взять на себя распределение зон ответственности сотрудников. Что касается самих ИТ-специалистов, то для них первым шагом должны стать анализ рисков и оценка угроз. Следует составить список возможных типов катастроф, которые могут повлиять на систему. Это могут быть природные катастрофы, такие как землетрясения, наводнения, ураганы, а также техногенные аварии, например сбои в энергоснабжении, кибератаки и т. д. Иными словами, неважно, от какой катастрофы мы защищаемся. ИТ-специалисты должны быть готовы к любому форс-мажору.
Как определить критические компоненты ИТ-инфраструктуры, которые необходимо защитить в первую очередь? Как правильно расставить приоритеты? Чтобы решить эти вопросы, бизнес должен определить для себя критически важные функции, при отключении которых он просто не может продолжать свою основную деятельность, теряет деньги, доверие клиентов и репутацию на рынке. К примеру, для банка это может быть проведение транзакций, а составление бухгалтерской отчетности, аналитика и прогнозирование стоят уже на втором месте. Перечень критически важных функций бизнес передает ИТ-специалистам. Они в свою очередь фокусируются на тех компонентах инфраструктуры, которые обеспечивают работоспособность и безопасность критически значимых бизнес-процессов.
Профессиональный подход по обеспечению катастрофоустойчивости подразумевает применение методологии. В ней ранжируются бизнес-задачи и определяется их критичность. По каждой задаче должна быть приведена информация о том, какие последствия повлечет ее недоступность в течение того или иного временного промежутка. Ответы на эти вопросы должен дать бизнес, поскольку они лежат за пределами компетенций ИТ. Например, утрата функции A повлечет за собой потерю 100 тыс. рублей в день, утрата функции B — 1 млн рублей в день, а утрата функции С — полное прекращение бизнеса без возможности восстановления. Затраты на обеспечение катастрофоустойчивости нужно обосновывать, опираясь на результаты ранжирования. Например, так: «Мы можем потратить миллион рублей, чтобы защитить систему, потеря которой обойдется бизнесу в 10 миллионов». Если же потеря составит 100 тыс. рублей, то, соответственно, понадобится меньший бюджет на обеспечение катастрофоустойчивости.
Разработка стратегии резервного копирования и восстановления: стандартизация и автоматизация
Итак, защититься от чрезвычайных ситуаций невозможно. Но можно минимизировать последствия, например благодаря резервному копированию. Краеугольным камнем грамотной и ориентированной на катастрофоустойчивость стратегии резервного копирования должна стать стандартизация. В компании могут функционировать десятки различных ИС и БД, файловых структур и платформ. Но это крайне затруднит процесс восстановления. Критически важные для бизнеса системы, а также сами данные должны быть стандартизированы в первую очередь. Это позволит восстановить их в кратчайшие сроки с минимальными усилиями и ресурсами. Чем более стандартизированными будут данные и технологии, тем устойчивее будет схема восстановления. Всё это касается и парольной политики. Пароли должны находиться не в голове у определенных сотрудников, а в надежном защищенном хранилище, к которому можно получить доступ из резервного центра. Это может быть, например, особый раздел на сервере резервного копирования.
Что касается восстановления данных, здесь также важна стандартизация, поскольку речь идет о критически важных системах, которые должны уложиться в заданное бизнесом окно восстановления. Если используемая технология не позволяет извлечь данные в указанный период, можно порекомендовать делать бэкапы и восстановление в ежедневном режиме. В таком случае у нас под рукой будет как минимум вчерашняя резервная копия. Разумеется, эти технологии должны быть надежными, проверенными, и желательно, чтобы они имели импортонезависимый статус.
Сам процесс восстановления данных должен быть максимально автоматизирован, поскольку нужно учесть стрессовую ситуацию, в которой могут находиться ИТ-специалисты, выполняющие эту операцию. Конечно, крупный бизнес может позволить себе содержать резервный ЦОД только на случай ЧС. Сотрудники этого ЦОДа обладают натренированными до автоматизма навыками восстановления систем, однако и в этом случае важно как можно меньше задач возложить на людей, поскольку в нужный момент ключевых специалистов может просто не оказаться в нужном месте. Наконец, важно протоколировать действия по восстановлению для последующего анализа и, если необходимо, расследования и разбора полетов. Этот процесс тоже требует автоматизации.
Пути развития технологий катастрофоустойчивости
Еще 10—20 лет назад крупные организации предпочитали строить собственные резервные центры. Сегодня благодаря развитой системе глобальных коммуникаций в этом больше нет необходимости. Можно арендовать ЦОД в соседнем городе или регионе и использовать его в качестве резервного. Однако здесь кроется серьезная проблема, которая заставляет большие организации рассчитывать на свои силы, невзирая на затраты. Крупный провайдер может предоставить резервную площадку для нескольких десятков клиентов. Если возникла чрезвычайная ситуация, он должен предоставить резервные мощности для этих нескольких десятков одновременно. Но у него может не хватить мощностей сразу на всех. Таким образом, качество резервной системы на базе стороннего провайдера может пострадать из-за того, что всем потребовалось восстановление. Поэтому если бизнес настолько критичен и на такие риски идти неприемлемо, то лучше построить собственную резервную площадку с хранилищем дизельного топлива и автономным резервным электропитанием.
Исторически катастрофоустойчивость обеспечивалась следующим образом. Сначала речь шла просто о статичной резервной копии, размещенной удаленно. Затем популярность набрал режим Active-Cold Standby, когда резервная система поднималась и включалась в работу в случае падения основной. Следующим шагом в развитии стали системы Active-Hot Standby, которые не требуют времени на запуск, достаточно просто поменять IP-адресацию на уровне DNS. Но чтобы эта модель работала, необходима постоянная репликация данных между двумя площадками. Сегодня самым передовым подходом является мультисайтовая модель active-active. Это две (и более) площадки, одновременно способные предоставлять сервис, а данные синхронно реплицируются между ними. В дальнейшем развитие резервного копирования будет происходить в области архитектуры приложений и поддержки распределенных технологий. Этому будет способствовать развитие глобальных каналов связи.
Заключение
Построение катастрофоустойчивой ИТ-инфраструктуры требует комплексного подхода, включающего анализ рисков, разработку стратегий резервного копирования, разработку плана аварийного восстановления, обучение персонала, и самое главное — ответственного отношения со стороны как руководства, так и рядовых специалистов. Важно помнить, что катастрофы могут произойти в любой момент, и подготовка к ним является залогом стабильности и непрерывности бизнеса.
Опубликовано 23.07.2024