Простейший способ восстановить ИТ-инфраструктуру — подготовиться к аварии заранее. Но даже если непоправимое уже произошло, вернуть ее работоспособность можно.
Восстановление ИТ-инфраструктуры — это возвращение функциональности ее ИТ-сервисов после сбоя или аварии. Это важные мероприятия, которые помогают компании избежать или минимизировать финансовые издержки и сохранить позиции на рынке.
Значение отказоустойчивости
Отказоустойчивая ИТ-инфраструктура — один из важнейших приоритетов современной компании. ИТ-инфраструктура обеспечивает непрерывность бизнес-процессов и определяет конкурентоспособность бизнеса. Под отказоустойчивостью понимают такое состояние информационных систем, при котором локальный сбой (например, отказ сервера или потеря данных) не приводит к падению или остановке всей системы.
Когда требуется восстановление IT-инфраструктуры
Отказ аппаратных ресурсов
Из строя может выйти главный сервер, хранилище, коммутационная сеть, рабочие станции или терминалы в офисе, система контроля доступа, АТС. Это происходит из-за сбоев в работе оборудования, перебоев с электропитанием, недостатком информации о состоянии «железа», несвоевременной модернизации вычислительного и сетевого оборудования.
Программные сбои
Может «упасть» операционная система, серверы или пользовательские компьютеры могут быть атакованы (заблокированы) вирусами, блокировщиками или вымогателями. Возможны проблемы с восстановлением из резервных копий, если те оказались повреждены.
Стихийные бедствия
Землетрясения, наводнения, пожары — стихия может уничтожить инфраструктуру организации на физическом уровне.
Инсайдерские провокации
Сопровождаются изъятием серверов и другой вычислительной техники в офисе или дата-центре, сбросом или перенастройкой сетевого оборудования, системы контроля доступа, удаленного управления, уничтожением дисковых накопителей с бизнес-данными.
Что входит в услугу восстановления ИТ-инфраструктуры
Если вы столкнулись с аварией, простоями в работе или серьезным сбоем, для возвращения функциональности информационной системы на предприятии нужно выполнить комплекс мероприятий.
- Составление плана аварийного восстановления. В тексте плана расставляются приоритеты, согласно которым возвращается жизнеспособность ИТ-сервисов или отдельных единиц оборудования;
- Ремонтные работы. Затрагивают аппаратную часть — офисные компьютеры, терминалы, но чаще сервер, хранилища, коммутационное оборудование и системы жизнеобеспечения. Если необходимо, поставляется новое оборудование и программное обеспечение, проводятся работы по внедрению, настройке, тестированию и вводу в эксплуатацию;
- Профилактические работы. Необходимы для того, чтобы исключить сбои в будущем и обеспечить стабильную работу программному и аппаратному обеспечению информационных систем компании;
- Модернизация оборудования и ПО. При грамотном выборе нового оборудования на замену старого (часто морально устаревшего) можно снизить количество вероятных точек отказа в будущем. Основная задача на этом этапе — построить новую отказоустойчивую инфраструктуру;
- Утилизация списанного оборудования. Технику необходимо утилизировать таким образом, что причинить наименьший вред экологии и соблюсти нормативные и бухгалтерские требования;
- Подготовка рекомендаций. На основе комплексного аудитора информационной системы составляется список рекомендаций, которые помогут предотвратить повторные инциденты. Советы экспертов будут затрагивать четыре базовых уровня: аппаратного обеспечения, виртуализации (актуально для ЦОДов), операционных систем и приложений.
Профилактические мероприятия
Чтобы свести к нулю вероятность наступления ситуации, когда повторно потребуется восстановить IT-инфраструктуру, о ней достаточно позаботиться заранее. Ваша задача — исключить простои из-за отказа аппаратных и программных ресурсов, сбоев в системах жизнеобеспечения, вирусных атак, кражи данных или других факторов. Это можно сделать несколькими способами.
Планирование непрерывности бизнеса (ВСМ)
Представляет собой комплекс организационных мероприятий, которые направлены на снижение рисков остановки бизнес-процессов и минимизации последствий, если сбой все-таки произошел. Для этого составляют перечень наиболее критичных пользовательских IT-сервисов, которые будут восстановлены в первую очередь. Обязательной будет расстановка приоритетов для каждого сервиса и бизнес-процесса, благодаря чему можно спланировать последовательность действий при восстановлении. Также необходимо определить потенциальные точки отказа, найти между ними зависимости и подключить их к системе мониторинга (об этом ниже).
Полный или частичный перенос ИТ-инфраструктуры в облако
Можно перейти от модели on-premise к гибридной, когда виртуальная облачная среда используется для хранения резервных данных. Компания-провайдер предоставляет финансовые гарантии доступности бизнес-сервисов и сохранности данных согласно SLA-соглашению, а также берет на себя обязанности по поддержке инфраструктуры. В облаке инфраструктура надежно защищена не только благодаря резервированию критически важных компонентов (аппаратных, программных и баз данных), но и за счет разнообразия и доступности мощных автоматизированных инструментов для безболезненного восстановления.
Резервное копирование
Это простой (с точки зрения технического воплощения) и доступный способ избежать серьезных проблем в форс-мажорных ситуациях. Резервное копирование должно распространяться на данные, которые задействованы в бизнес-процессах компании. Бэкапирование позволяет легко восстановить информацию, которую по неосторожности удалили пользователи, украли или заблокировали злоумышленники в результате вирусной или хакерской атаки, повредили физически — на уровне накопителей — в результате стихийных бедствий.
Настройка мониторинга
Непрерывный мониторинг ключевых параметров функционирования ИТ-инфраструктуры позволяет оперативно находить и устранять вероятные точки отказа, а также предотвращать сбои в аппаратном и программном обеспечении. Продвинутые системы мониторинга выдают полезные рекомендации по тому, что изменить в работе, чтобы не допустить остановки бизнес-процессов на предприятии.
Решение кадрового вопроса
Чтобы оперативно восстановить ИТ-инфраструктуру, необходимы соответствующие технические специалисты, которые выполнят комплекс необходимых мероприятий по приведению работоспособности к стабильным показателям. Инженеров можно вырастить внутри компании, постоянно повышая их компетенции, или нанять под конкретную задачу, воспользовавшись услугами аутсорсеров.