Аварийное восстановление информационных систем Disaster Recovery

Компания:

Крупная кондитерская сеть

Сфера деятельности:

Производство и реализация кондитерских изделий

Аутсорсинг

Аварийное восстановление ИТ-инфраструктуры компании

В данном кейсе раскрывается несколько частых проблем многих компаний:

Отсутствие резервирования баз данных;
Отсутствие централизованного сбора информации обо всех устройствах в ИТ-инфраструктуре;
Отсутствие контроля за актуальностью мощностей оборудования в развивающейся IT-системе;
Халатное отношение штатных сотрудников к ИТ-инфраструктуре компании.

Мы покажем на наглядном примере к чему это может привести, и расскажем, как в экстренном режиме спасали ИТ-системы клиента.

Описание аварийного инцидента

Для лучшего понимания всей картины кратко опишем структуру компании-клиента. Заказчик — крупная сеть кондитерских, чью ИТ-инфраструктуру обслуживает собственный ИТ-отдел (два системных администратора).

Ситуация сложилась так, что примерно в одно время из ИТ-отдела клиента уволились оба специалиста. При этом ими не была подготовлена необходимая база данных о состоянии ИТ-инфраструктуры и текущих задачах. Отсутствие контроля за процессом увольнения ИТ-специалистов привело к тому, что компания не просто осталась без технической поддержки, но и оказалась без какой-либо информации о собственных IT-системах. В таком безнадзорном режиме ИТ-сервисы проработали около месяца, после чего стали появляться ошибки, которые застопорили работу «1С».

Собственными силами (посредством обращения к стороннему ИТ-специалисту) клиент выяснил, что доступа к главному маршрутизатору и другим системам нет, потому что все пароли изменены. Однако никто из бывших ИТ-инженеров клиента ничего об этом не знал.

Аварийное спасение ИТ-инфраструктуры крупной торговой сети

Бизнес-процессы более 80 филиалов компании оказались под угрозой — системы «1С» перестали работать, отсутствовали доступы к ИТ-инфраструктуре и какой-либо Disaster Recovery план, при этом была большая вероятность возникновения других критических ошибок.

С этого момента компания начала бить тревогу.

На протяжении недели предприятие искало организацию, которая может срочно помочь с восстановлением доступов и работоспособности ИТ-систем. В конечном итоге, благодаря рекомендации, клиент обратился к нам.

Исходные данные

В очередной раз мы столкнулись с задачей, когда в большой ИТ-инфраструктуре аварийная ситуация, а доступов для её разрешения нет. Но самое опасное для компании было то, что у них отсутствовали какие-либо резервные копии баз данных и конфигурации роутера. Это значит, что при сбое ИТ-системы может быть потеряна вся информация без возможности восстановления. И, следовательно, бизнес встанет на неопределенное количество времени.

С чем мы имеем дело:

Отсутствие резервирования данных;
Отсутствие технической информации о более 80 филиалах компании;
Отсутствие доступов в ИТ-инфраструктуру и к конфигурации основного маршрутизатора;
Необходимость срочного решения данного чрезвычайного происшествия.

Аварийное восстановление ИТ-инфраструктуры

В самом начале работы мы зарезервировали все данные, к которым был доступ, и создали точки восстановления, чтобы при неожиданном сбое систем информация не была бы утрачена. Это было минимальной экстренной защитой ИТ-инфраструктуры.

Для реализации проекта предстояло с нуля написать большую конфигурацию маршрутизатора (500 строк кода), загрузить её в новый роутер и заменить старое устройство.

Сбор информации

Чтобы написать новую конфигурацию роутера требовались сведения обо всех устройствах в филиалах — их IP-адреса, доступы и настройки. Но у клиента отсутствовала единая база с этими данными, поэтому первым этапом стал сбор необходимой информации.

Наши инженеры приступили к работе.

Устранение внезапных ошибок на серверах клиента

В процессе работы всплыла еще более опасная проблема — на сервере стали давать сбои виртуальные машины. Неправильные настройки виртуализации привели к тому, что начало заканчиваться свободно место на жестких дисках. Если говорить более детально — место «съедалось» snapshot-ами самих же виртуальных машин. Это «стихийное бедствие» грозило обвалом всей системы! Здесь могло порадовать только наличие у клиента некоторых административных прав доступа к серверам. Однако некоторые сервера пришлось перезагружать и настраивать заново.

Наши инженеры незамедлительно приступили к резервированию данных, созданию точек восстановления и реконфигурации виртуальных машин. Благодаря своевременному вмешательству удалось устранить эту брешь в ИТ-инфраструктуре и спасти серверы.

Установка нового маршрутизатора и подключение всех филиалов

После настойки резервирования и отладки виртуальных машин, наш инженер подготовил конфигурацию маршрутизатора и создал её резервные копии. Затем была проведена работа «в поле» — выезд в главный офис компании и физическая замена старого маршрутизатора новым.

После запуска нового роутера, благодаря грамотным настройкам, к нему подключилось около 60 точек (из 80-ти). Остальные устройства были добавлены в ручном режиме — инженер отслеживал входящие запросы на роутер и постепенно, в реальном времени, добавлял оставшиеся точки, удалённо контролируя их работоспособность в магазинах.

В конечном итоге, благодаря непрерывной работе были подключены все филиалы, и работа систем восстановлена.

Рекомендации клиенту по обновлению оборудования

Как только все срочные задачи по восстановлению инфраструктуры были закрыты, мы подготовили для клиента ряд советов по улучшению быстродействия и надежности IT-систем. Одним из главных пунктов было обновление оборудования. Гигантская инфраструктура компании-клиента держалась на устаревших устройствах, которые едва ли могли предоставить необходимые мощности для современного бизнеса.

К примеру, одной из наших рекомендаций была замена основного коммутатора, подключенного между серверами. Его максимальная скорость передачи данных составляет 100 Мбит/с, в то время как подобного масштаба инфраструктура требует до 10 Гбит/с! Также были составлены рекомендации по замене серверов и повышению отказоустойчивости систем.

Результаты

1В экстренном режиме была спасена ИТ-инфраструктура и бизнес-процессы клиента;
2Настроено резервирование всех данных и созданы необходимые точки восстановления систем;
3Отлажена работа виртуальных серверов;
4Собрана и сохранена в одной базе информация обо всех точках компании, подготовлен минимальный DRP (disaster recovery plan — план аварийного восстановления);
5Клиенту даны рекомендации по обновлению технической составляющей — перечень необходимого оборудования, соответствующего запросам современной мощной ИТ-инфраструктуры.

Аварийное спасение ИТ-инфраструктуры компании

Данный проект можно назвать показательным — в очередной раз мы помогаем в ситуации, когда ИТ-инфраструктура крупной организации практически развалилась из-за халатного отношения и низкой квалификации штатных сотрудников клиента.

Информационной безопасности уделялось недостаточное внимание, и бизнес был подвержен риску.

Доверьтесь нашему экспертному мнению — не ждите появления ошибок, уже сейчас звоните и переходите на комплексное обслуживание ИТ-инфраструктуры у надежного ИТ-интегратора. Для вас мы предоставим отказоустойчивые кластеры, грамотно настроенное резервирование данных в облако и мощности, соответствующие запросам ваших IT-систем. А самое главное — с нами у вас будет уверенность в надежности ИТ-инфраструктуры и непрерывный контроль за всеми её показателями!

У Вас похожая задача?Мы всегда готовы подсказать решение!

Задайте вопросы напрямую руководителю данного проекта (9.00–23.00):

+7 965 088 14 30 Перезвонить Вам?