Сколько стоит час простоя в ваших бизнес-процессах? А день? Насколько хорошо защищены ваши данные, и есть ли план по их спасению в случае атаки хакеров? В мире ИТ есть золотое правило: не жди инцидента, чтобы начать модернизацию. Однако часто бизнес приходит к изменениям через болезненный опыт.
В данном кейсе мы расскажем, что может угрожать вашему бизнесу, и как можно избежать простоя производства из-за инцидента в ИТ-инфраструктуре.
Этот кейс будет полезен:
- ИТ-директорам, планирующим модернизацию серверной группировки без остановки производства;
- Руководителям производственных и логистических компаний;
- Архитекторам инфраструктуры, которым важны детали построения отказоустойчивых HA-кластеров (High Availability cluster);
- Собственникам бизнеса, которые инвестируют в стабильность, безопасность и управляемость ИТ-среды.
Содержание:
Исходные данные и предпосылки проекта
Наш клиент — крупное производственное предприятие. ИТ-ландшафт компании был построен по классической схеме виртуализации предыдущего поколения, актуальной на момент внедрения, но к 2026 году технически устаревшей. Поддержка старой системы прекратилась, обновления безопасности не выходили, а архитектура несла в себе скрытую угрозу.
Триггером для старта проекта стала не теория, а суровая практика. Инцидент с повреждением базы данных «1С» вскрыл «бутылочное горлышко» — сеть с низкой пропускной способностью и отсутствие системы отказоустойчивости. Из-за ограничения пропускной способности в 1 Гбит/с процесс восстановления резервной копии занял два часа.
Два часа простоя производства и десятки сотрудников в ожидании, пока данные просто «перетекут» из хранилища на сервер.
Серверных мощностей хватало, но низкая производительность сети и отсутствие современных решений резервирования ставили бизнес под угрозу. Клиенту требовалась не просто замена оборудования, а смена архитектурной парадигмы.
Что было: типичные ограничения старых ИТ-систем
- Отсутствовала система резервирования;
- Отсутствовала репликация серверов;
- 1 Гбит/с сеть — недостаточная скорость операций резервного копирования и работы с хранилищем;
- Коммутаторы не были объединены в отказоустойчивый стек;
- Платформа виртуализации — без актуальной поддержки и обновлений;
- Проведение профилактических работ на серверном ядре было невозможно без остановки виртуальных машин.
С точки зрения отказоустойчивости — минимум, с точки зрения операционных рисков — максимум.
Решение: архитектура высокой доступности
Долгосрочное внутреннее апробирование новой виртуализационной платформы и архитектуры репликации позволило нам предложить заказчику комплексное решение по модернизации ИТ-инфраструктуры, включающее:
- Обновление серверного оборудования;
- Внедрение отказоустойчивой системы репликации виртуальных машин;
- Модернизацию локальной сетевой инфраструктуры;
- Развертывание современной платформы виртуализации с поддержкой масштабируемости и высокой доступности.
В ходе согласования технического задания заказчик сообщил о планах расширения бизнеса — приобретении дополнительных помещений и необходимости развертывания в них отдельного серверного узла. Спроектированная архитектура способна обеспечить бесшовный переезд физических серверов и сервисов, размещённых на них.
Реализация проекта
В рамках проекта была реализована отказоустойчивая виртуальная инфраструктура на базе кластерной виртуализации с репликацией и механизмами High Availability (HA).
В основе решения — схема репликации виртуальных машин между двумя физическими серверами. Каждая виртуальная машина имеет активный узел и реплику: в штатном режиме ВМ работает на основном сервере, при этом данные с заданной периодичностью (каждые пять минут) синхронизируются на сервер-реплику. Это позволяет выполнять любые регламентные или внеплановые работы с основной нодой без длительных простоев: виртуальная машина может быть запущена на реплике практически мгновенно, так как содержимое её дисков постоянно актуализируется на втором сервере.
Дополнительно была задействована HA-функциональность кластера. Гипервизор настроен на постоянный контроль состояния виртуальных машин и поддерживает их в заданном администратором состоянии. Если ВМ по какой-либо причине останавливается, или основной сервер становится недоступен, кластер автоматически инициирует её запуск на резервной ноде с заранее определёнными ресурсами.
За счёт сочетания HA и репликации достигается высокая скорость восстановления и минимизация влияния отказов на работу сервисов.
Параллельно с этим была полностью пересобрана серверная и сетевая часть инфраструктуры. В рамках проекта были добавлены новые коммутаторы и развернута 10-гигабитная кластерная сеть, заменившая прежнее 1-гигабитное соединение. Переход на 10 Гбит/с существенно ускорил как пользовательские операции, так и внутренние кластерные процессы, включая резервное копирование и синхронизацию данных.
Новая сетевая архитектура также была реализована с учётом отказоустойчивости. Использованы два коммутатора, объединённые по технологии MLAG с настройкой резервирования каналов. Каждый сервер подключён к сети по двум независимым портам, что исключает единичную точку отказа на уровне коммутации — ранее подобной схемы у клиента не было.
В ходе проекта были пересобраны все серверы, внедрена отказоустойчивая 10-гигабитная сеть, добавлена новая аппаратная платформа с NVMe-накопителями и развернута актуальная версия гипервизора. Все виртуальные машины были мигрированы, устаревшие гипервизоры переустановлены, а кластер настроен с поддержкой репликации и HA.
Отдельным элементом решения стало внедрение технологии автоматического снапшотинга. Система выполняет почасовые снимки всех виртуальных дисков. За счёт использования корректно подобранной файловой системы создание снапшотов не оказывает заметного влияния на производительность. Это позволяет в любой момент выполнить мгновенный откат одной виртуальной машины или всей инфраструктуры к предыдущему состоянию, что обеспечивает дополнительный уровень защиты от программ-шифровальщиков, ошибок администрирования и некорректных изменений конфигурации.
Таким образом мы внедрили трёхуровневую систему защиты данных, превратив инфраструктуру в неприступную крепость:
- High Availability: гипервизор непрерывно мониторит состояние виртуальных машин. Если физический сервер падает, HA автоматически перезапускает его машины на других, работающих нодах.
- Асинхронная репликация: раз в 5 минут происходит актуализация диска виртуальной машины на сервере-реплике. Даже если основной диск сгорит, копия уже лежит на соседней ноде и готова к старту.
- Автоснапшотинг: технология мгновенных снимков файловой системы. Хранится «шлейф» из 40 ежечасных и 5 ежедневных снепшотов. Это ультимативное оружие против вирусов-шифровальщиков и человеческого фактора. Нужно вернуть файл, удалённый вчера? Восстановление занимает секунды, а не часы, как при классическом бэкапе.
Проект в активной фазе занял всего неделю и прошёл с идеальной точностью — факт на 100% совпал с планом.
Что получил клиент: измеримые улучшения и новые возможности
- Скорость: 10 Гбит/с в ядре сети и быстрые U.2 NVMe диски.
- Надёжность: офис продаж, производство и склады продолжат работу даже в случае серьезного инцидента на одном из серверов.
- Гибкость: подготовлена база для масштабирования. Клиент уже планирует вторую серверную комнату, соединённую оптическим кольцом с «управляемым разрывом». Благодаря настроенной репликации, в случае аварии в основном помещении, резервная площадка подхватит нагрузку практически мгновенно.
Модернизация ИТ-инфраструктуры — это инженерное искусство, требующее глубокого понимания сетевых протоколов, систем хранения данных и бизнес-процессов заказчика. Мы превратили уязвимую систему в отказоустойчивый механизм, где время простоя измеряется не часами, а секундами автоматического переключения.
Если ваша инфраструктура стала узким местом для развития бизнеса, или вы хотите быть уверены, что ваши данные переживут любой сбой — обращайтесь к ИТ-интегратору СТЕК за обслуживанием ИТ-инфраструктуры и комплексными решениями. Мы спроектируем и реализуем систему, которая будет работать надежно, как швейцарские часы.
