Если вся ИТ-инфраструктура компании годами замыкается на одном штатном специалисте, грань между управляемой системой и хаосом становится пугающе тонкой. Сначала это проявляется в незначительных задержках обработки заявок, но со временем приводит к полной потере контроля над критическими ИТ-активами.
В этом кейсе мы рассказываем, как за жалобами на «медленную реакцию ИТ» скрывалась инфраструктура, находящаяся в шаге от коллапса: устаревшее оборудование, отсутствие резервного копирования и компрометация систем безопасности.
Содержание:
Кому будет полезен этот кейс:
- Собственникам и руководителям бизнеса, столкнувшимся с потерей контроля над ИТ;
- ИТ-директорам (CIO), принимающим инфраструктуру с высоким техническим долгом;
- Операционным и финансовым директорам (COO, CFO), для которых важны непрерывность процессов и контроль рисков простоя;
- Руководителям среднего бизнеса с реактивно развивавшейся ИТ-средой без единой архитектуры.
Исходная ситуация
Клиент — производитель лабораторного оборудования (в том числе для медицинских учреждений). Компания обратилась за независимым аудитом: наряду с возникающими сбоями ИТ-сервисов наблюдалось постепенное снижение прозрачности процессов и управляемости инфраструктуры.
На протяжении длительного периода сопровождение инфраструктуры осуществлялось штатным системным администратором. Однако со временем стали наблюдаться задержки в обработке запросов, снижение оперативности и качества выполнения задач, а также отсутствие регулярной и структурированной отчётности.
С учётом специфики бизнеса сбои ИТ-инфраструктуры могут привести к следующим рискам:
- Срыв поставок из-за недоступности учётных систем и складской инфраструктуры;
- Ошибки в заказах и отгрузках вследствие сбоев или потери данных;
- Нарушение договорных обязательств перед клиентами и партнёрами;
- Финансовые потери из-за простоев и сбоев в логистике;
- Репутационные риски в чувствительной медицинской сфере;
- Потеря контроля над складскими остатками и ассортиментом (более 3 500 позиций);
- Зависимость критических бизнес-процессов от одного ИТ-специалиста.
Поэтому руководство приняло решение привлечь внешних экспертов для объективной оценки текущего состояния ИТ-среды, выявления потенциальных рисков и восстановления контроля над инфраструктурой.
Задача: проведение экспертного аудита ИТ-инфраструктуры
Масштаб: в инфраструктуре около 130 рабочих мест.
Технологический стек: 1С и MS SQL, Active Directory, файловые серверы, MS Exchange, системы виртуализации, резервного копирования (Veeam) и мониторинга (Zabbix).
Специфика: типичный ландшафт среднего бизнеса с повышенными рисками из-за длительной эксплуатации базовых решений без обновления архитектуры.
Сложности проекта
Основная проблема, с которой мы столкнулись в процессе аудита — работа с текущим администратором. Коммуникация была тяжелой с самого начала. Сисадмин клиента отвечал долго, запрос приходилось напоминать по несколько раз и ждать необходимую информацию более суток.
Часть систем была недоступна — даже у штатного администратора отсутствовали необходимые доступы. Это уже не про неудобство, а про прямую потерю контроля над инфраструктурой.
Нам было очевидно: инфраструктура живет своей жизнью, контроля нет, отсутствуют прозрачность и ответственность. Речь идет о недостатках в процессах, а также о квалификации и надежности человека, курирующего это направление.
Аналогичный кейс, в котором некомпетентные действия администратора фактически поставили под удар ИТ-инфраструктуру, рассмотрен в нашей публикации «Экспертиза сервера: причины сбоев и ошибки администрирования».
Для контраста стоит отметить, что даже при наличии в штате опытного и лояльного администратора, работающего в компании много лет, системные проблемы могут накапливаться, если все процессы замкнуты на одном человеке. Практика показывает, что устойчивость IT-инфраструктуры достигается не только за счёт квалификации специалиста, но и за счёт прозрачных процессов и распределения ответственности. В одном из наших кейсов мы как раз показали, как при сохранении сильного штатного администратора удалось выстроить эффективную модель взаимодействия с IT-менеджером:
«Аутсорсинг IT-директора: как виртуальный ИТ-менеджер навёл порядок в компании пассажирских перевозок».
Ключевые выявленные риски и проблемы
1. Отсутствие архитектурной стратегии (стихийное развитие)
Инфраструктура развивалась реактивно: новые сервисы разворачивались под возникающие задачи без проектирования общей модели. Использование различных гипервизоров (включая частичное внедрение KVM) без стандартизации привело к хаотичному размещению сервисов и отсутствию единых принципов отказоустойчивости. Подобная фрагментация создала сложную систему неконтролируемых зависимостей.
2. Критический износ аппаратного обеспечения
В рамках оценки технического состояния инфраструктуры установлено, что значительная часть серверных ресурсов эксплуатируется на пределе производительности. Часть узлов, используемых с 2011 года, представляет собой десктопные системы, не предназначенные для работы в режиме серверных нагрузок и эксплуатации 24/7.
При этом отсутствует базовый уровень отказоустойчивости: дисковые массивы (RAID) не используются, накопители имеют признаки критического износа и деградации секторов. В такой конфигурации каждый физический диск является единственной точкой отказа.
Это означает, что выход из строя одного накопителя приведет не только к потере данных на нем, но и к немедленной остановке нескольких виртуальных машин, размещенных на данном хосте. С учетом возраста оборудования и состояния дисков вероятность такого сценария является высокой, а время восстановления — непредсказуемым из-за отсутствия резервирования и заранее отработанных процедур отказа.
3. Иллюзия надежности системы резервного копирования
Система резервного копирования на базе Veeam Backup & Replication была внедрена формально и не обеспечивала реальной защиты данных. Часть критичных систем не копировалась вовсе, бэкапы хранились на изношенных носителях и могли быть легко удалены. Процедуры восстановления не тестировались.
Дополнительно, время резервного копирования Microsoft Exchange превышало 24 часа, что фактически исключает возможность восстановления почты в пределах допустимого времени простоя (RTO).
RTO (Recovery Time Objective) — это целевое время восстановления системы после сбоя. Проще говоря, это тот максимальный промежуток времени, в течение которого сервис может быть недоступен без критичных последствий для бизнеса.
Например: если для корпоративной почты установлен RTO = 4 часа, это значит, что после аварии она должна быть полностью восстановлена не позже, чем через 4 часа. Если системный администратор или ИТ-аутсорсер не участвует в обсуждении RTO или его никто явно не определял — почти всегда возникает та самая ситуация «вроде всё работает», но при сбое восстановление занимает гораздо больше времени, чем бизнес реально может себе позволить.
4. Уязвимость базовых сетевых сервисов
Ключевые службы инфраструктуры (Active Directory и DHCP) были развернуты на едином сервере без резервирования. Отказ данного узла привел бы к полной остановке бизнес-процессов компании: невозможности аутентификации пользователей, потере доступа к ресурсам и утрате управления сетью.
5. Накопленный технический долг и отсутствие мониторинга
Зафиксировано отсутствие регламентного обслуживания баз данных, использование самоподписанных сертификатов и рассинхронизация конфигураций ПО. Система мониторинга Zabbix присутствовала лишь номинально: метрики не собирались, система оповещений не была настроена. ИТ-служба работала исключительно в реактивном режиме — реагируя на инциденты только по факту их возникновения.
6. Компрометация информационной безопасности
Проверка показала, что периметр безопасности существует скорее формально, чем фактически. На рабочих станциях обнаружено вредоносное ПО, включая криптомайнеры, которые длительное время оставались незамеченными установленным антивирусом. Сетевая среда выстроена без базовых защитных механизмов: нет сегментации, открыты критичные порты, правила межсетевого экрана устарели, а пользователи обладают избыточными правами доступа. В такой конфигурации инфраструктура не защищает себя ни от внешних атак, ни от внутренних инцидентов. Любое вредоносное действие может беспрепятственно распространяться по сети, затрагивая ключевые системы и данные.
7. Отсутствие процессов управления ИТ
Корневой причиной деградации инфраструктуры стало отсутствие стандартизированных процессов управления. В компании не было актуальной документации, сетевых топологий, регламентов и матриц доступа. Высокая зависимость инфраструктуры от одного сотрудника сделала систему не только уязвимой, но и полностью неконтролируемой со стороны руководства бизнеса.
Результаты проекта и ценность для бизнеса
На момент старта проекта инфраструктура находилась в состоянии скрытого критического риска. Любой инцидент (отказ диска, человеческий фактор, сетевая атака) с высокой долей вероятности привел бы к длительному простою бизнеса и потере чувствительных данных.
По итогам аудита заказчик получил исчерпывающий отчет с описанием всех уязвимостей и детализированную дорожную карту по реконфигурации ИТ-инфраструктуры. Предложенный план включает:
- Поэтапное обновление аппаратного фонда;
- Проектирование и внедрение отказоустойчивой архитектуры (High Availability);
- Пересборку системы резервного копирования с гарантированным RTO/RPO;
- Внедрение проактивного мониторинга;
- Сегментацию сети и построение надежной защиты;
- Формализацию ИТ-процессов и разработку эксплуатационной документации.
Если вы столкнулись с похожей ситуацией — прозрачность работы ИТ-отдела снизилась, инфраструктура вызывает сомнения в надежности, а зависимость бизнеса от одного сотрудника стала критической — мы готовы провести независимую оценку вашей инфраструктуры. ИТ‑интегратор СТЕК предлагает услугу аудита ИТ‑инфраструктуры. Мы анализируем состояние аппаратной части, реальную работоспособность систем резервного копирования, сетевую безопасность и прозрачность ИТ‑процессов, помогая руководству вернуть полный контроль над цифровыми активами компании.
