В данном кейсе мы рассмотрим несколько серьезных ошибок в построении ИТ-архитектуры, которые могли чрезвычайно негативно сказаться на деятельности большого предприятия. И лишь благодаря оперативному вмешательству наших специалистов, удалось восстановить данные с сервера, и компания избежала крупных финансовых потерь.
Исходные данные и описание ситуации
Клиент обратился к нам за помощью с решением возникшего инцидента. Портал Битрикс24, в котором компания вела все задачи, перестал работать. Силами своего ИТ-отдела заказчику удалось поверхностно выявить причину данной проблемы — в сервере с Bitrix24 вышел из строя один из жестких дисков. К сожалению, состоящие в штате инженеры не обладали необходимой квалификацией для исправления ситуации, поэтому компания в срочном порядке начала искать подрядчика, и в итоге обратилась с запросом к нам.
Наши специалисты незамедлительно приступили к работе, начав с краткого анализа исходных данных. У клиента была установлена коробочная версия Битрикс24, но сервер, на котором она хранилась, был изначально неправильно сконфигурирован. Созданием и настройкой ИТ-системы занималась сторонняя организация, однако ежемесячное обслуживание никто не вёл.
Ситуация складывалась таким образом, что хоть и были допущены серьезные ошибки в конфигурации ИТ-инфраструктуры, но какое-то время они были некритичными. Поэтому предприятие спокойно вело свою деятельность, не подозревая о затаившейся опасности обрушения систем. При этом штатные администраторы компании не догадывались об ошибках и не могли заметить их без проведения профессионального аудита. Также отметим еще одну вещь — обслуживанием Битрикса занимался сторонний специалист.
Другими словами: настраивали ИТ-инфраструктуру одни люди, сервисом Битрикс24 занимался сторонний человек (не состоящий в компании), а штатный инженер решал стандартные задачи по администрированию. Обслуживанием серверов не занимался никто, система существовала сама по себе! Ошибки в работе первых, неквалифицированные и безответственные действия стороннего специалиста и отсутствие необходимой информации об общем положении дел у штатного ИТ-сотрудника привели к аварийному случаю — рабочие данные оказались на грани безвозвратного уничтожения.
Задача
Спасти важную корпоративную информацию, провести реконфигурацию сервера и в сжатые сроки восстановить Битрикс24 и работу компании.
Реализация — восстановление Битрикс24 и реконфигурация сервера
При работе с сервером выяснилось, что основной причиной сбоя системы стала неверная её начальная конфигурация. Имеющийся RAID массив, состоящий из 4 жестких дисков, практически развалился — из-за избыточности вышел из строя один HDD. Оставшиеся три не могли обеспечить полноценную работу сервера. Ситуация привела к тому, что была удалена таблица разделов (partition). При этом не было настроено никакого резервирования информации. Здесь хочется отметить, что бэкапы данных всё же делались, но средствами самого Битрикса и на тот же «умирающий» сервер. Данную систему нельзя назвать резервированием.
Действительно опасный для деятельности предприятия случай — нет резервных копий данных, а raid практически развалился. Можно сказать, клиенту повезло, что в сервере отключился только один жесткий диск, а остальные остались в рабочем состоянии, и информация на них не была стёрта самой системой.
Для разрешения задачи нам пришлось задействовать своего эксперта по Linux, который восстановил загрузочную таблицу, благодаря чему удалось восстановить raid и запустить сервер.
Поддержание сервера в рабочем состоянии и копирование данных заняло значительное количество времени и потребовало весьма скрупулезной работы без права на ошибку.
Весь рейд клиента состоял из 4 HDD, на которых были и файлы, и система. Для современного бизнеса данное решение является устаревшим, так как для быстродействия все программы желательно устанавливать на скоростные SSD. Поэтому по нашим рекомендациям клиент закупил новые диски для сервера — два SDD под ПО и несколько HDD под файлы.
Здесь сделаем важное замечание: лучшая организация безопасной отказоустойчивой ИТ-инфраструктуры подразумевает облачные решения и использование кластеров высоконагруженных систем. Но так как клиент использует Битрикс24 узко внутри офиса — руководство компании решило ограничиться модернизацией оборудования.
Для клиента была создана новая система, включающая в себя два raid массива — один под программное обеспечение, а другой под хранение данных. Вся сохраненная информация была перенесена на новые устройства. Система полностью донастроена и запущена в работу. Кроме этого нашим инженером были настроены грамотное резервирование информации и мониторинг состояния системы (посредством свободного ПО Zabbix)
Результаты работ по восстановлению сервера Битрикс24
- 1Для клиента был пересобран новый сервер Bitrix24 на современном оборудовании;
- 2Благодаря оперативному вмешательству наших специалистов удалось восстановить RAID 1 и спасти важную корпоративную информацию;
- 3В самые сжатые сроки (за неделю) реализовано восстановление Bitrix24;
- 4Для клиента настроено резервирование всей информации — теперь заказчик застрахован от простоев в бизнесе из-за утраты ценных рабочих данных;
- 5Благодаря внедренной системе мониторинга Zabbix, ИТ-специалисты компании всегда в курсе состояния сервера — в случае возникновения каких-либо ошибок, системный администратор сразу же получает информацию по ним и может вовремя принять необходимые меры для их устранения.
Подытожим данный кейс следующими выводами:
- Всегда контролируйте состояние своих ИТ-систем!
- Проследите за тем, что у вас настроено резервное копирование. А самое главное — что оно настроено профессионалами;
- Помните о том, что серверы необходимо обслуживать;
- Следите за актуальностью оборудования и программного обеспечения.
И самое важное — для надежной работы ИТ-систем всегда лучше обращаться к ИТ-интегратору! Благодаря этому грамотному решению вы сможете получить комплекс всех ИТ-услуг у одного проверенного подрядчика.