If you do not plan, then you plan to fail
Здесь и далее я буду ссылаться на мировой опыт, так как существует проверенная временем методология тестирования ЦОД, основанная на процедуре COMMISSIONING.
COMMISSIONING для датацентров регламентирует специально разработанное руководство - ASHRAE Guideline 0. Оно находится в платном доступе, цена - чуть менее $100.
Зачем проводить тестирование?
Для владельца ЦОД:
Мировой опыт показывает, что процент возврата инвестиций, вложенных в строительство ЦОД, может вырасти на 5-10% для компании владельца при условии проведения тщательной процедуры предварительного тестирования (SE White Paper 148 - Data Center Projects: Commissioning (Revision 1, by Paul Marcoux);
Нередко владельцы датацентров выкладывают акт о проведении тестирования в публичный доступ в качестве дополнения к годовому отчету (SE Whte Paper 149 - Ten errors to avoid when Commissioning a datacenter).
Для подрядчика:
Тестирование имеет смысл, в большей степени:
Для подтверждения квалификации компании;
Для минимизации рисков. при последующей сервисной поддержке объекта;
В целях "привязать" Заказчика - сформировать базу знаний по эксплуатации датацентра.
Нужно ли тщательное тестирование?
Тестирование - процедура сложная. Ее необходимо декомпозировать на задачи. Задачи же, в свою очередь, определяются целью, но тестирование может преследовать множество целей. Как определить главную?
Одна из основных целей проведения процедуры Commissioning - устранение единой точки отказа. Обратимся к примеру с чиллерами. Если выйдет из строя один из чиллеров - это не проблема. Однако, если имеет место системная ошибка, к примеру, потеря электропитания для двух или всех трех чиллеров - такая ситуация категорически неприемлема.
минимизация рисков при последующей сервисной поддержке датацентров;
сформулировать базу знаний по эксплуатации датацентров для Заказчика.
Самый быстрый и недорогой способ эффективно реализовать такую стратегию - выполнить следующие приоритетные задачи:
Четко сформулировать все компоненты ЦОД. Без ошибок. Точно в соответствии с проектом. Если изначально в проекте маркировка некоторых компонентов не была указана, тогда следует воспринимать это как упущение и внести корректировки в проект. Если в проекте отсутствует маркировка компонентов как класса (например, не предусмотрена маркировка кранов вообще), то следует разработать систему маркировки отсутствующих компонентов и оформить в качестве приложения к проекту. (Нужно непременно оформить в виде приложения к проекту, так как проект в последующем будет переноситься в базу знаний. Если дополнения не будут оформлены должным образом, существует большая вероятность утери важной информации);
Спланировать эталонную базу конфигурационных единиц (CMDB). В качестве конфигурационных единиц (КЕ) нужно внести все элементы инженерной инфраструктуры. Затем определить зависимости между КЕ. Это позволит быстро и точно определять два важных критерия инцидента - критичность и степени влияния.
Пример: ИБП сигнализирует о плохом входном напряжении. КЕ байпаса автоматически переходит в красный статус «unavailable» (так как нагрузка не должна питаться от плохой электросети напрямую через байпас). КЕ нагрузки автоматически переходит в желтый статус «warning», потому что продолжает нормальную работу от электропитания ИБП. Таким образом, мы сразу видим, что инцидент не критичен и нет необходимости в безотлагательной реакции инженера.
Не ограничиваться только имитацией нагрузки электросети. Необходимо предусмотреть тестирование остальных систем также. В Приложении 1 приведен примерный перечень таких работ (неполный). Они имеют прямой смысл, так как в не меньшей степени повлияют на выявление единой точки отказа.
Приложение 1. Виды дополнительных работ:
Сканировать электрические соединения инфракрасным термографом;
Мониторить качество электросети на выходе из ИБП (при условии работы ИБП в эко-режиме) для обнаружения опережающего КМ, который может вывести из строя ДГУ;
Проверить пункт чеклиста "Меры по снижению риска возникновения пожара";
После завершения проведения всех процедур тестирования необходимо не забыть зарядить аккумуляторы ИБП до полной ёмкости.