Стратегия тестирования ЦОД
разработано: Сабыр Жакипов, CTO Vicom Plus ©2019

If you do not plan, then you plan to fail

H. Gen • DC-Handbook

Здесь и далее я буду ссылаться на мировой опыт, так как существует проверенная временем методология тестирования ЦОД, основанная на процедуре COMMISSIONING.

COMMISSIONING для датацентров регламентирует специально разработанное руководство - ASHRAE Guideline 0. Оно находится в платном доступе, цена - чуть менее $100.

Зачем проводить тестирование?

Для владельца ЦОД:

  • Мировой опыт показывает, что процент возврата инвестиций, вложенных в строительство ЦОД, может вырасти на 5-10% для компании владельца при условии проведения тщательной процедуры предварительного тестирования (SE White Paper 148 - Data Center Projects: Commissioning (Revision 1, by Paul Marcoux);

  • Нередко владельцы датацентров выкладывают акт о проведении тестирования в публичный доступ в качестве дополнения к годовому отчету (SE Whte Paper 149 - Ten errors to avoid when Commissioning a datacenter).

Для подрядчика:

Тестирование имеет смысл, в большей степени:

  • Для подтверждения квалификации компании;

  • Для минимизации рисков. при последующей сервисной поддержке объекта;

  • В целях "привязать" Заказчика - сформировать базу знаний по эксплуатации датацентра.

Нужно ли тщательное тестирование?

Тестирование - процедура сложная. Ее необходимо декомпозировать на задачи. Задачи же, в свою очередь, определяются целью, но тестирование может преследовать множество целей. Как определить главную?

Одна из основных целей проведения процедуры Commissioning - устранение единой точки отказа. Обратимся к примеру с чиллерами. Если выйдет из строя один из чиллеров - это не проблема. Однако, если имеет место системная ошибка, к примеру, потеря электропитания для двух или всех трех чиллеров - такая ситуация категорически неприемлема.

  H.Gen • DC-Handbook

Тщательное тестирование проводится специализирующимися на данной услуге компаниями и начинается на этапе проектирования. Услуга дорогая и не всегда оправдана при ограниченном бюджете. Это всегда вопрос правильного расставленная приоритетов, поэтому я предлагаю такую стратегию тестирования, которая помогла бы достичь следующих результатов:
  • минимизация рисков при последующей сервисной поддержке датацентров;

  • сформулировать базу знаний по эксплуатации датацентров для Заказчика.

Самый быстрый и недорогой способ эффективно реализовать такую стратегию - выполнить следующие приоритетные задачи:

  1. Четко сформулировать все компоненты ЦОД. Без ошибок. Точно в соответствии с проектом. Если изначально в проекте маркировка некоторых компонентов не была указана, тогда следует воспринимать это как упущение и внести корректировки в проект. Если в проекте отсутствует маркировка компонентов как класса (например, не предусмотрена маркировка кранов вообще), то следует разработать систему маркировки отсутствующих компонентов и оформить в качестве приложения к проекту. (Нужно непременно оформить в виде приложения к проекту, так как проект в последующем будет переноситься в базу знаний. Если дополнения не будут оформлены должным образом, существует большая вероятность утери важной информации);

  2. Спланировать эталонную базу конфигурационных единиц (CMDB). В качестве конфигурационных единиц (КЕ) нужно внести все элементы инженерной инфраструктуры. Затем определить зависимости между КЕ. Это позволит быстро и точно определять два важных критерия инцидента - критичность и степени влияния.

    Пример: ИБП сигнализирует о плохом входном напряжении. КЕ байпаса автоматически переходит в красный статус «unavailable» (так как нагрузка не должна питаться от плохой электросети напрямую через байпас). КЕ нагрузки автоматически переходит в желтый статус «warning», потому что продолжает нормальную работу от электропитания ИБП. Таким образом, мы сразу видим, что инцидент не критичен и нет необходимости в безотлагательной реакции инженера.

  3. Не ограничиваться только имитацией нагрузки электросети. Необходимо предусмотреть тестирование остальных систем также. В Приложении 1 приведен примерный перечень таких работ (неполный). Они имеют прямой смысл, так как в не меньшей степени повлияют на выявление единой точки отказа.

Приложение 1. Виды дополнительных работ:


Миссия выполнима: заменить ИБП в работающем датацентре
Одна из последних задач, которую пришлось решать инженерам нашей компании - замена систем бесперебойного питания без отключения электропитания в функционирующем облачном датацентре!