Что такое уровень TIER для дата-центра? Кто такие Uptime Institute? Какие уровни TIER бывают и как проверить настоящий ли сертификат?
- Uptime Institute
- Уровни и этапы сертификации Tier
- Допустимое время простоя в часах и процентах
- Как проверить
- Жульничество
Uptime Institute
Uptime Institute – независимая коммерческая организация, занимающаяся исследованиями в области дата-центров, разработкой стандартов, обучением специалистов, аудитом и сертификацией дата-центров в области надежности и отказоустойчивость. Основана и штаб-квартира – США, 1993г.
Аудит и аттестация производится на основании Tier Standard – системы классификации, определяющей уровни надежности дата-центра.
Надо отметить, что сертификация дата-центра НЕ ГАРАНТИРУЕТ полную отказоустойчивость. Она лишь показывает, что при проектировании дата-центра были максимально учтены все рекомендации по его надежности. Таким образом, мы говорим о том, что “сертифицированный ЦОД имеет меньшую (много меньшую) вероятность отказа, чем не-сертифицированный”.
Отказать может и сертифицированный ЦОД. При этом ЦОД без сертификата может работать много лет без единого сбоя. Во многом, это вопрос вероятности.
Уровни и этапы сертификации Tier
Всего существует четыре уровня надежности Tier (от I до IV) и в каждом из них – три этапа (Milestone) – Design Documents, Constructed Facility, Operational Sustainability.
То есть дата-центр Tier III может быть аттестован по трём этапам.
Уровни Tier
Каждый следующий уровень включает в себя требования всех предыдущих.
Tier I – низший уровень. Выделенное пространство (серверная комната), кондиционер для охлаждения, ИБП, дизель-генератор. Выключение любого одного устройства (ИБП, кондиционер, распределительный щит,…) – ведёт к полной остановке работы. Если технически имеется несколько однотипных устройств (например, кондиционеры), то при выключении одного кондиционера мощности оставшихся недостаточно для нормальной работы. Обслуживание без отключения IT-нагрузки невозможно.
Tier II – есть избыточные компоненты, повышающие надежность и дающие возможность проведения технического обслуживания и работ по повышению запаса прочности. Например, дублирующий кондиционер или второй ИБП, способные полностью взять на себя полную нагрузку. Но, например, при этом только один дизель-генератор. Обслуживание каждого отдельного элемента не влияет на работу IT-нагрузки. Требует отключения IT-нагрузки при выполнении некоторых процедур обслуживания.
Tier III – дата-центр не требует никаких отключений IT-нагрузки для обслуживания или замены каждого отдельного компонента инженерных систем. Отказ компонента полностью покрывается избыточной мощностью других компонентов.
Tier IV – к Tier III добавляется концепция устойчивости инфраструктуры. То есть, при возникновении проблем с какой-то частью инфраструктуры (даже не отдельного её компонента), вся инфраструктура продолжает работать и выполнять свои функции. Можно говорить о полном дублировании всех инженерных систем.
Сертификация по уровням Tier I , Tier II не проводится, хотя это возможно. UptimeInstitute готов это сделать. Вопрос стоимости. Главное чтобы коллеги не засмеяли.
Наиболее популярный уровень – Tier III, так как он выполняет все необходимые функции для обеспечения бесперебойной работы всего оборудования.
Tier IV – наивысший (на сегодняшний день, начало 2024 года) уровень надежности. Адресован крупным корпоративным клиентами, банкам, биржам, финансовым организациям и тд.
Разумеется, строительство дата-центра каждого следующего уровня дороже предыдущего. И, кажется, что кратно дороже.
Как ни странно, строительство ЦОД уровня Tier IV всего лишь на 10-20% дороже по отношению к Tier III.
Этапы сертификации
Design Documents – сертификация проекта. Проще говоря – проверка бумаги. Оценка того, насколько нарисованный проект соответствует требованиям Tier по отказоустойчивости.
Дорогой, сложный процесс, итерационный для устранения замечаний. Однако, это всего лишь оценка проекта. Ещё ни один гвоздь может быть не вбит, ни одна лопата не воткнута в землю, а сертификат уже есть.
Constructed Facility – проверка соответствия того, что построено, тем проектам, которые прошли этап Design Docs. Это реальные проверки физического оборудования, тестирование под нагрузкой как все переключения должны отрабатывать и тд. Можно выполнить и с “живыми клиентами”, но лучше до первого заселенца – на случай, если что-то пойдёт не так. Проверять будут многократными переключениями.
Operational Sustainability – проверка того, как эксплуатируется то, что было построено и проверено, на основании проектной документации, прошедшей сертификацию. Проверка проектов, инструкций, журналов как для обычного режима эксплуатации, так и для аварийных режимов. Проверка знаний и натренированности дежурных, инженеров, менеджеров, руководителей дата-центра, их способности обеспечивать беззбойную эксплуатацию. Высший пилотаж.
НЕ ПУТАТЬ с уровнями интернет-операторов! Оператор TIER I – это высший уровень оператора связи – магистральный операторов мирового масштаба. Тут всё ровно наоборот. Но и это не про надёжность.
Допустимое время простоя в часах и процентах
Я уже писал статью о том, что хвалёная надежность “три девятки”, то есть 99,999% – выглядит внушительно. С другой стороны, это абсолютно легитимная возможность вообще не работать примерно 1 час в год (51 минуту). Расчёты тут.
До 2008 года использовались показатели надежности в процентах и часах (минутах) допустимого простоя в год:
%% надежности | простой, часов (час:мин) | |
Tier I | 99,671% | 28,8 (28:48) |
Tier II | 99,749% | 22 (22:00) |
Tier III | 99,982% | 1,6 (1:35) |
Tier IV | 99,995% | 26 минут |
Однако, с 2008 эти параметры не используются, так как не отражают реальной сути термина “надежность” и “отказоустойчивость” для дата-центра. Например, дата-центр уровня Tier III вообще не подразумевает безнаказанно выключаться на полтора часа в год.
Кратковременный (относительно) сбой системы электроснабжения дата-центра Гознак 30 ноября 2023 года привел к восстановительным работам на VK-облаке, длительностью почти неделю.
Один раз мигнуть электричеством на несколько секунд = неделя работы админам и ещё несколько недель менеджерам.
Обратная сторона этих данных – как бы официальное разрешение для дата-центра Tier III отключаться на полтора часа в год, а для Tier IV на 26 минут. В реальности дата-центр не должен отключаться вообще никогда.
С 2008 года нельзя ссылаться на время простоя сертифитированного по Tier дата-центра как на допустимое. Забудьте.
Как проверить
- Сайт UptimeInstitute.com, раздел Awards (проще сразу гуглить UptimeInstitute Awards – на сайте сложно найти) – список всех дата-центров, прошедших сертификацию Tier.
- Запросить документы у самого дата-центра. В документах должно быть явно указано когда именно проводилась сертификация, и что именно было аттестовано (вплоть до номера зала).
При некоторых обстоятельствах в общем списке можно не найти нужный вам дата-центр – некоторые ЦОДы в общем списке скрываются. Тогда попросите прислать прямую ссылку. Если сертификат есть, то прямая ссылка быть должна.
Кстати, на сайте UptimeInstitute.com публикуются не только результаты аттестации дата-центров, но также и список специалистов (инженеров, администраторов, управленцев), прошедших обучение и сдавших экзамены Институту.
Жульничество
- Сертификат выдаётся строго на тот ЦОД, и даже на тот машинный зал, который был представлен к аттестации. Частая история – построить один зал, его сертифицировать, а потом построить ещё несколько “по шаблону”. Так вот, сертифицированным будет только первый зал.
Причина проста – стоимость. Сертификация каждого следующего зала – это время, деньги, работа инженеров.
Если вы просите подтверждающие документы, просите точно указать какой именно зал имеет сертификат. - Аттестация не того этапа. Сравнивайте обещания (какой именно этап сертификации) и что написано в документах.
Если говорят, что “сертифицирован по Tier III” – спрашивайте какой этап (проектная документация, реализация, процессы эксплуатации) и сравнивайте с тем, что написано в документах. - “Соответствует требованиям Tier III”. То есть, сертификата нет, но ЦОД “соответствует”. Так вот НЕ соответствует. Если официального подтверждения нет, то правильно говорить “мы искренне надеемся, что соответствует, но никто это не проверял”.
- Дробные уровни. Например Tier II+. Или Tier 2.5. Это прямой обман. Стандарты сертификации Tier прямо запрещают указывать промежуточные, дробные уровни, повышающие коэффициенты и тд. Если вам пытаются такое продать – это прямой обман и нарушение стандартов.
Сертификат выдаётся по уровню самой слабой, ненадёжной системы ЦОДа. Именно самое “слабое звено” определяет общий уровень Tier.
Процесс сертификации Tier – не просто осмотр или консультация. Это долгий (несколько месяцев), тяжелый труд инженеров, глубокие проверки, несколько этапов устранения замечаний и совершенно негарантированный результат.
Поверьте, те кто прошёл эту сертификацию – будет гордиться своим достижением.