инженерный мониторинг что это
Мониторинг инженерной инфраструктуры в дата-центре. Часть 2. Система энергоснабжения
Продолжаем серию статей про работу систем мониторинга инженерной инфраструктуры в наших дата-центрах. В первой части разобрали теоретические моменты, сегодня обратимся к практике. Начнем с самой критичной системы – энергоснабжения. Перед прочтением рекомендуем освежить знания про устройство электропитания в дата-центре.
Одна из схем для мониторинга системы энергоснабжения в дата-центре OST-2.
Особенности мониторинга системы энергоснабжения
В мониторинге энергоснабжения есть свои нюансы. Вот несколько общих советов для тех, кто только собирается проектировать и настраивать систему.
Мониторьте все что можно. В системе энергоснабжения нет неважных участков. Отслеживайте основные параметры каждого элемента системы: от трансформатора до PDU в стойке.
Мониторьте систему в целом. Мало просто поставить все оборудование на мониторинг. Важно отобразить существующие взаимосвязи между всеми элементами системы. Это поможет быстрее выявлять неполадки и не запутаться в десятках оповещений об ошибках.
Принципиальные схемы, карты и прочая визуализация лучше всего подойдут для этих целей. Картинка в начале поста – как раз пример такой схемы. Когда в стойке пропадет питание, с помощью таких схем будет легче понять, что стало причиной аварии.
Опрашивайте оборудование как можно чаще. Частый опрос поможет не пропустить важные события в жизни системы энергоснабжения: отключение городского питания, ошибки, по которым не завелся ДГУ. Такие критичные узлы, как главный распределительный щит, ДГУ, ИБП, рекомендуем опрашивать каждую секунду.
Мониторьте балансировки по фазам и парные нагрузки. Это производные показатели системы энергоснабжения. Они рассчитываются непосредственно в системе мониторинга на базе информации, полученной от оборудования.
Собирайте статистику. Только онлайн данных и оповещений мало, нужно собирать долгосрочную статистику. Она пригодится для многих вещей – от управления мощностями (capacity management) до расчета бюджета на закупку ЗИП.
Пара слов о нашем мониторинге
Система работает на базе open-source решения Nagios. Он собирает значения параметров оборудования и отправляет уведомления при достижении пороговых значений. Всего развернуто 8 стендов с Nagios.
Информация по 7 дата-центрам и всем системам мониторинга собирается в едином интерфейсе на базе Thruk.
Веб-интерфейс Thruk.
Статистику и графики на ее основе строим с помощью встроенных служб Nagios и Cacti.
Еще один способ представления информации – принципиальные схемы. Такой тюнинг процесса структурирует и упрощает восприятие большого объема данных. Целостную картину можно получить при одном взгляде на монитор.
Схема для мониторинга энергоцентра и машинных залов дата-центра NORD-4.
Давайте посмотрим, что, как и на каком оборудовании можно отслеживать.
Трансформаторы
При высокой нагрузке трансформаторы нагреваются. Если произойдет перегрев, то сработает защита и трансформатор выключится. Благодаря мониторингу мы можем вовремя отследить перегрев и принять необходимые меры.
Если трансформатор еще не запущен в эксплуатацию, то на корпус можно установить термоэлектрические пирометры. В уже работающих трансформаторах используем дистанционные инфракрасные пирометры.
Так выглядят инфракрасные пирометры.
Вводы на ГРЩ
Мониторинг на этом участке системы дает нам информацию о наличии электропитания от города и его характеристики по току, напряжению.
От каждого трансформатора в главный распределительный щит (ГРЩ) приходит три медных шины. Для получения данных о токах и напряжении на каждую шину устанавливается трансформатор тока. Его первичная обмотка подключена к шине, а вторичная обмотка замыкается на измерительный прибор – анализатор сети.
Аналогичным образом трансформатор тока крепится на шине в щите ДГУ.
Черные кольца на медных шинах – это и есть трансформаторы тока.
Анализатор сети крепится к дверце распределительного щита.
Система мониторинга опрашивает анализаторы сети по протоколу ModBus. Данные поступают на сервер мониторинга и отображаются в едином веб-интерфейсе Thruk.
Схема подключения анализаторов сети к системе мониторинга.
Аналогичным способом устроен мониторинг в остальных распределительных щитах (ЩР). Для каждой секции ЩР устанавливается свой анализатор, и суммарный – на весь ЩР.
Трансформаторы тока в распределительном щите машинного зала.
Анализаторы сети в распределительном щите машинного зала.
От анализаторов сети мы получаем порядка 20 параметров. Вот основные:
Все основные параметры по ГРЩ отображаются на принципиальных схемах.
Гарантированное электроснабжение
По этой системе мы отслеживаем состояние щитов ДГУ, топливных баков и, конечно же, самих ДГУ. Данные от дизельных электростанций система мониторинга получает от панели управления ДГУ.
Панель управления ДГУ.
Схема подключения ДГУ к системе мониторинга.
Основные параметры ДГУ:
Список основных параметров ДГУ в системе мониторинга.
Бесперебойное энергоснабжение
Если в ИБП есть модуль для удаленного мониторинга, то сбор данных не представляет сложности: просто настраиваем опрос бесперебойников по протоколу SNMP.
ИБП изнутри. Красным отмечен модуль мониторинга, который подключается к серверу мониторинга.
Основные отслеживаемые параметры:
Мониторинг PDU и АВР в стойке
Мониторинг PDU позволяет зафиксировать пропадание питания по одному или нескольким лучам в стойке с оборудованием. Для этого достаточно использовать PDU с возможностью опроса по протоколу SNMP. PDU с управлением и специализированным софтом тоже можно, но в этом случае добавится отдельный интерфейс.
То же самое касается и мониторинга стоечного АВР.
Подключение PDU к системе мониторинга.
Производные параметры: балансировка нагрузок по фазам и лучам
На основе данных, полученных от анализаторов сети в распределительных щитах, модулей мониторинга ИБП, PDU, в системе мониторинга рассчитывается несколько производных параметров.
Нагрузка по фазам. Если нагрузка распределена равномерно по фазам, тогда мощность кабеля и автоматов будет использоваться эффективно. Когда одна или две фазы перегружены, а одна или две недогружены, то возникает так называемый перекос фаз. Это, как минимум, будет означать, что имеющаяся мощность используется не оптимально. В худшем случае это приведет к отключению автомата и перегреву кабеля.
Нагрузка по фазам в системе мониторинга
Парные нагрузки на двух лучах. В наших дата-центрах резерв системы энергоснабжения 2N.
К каждой стойке подходит два независимых луча питания. И если что-то происходит с одним из лучей питания, другой берет на себя нагрузку вышедшего из строя. Получается, что каждый луч должен быть загружен только наполовину от номинальной мощности. Только в этом случае оставшийся в строю луч выдержит двойную нагрузку.
Для этого мы отслеживаем, чтобы нагрузка на одном луче не превышала более 50 % от номинала, а суммарная нагрузка на двух лучах – 100 % от номинала.
Если не отслеживать этот параметр, то можно “проморгать” ситуацию, когда у нас не останется резерва по второму лучу, так как парная нагрузка превышает номинальную мощность автомата.
Оба принципа должны соблюдаться одновременно. Рассмотрим это на практике. Допустим, у нас есть стойка с трехфазным питанием 32 А на фазу. Оборудование подключается к двум PDU. У каждого PDU по три секции (B1, B2, B3), каждая секция соответствует фазе, т.е. мы имеем дело с трехфазными PDU. Если мы соблюдаем вышеописанные правила, то получается, что суммарная нагрузка по двум лучам должна быть ниже 32 А (см. рисунок ниже).
Вроде все понятно, но давайте рассмотрим вот такой случай. В эту же стойку подключаем оборудование (см. рисунок ниже). Казалось бы, из 19,5 кВТ (три секции по 6,5 кВт) у нас всего занято 11 кВТ, и можно спать спокойно. Но в какой-то момент у нас выключается один луч, и вся стойка остается без питания. Произошло следующее. Мы перегрузили первую секцию (фазу) на одном из лучей. Суммарная нагрузка оказалась больше номинальной. Когда один из лучей взял на себя эту чрезмерную нагрузку, автомат выбило.
Парные нагрузки на первую секцию PDU (B1) в системе мониторинга.
Так парная нагрузка измеряется на уровне стойки. По такому же принципу мы отслеживаем:
На этом остановимся. Задавайте вопросы в комментариях. Если у вас есть вопросы о балансировке нагрузки в стойках или распределительных щитах, пишите в комментариях, в личку или на consulting@dtln.ru.
В следующей статье поговорим про мониторинг холодоснабжения.
Еще статьи про мониторинг и энергоснабжение в дата-центре:
Мониторинг инженерной инфраструктуры в дата-центре. Часть 1. Основные моменты
Статью про устройство мониторинга в дата-центре мы обещали еще в сентябре. Тема обширная, одной статьей тут не отделаться, поэтому решили сделать серию постов. Начнем с базовых моментов, о которых важно помнить при проектировании и настройке мониторинга. Затем подробно остановимся на основных инженерных системах (энергоснабжение и холодоснабжение) и расскажем про инструменты для их мониторинга.
В статьях будем делиться своим опытом, тем, что пробовали и используем сами в собственных дата-центрах. На полноту не претендуем, зато все будет из жизни, а не из учебника.
В комментариях можно попробовать повлиять на редакторскую политику и предложить для рассмотрения интересные именно для вас аспекты мониторинга.
С организационными моментами вроде разобрались, приступим к азбуке мониторинга в редакции DataLine :). Итак, сегодня речь пойдет о концептуальных вещах, которые нужно учитывать на этапе проектирования, внедрения и настройки системы мониторинга. Сабж рассмотрим на примере нашего мониторинга, построенного на базе Nagios и Cacti.
Что такое мониторинг
В этой серии статей мы будем говорить о “классическом” мониторинге, т.е. без автоматизированного управления.
Мониторинг можно трактовать по-разному: как систему и как процесс. В нашем случае это две стороны одной медали – одно без другого существовать не может.
Мониторинг как система помогает непрерывно собирать, хранить и анализировать параметры оборудования и систем. Он снабжает данными, на основе которых инженер делает выводы о текущем состоянии и о возможном будущем поведении наблюдаемого объекта.
Система мониторинга дает лишь вводную информацию, дальше дело за людьми и процессами. Четкие регламенты в штатных и аварийных ситуациях, выстроенная система уведомления ответственных лиц – все это превращает мониторинг из простого сбора данных в полезный инструмент для управления инфраструктурой.
Когда нужно озадачиться системой мониторинга
Тогда же, когда и начинаете проектировать инженерную инфраструктуру. Если заниматься мониторингом уже после запуска дата-центра, то какое-то время служба эксплуатации будет работать вслепую. Дежурные инженеры не смогут отслеживать ошибки в работе оборудования, пропустят предаварийные ситуации. Единственный доступный способ мониторинга в такой ситуации – это физический обход всех инженерных систем и ИТ-оборудования.
Пример 1: дата-центр запустили в эксплуатацию. Первые месяцы зал был почти пустой и из трех кондиционеров работал только один. С заполнением зала температура в зале выросла. Так как мониторинга нет, то службе эксплуатации будет сложно определить момент, когда включить второй, а в случае аварии – резервный.
Наверстать пробел с мониторингом на этапе эксплуатации будет сложно, а иногда и невозможно без остановок в работе серверной или дата-центра. Например, чтобы установить анализаторы тока в распределительные щиты, придется отключать как минимум один луч. В худшем случае под них может не оказаться места, тогда совершенно новый шкаф нужно будет модернизировать или менять вовсе.
Есть хорошее выражение: невозможно управлять тем, что нельзя измерить. Это как раз про эксплуатацию инженерной инфраструктуры без мониторинга. Продумывайте мониторинг заранее.
За чем нужно следить
Мониторинг инженерной инфраструктуры нужно вести по возможности на трех уровнях: автономные датчики, оборудование и системы в целом.
Под автономными датчиками мы в первую очередь подразумеваем датчики протечек, температурные датчики, датчики объема и движения.
Пример 2: отключился распределительный щит в машинном зале. Если мы мониторим оборудование по отдельности, то понадобится время, чтобы понять источник поломки – щит или ИБП, от которого он питается. Если же у нас перед глазами будет схема всей системы, то мы быстро увидим слабое звено.
Схема системы энергоснабжения, показывающая все оборудование в одной цепочке.
Документация по мониторингу
По мере того, как определяемся с объектами и параметрами мониторинга, составляем документацию по системе. В ней фиксируем:
Независимость и резервирование системы мониторинга
Под мониторинг лучше использовать отдельное серверное и сетевое оборудование с выделенным сетевым сегментом.
Серверы должны быть зарезервированы так, чтобы при выходе из строя одного из серверов мониторинг продолжил работать на втором. Совсем хорошо, если серверы кластера разнесены по разным машинным залам. В одном из следующих постов подробно рассмотрим устройство и принцип работы подобного кластера.
Мониторы, на которые выводятся схемы, уведомления, также должны быть подключены к бесперебойному питанию с резервом. По сети также — сетевые розетки подключены к разным коммутаторам. Так дежурные инженеры не останутся наедине потухшими экранами, когда в дата-центре происходит что-то интересное.
Единый центр мониторинга
Всю информацию с датчиков, оборудования и систем нужно сводить в единый интерфейс и выборочно отображать на экранах в центре мониторинга.
За всем этим хозяйством должен следить круглосуточно хотя бы один дежурный инженер. Здесь же все уведомления регистрируются в виде инцидентов на ответственных лиц или отделы.
Это своего рода ЦУП и первый рубеж обороны в случае аварии в дата-центре.
Центр мониторинга на площадке OST.
Визуализация
Следить за работой дата-центра только с помощью уведомлений можно, но для наглядности основные инженерные системы и их параметры стоит визуализировать в виде схем и карт.
Сводная схема дата-центра OST-2.
Со схемой дежурному инженеру будет легче понять, в каком машинном зале находится сломанный кондиционер, что происходит с температурой в ближайшем холодном коридоре. Кроме того, визуализация дает возможность увидеть взаимосвязь между отдельными элементами инженерной системы и быстрее определить первоисточник проблемы.
Разное время опроса для разных систем
Учитывайте специфику инженерных систем при настройке времени опроса. Для системы энергоснабжения чем чаще будут сниматься показания, тем лучше. Например, в нашем мониторинге значения напряжения снимаются каждую секунду. А для кондиционеров, это слишком часто, достаточно и минутного интервала.
Устанавливайте разное время опроса для разных систем. Так вы не пропустите важных событий и не перегрузите систему слишком частыми запросами.
Правильно выбранные пороговые значения для уведомлений
Прописывайте критические значения, по достижении которых будут срабатывать оповещения. Лучше предусмотреть как минимум два уровня оповещения – предупреждения и критические ошибки. В Nаgios, например, такому разделению соответствуют warning и critical:
При необходимости корректируйте пороговые значения для разных типов уведомлений.
Примеры warning и alarm
Все сообщения об авариях должны быть актуальными. Если на экране висит сообщение об аварии, то значит, что она произошла только что. Как только это уведомление зарегистрировано в виде инцидента на ответственное лицо, оно должно пропасть с экрана.
Четкий регламент действий при аварийных ситуациях
Не пропустить аварию важно, но еще важнее правильно на нее среагировать и запустить процесс реакции на инцидент.
У дежурного инженера должна быть четкая инструкция, по которой он действует, и контакты людей, которых нужно оповестить в случае аварийной ситуации.
Вся информация должна быть перед глазами и ясно сформулирована, чтобы инженеру не приходилось тратить время на поиски или расшифровывание пунктов инструкции.
Для удобства дежурных инженеров каждое уведомление можно сопроводить всплывающей подсказкой с контактами ответственного лица и инструкцией. Регламенты же прописываются заранее и проверяются на жизнеспособность во время плановых тестирований.
Не заставляйте дежурного инженера придумывать план действий с нуля, когда в дата-центре авария.
Оповещение по email и смс
Вещь полезная при правильном использовании. Для небольших серверных такие оповещения могу заменить круглосуточного дежурного инженера. В большом дата-центре это своего рода резервирование дежурного инженера. Но и здесь важно не перестараться и не рассылать уведомления ответственным лицам по любому чиху.
Если будет много оповещений по некритичным ошибкам (выше мы называли их warning), то со временем их просто начнут игнорировать, и серьезная авария останется незамеченной.
Сбор статистики
Помимо онлайн-мониторинга, полезно собирать и долгосрочную статистику. Это позволит оценить параметры в динамике, выявить значения, приводящие к аварийным ситуациям. С этой статистикой можно делать выводы по работе оборудования при различной нагрузке, разных погодных условиях. Эта же информация потом используется для разбора полетов после аварий.
Это все моменты, которые мы хотели бы отметить отдельно, прежде чем пускаться в рассказы про мониторинг конкретных инженерных систем. В следующей статье разберем, что и как нужно мониторить в системе энергоснабжения дата-центра и серверной.
Всё под контролем. Зачем нужны системы мониторинга инженерной инфраструктуры центров обработки данных
Я ведущий инженер компании «ЛАНИТ-Интеграция». Работаю здесь больше 20 лет. Последние семь лет занимаюсь инженерным обеспечением ЦОДов: устанавливаю и запускаю оборудование в работу.
С каждым годом появляется всё больше требований к надежности и удобству использования дата-центров. Однако этого нельзя добиться, если сосредоточиться только на резервных копиях систем и качестве отдельных элементов. На рынке понимают эту простую мысль, поэтому компании всё чаще внедряют единую систему мониторинга. Если коротко, она следит за инженерной инфраструктурой ЦОД и помогает избежать аварийных ситуаций.
В статье я расскажу о готовых программно-аппаратных решениях мониторинга, которые мы с коллегами используем в проектах.
Источник
Для начала расскажу о том, из чего состоит основа центра обработки данных. Её разделяют на три составляющих.
Для уверенности, что все системы работают в штатном режиме, нужен постоянный контроль, который и даёт мониторинг.
Мониторинг помогает инженерам, обслуживающим ЦОД, комфортнее работать. Без него специалисты должны либо жить и трудиться всё время рядом со шкафами, либо выходить из кабинета и бежать к ним каждый раз, когда возникла какая-то проблема или есть подозрения, что она может случиться.
Мониторинг в реальном времени показывает, как работает инфраструктура ЦОД. За показателями, как правило, следит дежурная смена. При возникновении отклонения или нештатной ситуации сотрудники дежурной смены могут вовремя предотвратить критическую ситуацию или же свести её последствия к минимуму. Также система мониторинга собирает данные о параметрах, статусе оборудования, следит за сроками сервисного обслуживания, наработанными часами и т.д.
Что именно контролирует система мониторинга и какие задачи решает?
Защита от людей
К сожалению, статистика говорит, что множество аварийных ситуаций с техникой возникает по вине человека. Именно поэтому мониторинг в том числе следит не только за параметрами, но и за теми, кто имеет доступ к ЦОД и кто/что в нем делает.
Существует множество различных систем, так или иначе позволяющих контролировать параметры и работу различных типов оборудования — мониторинг IT-систем, мониторинг СКС/ЛВС, мониторинг инженерных систем и т.д.
По типу реализации системы делятся на программные, аппаратные и гибридные решения.
По уровню контроля системы мониторинга делятся на распределенные и централизованные.
Распределенные системы позволяют отслеживать состояние одного или нескольких однотипных устройств.
Централизованные системы дают возможность объединить всё контролируемое оборудование, в том числе и несколько распределенных систем, в единую систему, позволяющую наблюдать за работой всего оборудования в «одном окне».
Из чего состоит
Уже много лет мы с коллегами работаем с системой мониторинга NetBotz и системой управления инфраструктурой ЦОД StruxureWare Data center Expert от APC by Schneider Electric. У нашей команды есть партнёрская сертификация направления DCIM.
У большинства производителей инженерного оборудования существуют комплексные решения. С их помощью можно создать инженерную инфраструктуру ЦОД «под ключ» и собрать систему мониторинга «из кубиков».
Предсказуемо, что главная проблема таких систем — это подключение оборудования сторонних производителей. Бывает, что такие системы поддерживают некоторые типы и модели оборудования сторонних производителей, но для корректного подключения и отображения параметров очень часто требуются дополнительные действия и время.
Например для подключения устройств других брендов, подключаемых по протоколу MODBUS к системе Data center Expert от APC, не входящих в список поддерживаемого, приходиться обращаться в службу поддержки. При этом нужно предоставить технические данные на подключаемое оборудование, заполнить несколько форм и подождать около месяца. Своими силами это сделать практически невозможно.
Установка и настройка
От теории к практике. Первую систему мониторинга мы установили в 2010 году. Всего мы реализовали более 15 систем мониторинга ЦОД. С одной стороны, работа каждый раз одинакова, с другой стороны, у каждого заказчика свои условия и требования, поэтому каждый проект запоминается чем-то своим. Ниже я расскажу о самых интересных проектах за последние несколько лет.
НИС ГЛОНАСС
Два центра обработки данных находились в Москве и в Санкт-Петербурге. Их связали единой системой мониторинга инженерной инфраструктуры. В этом проекте впервые пришлось разделять права пользователей для доступа к группам устройств. Как это? Специалисты из Москвы контролировали все устройства в обоих ЦОД, а специалисты в Санкт-Петербурге контролировали только свою часть оборудования.
Проект для металлургического комбината
Нашей команде впервые пришлось «прикручивать» к системе мониторинга StruxureWare Data center Expert оборудование сторонних производителей, дизель-генераторную установку, щит автоматики и щит управления системой кондиционирования. Не обошлось без помощи западных специалистов службы поддержки производителя системы мониторинга. Они за месяц написали драйверы для нужных нам устройств.
Научно-исследовательское подразделение госкорпорации
Здесь помимо стандартного решения мы впервые реализовали мониторинг щита вводного распределительного устройства с автоматическими рубильниками, управляемого программируемым реле ZelioLogic, щита распределения питания с контролем состояния автоматических выключателей на контроллере Acti-9 SmartLink и счетчиков электроэнергии PowerLogic от компании Schneider Electric.
Технопарк
Мы впервые в стране реализовывали системы мониторинга и системы управления инфраструктурой ЦОД с применением 190 беспроводных датчиков температуры и влажности, расположенными в 6 машинных залах и 4 аппаратных.
Относительно скоро стартует ещё один крупный проект. Для нас это будет новый опыт. Предстоит внедрять системы мониторинга RAMOS и систему управления инфраструктурой ЦОД Aegis DCIM (чешский производитель CONTEG). Возможно, снова появится повод, о чём вам рассказать.