ПАО «РОСТЕЛЕКОМ»
Настройка системы мониторинга инфраструктуры и Единой системы электронного документооборота (ЕСЭД) Ростелеком на базе ECM Documentum
Июнь 2012 - Декабрь 2012
О проекте
Контроль ресурсов и работоспособности инфраструктуры, сервисов и компонент платформы Documentum, параметров работы ЕСЭД.
История запуска проекта
После создания ЕСЭД и внедрения системы в пилотной зоне, планировалось подключение к ЕСЭД макрорегиональных филиалов компании и параллельное масштабирование системы на все филиалы и офисы компании Ростелеком. Кратный неуправляемый рост нагрузки на систему мог парализовать ее работу и вызвать задержки и сбои процессов управления.

Для быстрого сбора и анализа показателей работы ЕСЭД требовался удобный инструмент мониторинга, который позволил бы своевременно определять узкие места в работе системы, серверов, сетевой инфраструктуры.
Цели проекта
  • 1
    Внедрение системы мониторинга, которая позволит при сбоях в работе ЕСЭД максимально быстро заметить проблему, определить причину/место её возникновения, и принять меры, минимизировав время нормализации работы системы.
Техническое решение
Система мониторинга Opsview Community версии, основанная на ПО Nagios. Плагины, собирающие данные по работе ОС, Documentum. Работа по стандартным сетевым протоколам HTTP, SNMP.
Результаты проекта
  • Поэтапное стабильное тиражирование ЕСЭД на все филиалы и офисы Ростелеком
  • Контроль и управление ростом нагрузки на всех ресурсах системы: утилизация CPU на серверах приложений / баз данных, количество сессий на серверах приложений и контент-сервере, утилизация оперативной памяти и дисковых массивах.
  • Анализ метрик, собранных системой мониторинга, своевременное реагирование на проблемные точки в работе системы: внесение изменений в программный код системы, изменение параметров работы платформы, наращивание мощностей серверов, увеличение количества серверов продуктивного стенда.
  • Внедрение инструмента для службы технической поддержки, позволяющего:
    • оперативно оценить общее состояние системы на текущий момент: нагрузка, доступность, наличие проблем
    • оперативно реагировать на возникающие проблемы, в некоторых случаях, предупреждая появление инцидентов от пользователей
    • анализировать данные, собранные за длительный период, с целью выявления трендов и зависимостей

Количественные характеристики
  • > 50
    контролируемых метрик работы серверов, ОС, платформы, информационной системы
  • 4-х
    кратное увеличение объема документов за первый год работы
  • 20 000
    одновременно работающих пользователей - зафиксированная пиковая нагрузка
Выводы
Внедрение системы мониторинга позволило
обеспечить тиражирование ЕСЭД на все филиалы и офисы компании без сбоев, плавно увеличивая нагрузку и устраняя узкие места в оборудовании, каналах связи, платформе и самой системе. Система мониторинга также стала незаменимым инструментом для службы технической поддержки, давая широкий набор возможностей в ежедневной работе специалистов службы:
  • Настройка расписания: период выполнения проаверок, интервал между проверками.
  • Настройка правил определения наступления аварийного состояния.
  • Настройка действий при наступлении аварийного состояния: количество и интервал повторных проверок, список автоматических действий, рассылка уведомлений.
  • Проверка параметров инфраструктуры: работоспособность серверов, доступность дисковых ресурсов, оперативной памяти и прочее.
  • Проверка параметров ЕСЭД: работоспособность сервисов JVM, Content Serverа-а, сервера приложений, закгрузкаа очереди заданий, зависшие задания и прочие.
  • Панель мониторинга проверяемых параметров, отчеты, статистика, графики.
  • Уведомления администраторам по различным каналам связи.
В первый год после тиражирования системы на всю компанию, служба технической поддержки Ростелеком столкнулась с резким скачком нагрузки на систему в конце года. Интенсивность работы пользователей и рост транзакций возрос в 1,5 раза. К этому привел как возросший объем документов закрывающего цикла календарного года, так и рост скорости обработки документов в этот период. Система мониторинга своевременно проинформировала администраторов о нарастающих проблемах, что позволило предотвратить коллапс в критичный для финансовых результатов период работы компании.
Олег Пашинин, директор Практики ECM