| Parte III: Monitorizando al Gestor |
|
|
|
| Written by dvazquez |
| Wednesday, 28 November 2007 00:00 |
|
Muchas ocasiones como administradores OpenView nos encontramos y nos preguntamos... ¿Y si mi sistemas de monitorización caen?, es decir, ¿Y si mi gestor OVO falla?, ¿Que tiempo de reacción tengo? ¿Como puedo ser proactivo y detectar posibles problemas en el gestor a tiempo? ¿Que medidas debo tomar si mi Gestor de monitorización deja de ser estable? Son muchas preguntas, muchas cuestiones que pueden ser críticas en cualquiera de nuestros entornos de monitorización. En este apartado intentaremos orientar las respuestas a la mayoría de estas problemáticas. Aunque, como siempre, las soluciones que aquí se presentan, son propuestas, que seguramente en muchos casos no serán fácilmente implementables. Estas son las razones por las que cada administrador debe plantearse este problema como un reto al que aportar una solución, porque nuestros sistemas de gestión de la monitorización, son en la mayoría de los casos entornos demasiado críticos como para que ignoremos o pasemos por alto estos retos. Monitorización de Procesos del Gestor desde SO En este apartado proponemos una manera eficaz y rápida de tener monitorizado nuestro servidor (manager) OpenView Operations y NNM. En primer lugar, como administradores OVO nos debemos preguntar que procesos o que aplicaciones, que intervengan en nuestra plataforma de monitorización HP OpenView, queremos vigilar/monitorizar. Nosotros hacemos una propuesta a tres niveles: 1. Monitorización de procesos del Manager 2. Monitorización de procesos del Agente OVO en el Manager 3. Monitorización de procesos NNM (Network Node Manager) Para monitorizar estos procesos podemos diseñar un único script o tres script independientes. En este caso, nos centraremos en hacer scripts independientes. En este punto la cuestión es como integrar estos scripts en la monitorización de nuestro Manager, se nos plantean dos opciones: 1. La primera opción consiste en crear un job en el crontab de nuestro servidor Unix de monitorización, esta opción es más clásica pero en este caso muy fiable y eficaz. 2. La segunda opción es crear una plantilla en nuestro manager OpenView de tipo 'Schedule', en esta política podemos especificar los mismos parámetros de ejecución que en el caso del crontab de unix. Nuestra propuesta es la segunda opción, porque sabemos que si nuestro manager OpenView no está funcionando correctamente, está caído, o tiene problemas con la ejecución de las tareas programadas, la deteccción de problemas se ralentizará demasiado, y nuestro tiempo de reacción como administradores OVO no será el suficiente como para garantizar una disponibilidad adecuada. La propuesta consiste en enviar correo electrónico mediante 'mailx -s' cuando el script detecte alguna problemática en el Gestor. En cualquier caso, podemos combinar la segunda opción de monitorización vía jobs en el crontab y correos, con el envío de alarmas mediante 'opcmsg' a la consola de monitorización, con los procesos o los problemas que hayan detectado nuestros shell script. En este caso, sería necesario distribuir al Gestor (manager) una política 'opcmsg' que capture estas alarmas. Lo que si advertimos es que esta propuesta es abierta y cada administrador OVO debe determinar que solución se adpta mejor a sus necesidades, o las necesidades de sus clientes. Monitorización de procesos del Manager La clave que presentamos, es monitorizar el estado de los procesos de nuestro propio Manager. Para monitorizar el estado de los procesos del Manager vamos a utilizar un comando muy común para cualquier administrador HP OpenView Operations, este comando es el 'opcsv -status'. No nos vamos a extender en este apartado con la explicación del funcionamiento de cada uno de los procesos que intervienen en un Gestor OVO. Esto lo dejaremos para próximos capítulos. Pongamos un ejemplo: #opcsv -status <manager_name> HA resource group is Online OVO Management Server status: ----------------------------- Control Manager opcctlm (29730) is running Action Manager opcactm (29738) is running Message Manager opcmsgm (29739) is running TT & Notify Mgr opcttnsm (29740) is running Forward Manager opcforwm (29741) is running Service Engine opcsvcm (29746) is running Cert. Srv Adapter opccsad (29744) is running BBC config adapter opcbbcdist (29745) is running Display Manager opcdispm (29742) is running Distrib. Manager opcdistm (29743) is running Open Agent Management status: ----------------------------- Request Sender ovoareqsdr (29724) is running Request Handler ovoareqhdlr (29731) is running Message Receiver (HTTPS) opcmsgrb (29732) is running Message Receiver (DCE) opcmsgrd (29733) is running OV Control Core components status: ---------------------------------- OV Control ovcd (6032) is running OV Communication Broker ovbbccb (16887) is running OV Certificate Server ovcs (6363) is running De esta manera el administrador OVO tiene visibilidad de los procesos del Gestor que están levantados, y visibilidad de procesos que puedan tener problemas en un momento determinado. En este punto sólo nos quedaría definir la estructura del script y los procesos críticos que queremos monitorizar en nuestro Gestor OVO. Los procesos que proponemos monitorizar son: Procesos del Manager opcctlm -> Control Manager opcactm -> Action Manager opcmsgm -> Message Manager opcttnsm -> TT & Notify Mgr opcforwm -> Forward Manager opcsvcm -> Service Engine opccsad -> Cert. Srv Adapter opcbbcdist -> BBC config adapter opcdispm -> Display Manager opcdistm -> Distrib. Manager ovoareqsdr -> Request Sender ovoareqhdlr -> Request Handler opcmsgrb -> Message Receiver (HTTPS) opcmsgrd -> Message Receiver (DCE) Procesos del Agente ovcd -> OV Control ovbbccb -> OV Communication Broker ovcs -> OV Certificate Server En este link se puede descargar una propuesta de shell script 'mon_estadoOVO.sh' para monitorizar los procesos del Manager OpenView. Monitorización de procesos del Agente local OVO en el Manager La mayoría de los monitores y tareas programadas en el Gestor son críticos para nuestra plataforma de monitorización. Así que no podemos permitir que alguno de nuestros monitores, logfiles, schedulers... que dan un servicio diario en nuestro Manager, dejen de funcionar. Por esta razón planteamos la necesidad de monitorizar los procesos del OVO Agent local del Manager. Para monitorizar el estado de los procesos del OVO Agent local en el Manager vamos a utilizar un comando muy común para cualquier administrador HP OpenView Operations, este comando es el 'opcagt -status'. No nos vamos a extender en este apartado con la explicación del funcionamiento de cada uno de los procesos que intervienen en un Agente OVO. Esto lo dejaremos para próximos capítulos. Pongamos un ejemplo: #opcagt -status coda OV Performance Core COREXT (6373) Running opcmsga OVO Message Agent AGENT,EA (6381) Running opcacta OVO Action Agent AGENT,EA (6388) Running opcmsgi OVO Message Interceptor AGENT,EA (6390) Running opcle OVO Logfile Encapsulator AGENT,EA (6399) Running opcmona OVO Monitor Agent AGENT,EA (6410) Running opctrapi OVO SNMP Trap Interceptor AGENT,EA (6417) Running De esta manera el administrador OVO tiene visibilidad de los procesos del Agente que están levantados, y visibilidad de procesos que puedan tener problemas en un momento determinado. En este punto sólo nos quedaría definir la estructura del script y los procesos críticos que queremos monitorizar de nuestro Agente OVO en el Gestor. Los procesos que proponemos monitorizar son: opcmsga -> Message Agent opcacta -> Action Agent opcle -> Logfile Encapsulator opcmona -> Monitor Agent opcmsgi -> Message Interceptor coda -> Performance Agent opctrapi -> OVO SNMP Trap Interceptor En este link se puede descargar una propuesta de shell script 'mon_estadoAgente.sh' para monitorizar los procesos del Agente OVO en el Gestor. Monitorización de procesos NNM (Network Node Manager) Es el software HP de gestión destinado a la administración de redes distribuidas. Permite analizar, mediante visualizaciones en formato gráfico e intuitivo, los dispositivos y el estado de la red en todo momento. Accesible desde cualquier punto a través de cónsola Java, permite la realización de una gestión proactiva con análisis de tendencias, informes de gestión, etc... Este software de HP, que convive con nuestro Gestor OVO en la mayoría de nuestras plataformas de monitorización OpenView, también necesita de la monitorización de una serie de procesos críticos que deben funcionar constantemente para garantizar la disponibilidad de nuestro servicio. Para monitorizar el estado de los procesos NNM vamos a utilizar un comando muy común para cualquier administrador HP OpenView Operations, este comando es el 'ovstatus -c'. No nos vamos a extender en este apartado con la explicación del funcionamiento de cada uno de los procesos que intervienen en un NNM. Esto lo dejaremos para próximos capítulos. Pongamos un ejemplo: #ovstatus -c Name PID State Last Message(s) OVsPMD 29683 RUNNING - ovsessionmgr 29684 RUNNING Initialization complete. ovwdb 29685 RUNNING Active. ovuispmd 29717 RUNNING Resumed. 0 ovw clients registered. ovtrapd 29710 RUNNING Initialization complete. ovactiond 29711 RUNNING Initialization complete. pmd 29686 RUNNING Resumed genannosrvr - unknown (Does not communicate with ovspmd.) httpd - unknown (Does not communicate with ovspmd.) ovtopmd 29709 RUNNING Resumed. snmpCollect 29718 RUNNING Resumed. ovas 29723 RUNNING Initialization complete. ovrequestd 29688 RUNNING Initialization complete. ovdbcheck 29713 RUNNING Connected to ODBC datasource: OVoracle. ovalarmsrv 29714 RUNNING Active ovctrl - unknown (Does not communicate with ovspmd.) ovoacomm 29724 RUNNING Open Agent Service Server Initialization Complete. For details about Open Agent Service use 'opcsv'. opc 29730 RUNNING OVO Server Initialization Complete. For details about OVO Manager Processes use 'opcsv'. sunmc_mei - NOT_RUNNING - Exit(0) ICO - unknown (Does not communicate with ovspmd.) netmon 29719 RUNNING Initialization complete. De esta manera el administrador OVO tiene visibilidad de los procesos del NNM que están levantados, y visibilidad de procesos que puedan tener problemas en un momento determinado. En este punto sólo nos quedaría definir la estructura del script y los procesos críticos que queremos monitorizar de nuestro NNM en el Gestor. Los procesos que proponemos monitorizar son: OVsPMD -> NNM process management process netmon -> Discover and monitor nodes on the network opc -> OVO Server Status Initialization ovactiond -> Execute shell command upon receipt of an event ovalarmsrv -> Background process for NNM event subsystem ovoacomm -> Status Open Agent Service Server Initialization ovrequestd -> Run programs based on a schedule ovtopmd -> NNM Topology Manager Process for IP discovery and layout ovtrapd -> Receive and buffer SNMP traps within the NNM event subsystem ovuispmd -> HP OpenView NNM user interface ovwdb -> Background process that maintains the object database pmd -> HP OpenView Postmaster process En este link se puede descargar una propuesta de shell script 'mon_estadoNNM.sh' para monitorizar los procesos del NNM en el Gestor. Recepción de alarmas en la Java Console Para poder capturar la recepción mensajes de tipo 'opcmsg' que se utilizan cada uno de los scripts anteriormente definidos, es necesario distribuir una plantilla de tipo 'Message' al Gestor (manager). En esta plantilla, si seguimos la nomenclatura de los script 'mon_estadoOVO.sh', 'mon_estadoAgente.sh' y 'mon_estadoNNM.sh' debemos definir tres 'Conditions': 1 + estadoOVO (Application=estadoOVO;Message Group=explotacion) 2 + estadoAgente (Application=estadoAgente;Message Group=explotacion) 3 + estadoNNM (Application=estadoNNM;Message Group=explotacion) La planificación en el crontab Unix (cada 10m) 0,10,20,30,40,50 * * * * /opt/OpenView/custom/manager/estadoOVO.sh >/dev/null 2>&1 0,10,20,30,40,50 * * * * /opt/OpenView/custom/manager/estadoAgente.sh >/dev/null 2>&1 0,10,20,30,40,50 * * * * /opt/OpenView/custom/manager/estadoNNM.sh >/dev/null 2>&1 |
| Last Updated ( Wednesday, 28 November 2007 16:41 ) |