Guía de Métricas y Monitoreo de OmniHSS
← Volver a la Guía de Operaciones
Tabla de Contenidos
- Descripción General del Monitoreo
- Monitoreo del Panel de Control
- Monitoreo de la Base de Datos
- Monitoreo de Registros
- Integración de Monitoreo Externo
- Indicadores Clave de Desempeño
- Estrategias de Alertas
Descripción General del Monitoreo
OmniHSS proporciona varios mecanismos para monitorear la salud del sistema, el rendimiento y la actividad de los suscriptores. El personal de operaciones debe utilizar una combinación de estas herramientas para una visibilidad integral.
Capas de Monitoreo
Monitoreo del Panel de Control
El Panel de Control proporciona la interfaz principal de monitoreo en tiempo real.
Monitoreo de la Página de Resumen
URL: https://[hostname]:7443/overview
Métricas Clave Disponibles
Estados de Suscriptores Monitoreados
| Estado | Indicador | Qué Significa |
|---|---|---|
| Inactivo | Sin información de ubicación | Suscriptor apagado o fuera de cobertura |
| Adjunto | MME presente | Suscriptor registrado en la red |
| PDN Activo | Conteo de sesiones PDN > 0 | Conexión de datos activa |
| IMS Registrado | S-CSCF asignado | Servicios de voz listos |
| En Llamada | Conteo de llamadas activas > 0 | Llamada VoLTE en progreso |
Extracción de Métricas del Resumen
Aunque el Panel de Control no exporta métricas directamente, puedes:
- Contar filas visibles para el total de suscriptores
- Buscar marcas de verificación verdes para contar suscriptores habilitados
- Revisar detalles expandibles para información de estado
- Anotar marcas de tiempo de última vista para la capacidad de respuesta
Monitoreo de la Página de Diámetro
URL: https://[hostname]:7443/diameter
Métricas Clave
Monitoreo de Compañeros Críticos
Identifica compañeros críticos y monitorea su estado:
| Tipo de Compañero | Criticidad | Impacto si Está Caído |
|---|---|---|
| MME | Alta | Sin nuevos adjuntos LTE |
| P-GW | Alta | Sin sesiones de datos |
| S-CSCF | Alta | Sin registros IMS |
| P-CSCF | Alta | Sin llamadas VoLTE |
| I-CSCF | Media | Problemas de enrutamiento IMS |
| AS | Baja-Media | Servicio específico no disponible |
Monitoreo de la Página de Aplicaciones
URL: https://[hostname]:7443/application
Métricas Clave
| Métrica | Descripción | Rango Normal | Umbral de Acción |
|---|---|---|---|
| Conteo de Procesos | Procesos Erlang activos | Varía según la carga | > 90% del límite |
| Uso de Memoria | Memoria total consumida | < 80% | > 90% |
| Tiempo de Actividad | Tiempo desde el último reinicio | N/A | Rastrear para estabilidad |
Monitoreo de la Base de Datos
Consultas Directas a la Base de Datos
Conéctate a la Base de Datos SQL para extraer métricas detalladas:
Conteos de Suscriptores
Consulta la base de datos para recuperar:
- Conteo total de todos los suscriptores
- Conteo de suscriptores habilitados
- Conteo de suscriptores habilitados para IMS
Estadísticas de Sesiones
Consulta la base de datos para recuperar:
- Conteo de sesiones PDN activas
- Conteo de llamadas VoLTE activas
- Desglose de sesiones PDN por perfil de APN
Estadísticas de Ubicación
Consulta la base de datos para recuperar:
- Conteo de suscriptores agrupados por red visitada (combinación MCC-MNC)
- Conteo de suscriptores actualmente en roaming (no en PLMN local 001-001)
- Distribución de suscriptores a través de diferentes redes visitadas
Actividad Reciente
Consulta la base de datos para recuperar:
- Conteo de suscriptores vistos en la última hora
- Distribución de suscriptores por MME que sirve
- Análisis de marcas de tiempo de la última actividad del suscriptor
Monitoreo de Salud de la Base de Datos
Monitorea la salud de la base de datos consultando:
- Tamaño total de la base de datos y tendencias de crecimiento
- Tamaños de tablas individuales y conteos de filas
- Conteo actual de conexiones a la base de datos
- Rendimiento de consultas y uso de recursos
Monitoreo de Registros
Salida de Registros
OmniHSS envía registros a stdout/stderr, que deben ser capturados por tu administrador de procesos.
Niveles de Registro
Patrones Clave de Registro a Monitorear
Eventos de Compañeros de Diámetro:
[info] Compañero de Diámetro conectado: mme01.epc.example.com
[warn] Compañero de Diámetro desconectado: pgw01.epc.example.com
[error] Fallo en la conexión del compañero de Diámetro: tiempo de espera
Eventos de Base de Datos:
[info] Conexión a la base de datos establecida
[error] Conexión a la base de datos perdida: tiempo de espera
[error] Consulta a la base de datos fallida: interbloqueo detectado
Eventos de Autenticación:
[info] Autenticación exitosa: IMSI 001001123456789
[warn] Fallo en la autenticación: IMSI 001001123456789, vector inválido
[error] Roaming denegado: IMSI 001001123456789, MCC 310 MNC 410
Agregación de Registros
Para implementaciones en producción, implementa la agregación de registros:
Integración de Monitoreo Externo
Endpoint de Verificación de Salud
Verificación de Salud de API: GET /api/status
curl -k https://hss.example.com:8443/api/status
Respuesta Esperada:
{"status": "ok"}
Estado HTTP: 200 OK
Integración de Herramientas de Monitoreo
Ejemplo de Nagios/Icinga
#!/bin/bash
# check_omnihss.sh
API_URL="https://hss.example.com:8443/api/status"
response=$(curl -k -s -o /dev/null -w "%{http_code}" "$API_URL" --max-time 5)
if [ "$response" = "200" ]; then
echo "OK - API de OmniHSS respondiendo"
exit 0
else
echo "CRÍTICO - API de OmniHSS no respondiendo (HTTP $response)"
exit 2
fi
Integración con Prometheus
Se pueden crear exportadores personalizados para exportar métricas de OmniHSS a Prometheus consultando la API y la base de datos.
Integración SNMP
Para monitoreo basado en SNMP, se pueden crear scripts de extensión SNMP personalizados que consulten la base de datos o la API para métricas y devuelvan valores a través de OIDs SNMP.
Indicadores Clave de Desempeño
KPIs Operacionales
Umbrales de KPI Recomendados
| KPI | Objetivo | Advertencia | Crítico |
|---|---|---|---|
| Tiempo de Actividad del Sistema | 99.99% | < 99.95% | < 99.9% |
| Tiempo de Actividad de Compañeros de Diámetro | 99.9% | < 99.5% | < 99% |
| Tasa de Éxito de Autenticación | > 99% | < 99% | < 95% |
| Tiempo de Respuesta de Diámetro | < 100ms | > 200ms | > 500ms |
| Tiempo de Consulta de Base de Datos | < 50ms | > 100ms | > 500ms |
| Tasa de Errores | < 0.1% | > 0.5% | > 1% |
KPIs de Capacidad
| Métrica | Monitorear | Plan de Acción en |
|---|---|---|
| Total de Suscriptores | Conteo actual | 80% de la capacidad esperada |
| Sesiones PDN Concurrentes | Sesiones activas | 70% del máximo esperado |
| Tamaño de la Base de Datos | MB utilizados | 80% del almacenamiento asignado |
| Conexiones a la Base de Datos | Conexiones activas | 80% del tamaño del grupo |
Estrategias de Alertas
Prioridades de Alertas
Definiciones de Alertas
Alertas Críticas (P1)
Sistema No Disponible:
- La verificación de salud de la API falla
- Panel de Control inaccesible
- Fallo de conexión a la base de datos
- Acción: Investigación y escalamiento inmediato
Todos los Compañeros de Diámetro Desconectados:
- Cero compañeros conectados
- Acción: Verificar red, reiniciar si es necesario
Base de Datos Caída:
- No se puede conectar a la Base de Datos SQL
- Acción: Investigar el servidor de base de datos, reiniciar si es necesario
Alertas de Alta Prioridad (P2)
Compañero Crítico Caído:
- MME principal desconectado
- P-GW principal desconectado
- S-CSCF principal desconectado
- Acción: Investigar conectividad del compañero dentro de 15 minutos
Uso Elevado de Memoria:
- Memoria > 95%
- Acción: Investigar fuga de memoria, planificar reinicio
Alta Tasa de Fallos de Autenticación:
-
10% de las solicitudes de autenticación fallan
- Acción: Verificar aprovisionamiento de suscriptores, investigar causa
Alertas de Prioridad Media (P3)
Compañero No Crítico Caído:
- Compañero secundario desconectado
- Servidor de Aplicaciones desconectado
- Acción: Investigar dentro de 1 hora
Uso Elevado de Memoria:
- Memoria > 85%
- Acción: Monitorear tendencia, planificar actualización de capacidad
Tasa Elevada de Errores:
- Tasa de errores > 1%
- Acción: Revisar registros, identificar causa raíz
Alertas de Baja Prioridad (P4)
Advertencia de Capacidad:
- Suscriptores > 80% de la capacidad
- Base de Datos > 80% del almacenamiento asignado
- Acción: Planificar expansión de capacidad
Degradación del Rendimiento:
- Tiempos de respuesta elevados pero aceptables
- Acción: Monitorear y optimizar consultas
Canales de Notificación de Alertas
Lista de Verificación de Monitoreo
Chequeos Diarios
- Revisar Resumen del Panel de Control - conteos de suscriptores normales
- Revisar página de Diámetro - todos los compañeros críticos conectados
- Revisar página de Aplicaciones - memoria y procesos dentro de límites
- Verificar registros de errores - sin errores críticos en las últimas 24 horas
- Verificar que la copia de seguridad se completó con éxito
Chequeos Semanales
- Revisar tendencias de capacidad - crecimiento de suscriptores
- Revisar tendencias de rendimiento - tiempos de respuesta
- Revisar tamaño de la base de datos - tasa de crecimiento aceptable
- Revisar tasas de errores - identificar patrones
- Probar notificaciones de alertas - asegurar funcionamiento
Chequeos Mensuales
- Revisión de planificación de capacidad - proyectar 6 meses adelante
- Revisión de optimización de rendimiento - identificar consultas lentas
- Revisión de seguridad - expiración de certificados, vulnerabilidades
- Revisión de documentación - actualizar manuales de procedimientos
- Prueba de recuperación ante desastres - verificar que las copias de seguridad se restauren correctamente
← Volver a la Guía de Operaciones | Siguiente: Multi-Features →