Guía de Métricas y Monitoreo de OmniHSS
← Volver a la Guía de Operaciones
Tabla de Contenidos
- Visión General del Monitoreo
- Monitoreo del Panel de Control
- Monitoreo de la Base de Datos
- Monitoreo de Registros
- Integración de Monitoreo Externo
- Indicadores Clave de Rendimiento
- Estrategias de Alerta
Visión General del Monitoreo
OmniHSS proporciona varios mecanismos para monitorear la salud del sistema, el rendimiento y la actividad de los suscriptores. El personal de operaciones debe utilizar una combinación de estas herramientas para una visibilidad integral.
Capas de Monitoreo
Monitoreo del Panel de Control
El Panel de Control proporciona la interfaz principal de monitoreo en tiempo real.
Monitoreo de la Página de Resumen
URL: https://[hostname]:7443/overview
Métricas Clave Disponibles
Estados de Suscriptores Monitoreados
| Estado | Indicador | Lo Que Significa |
|---|---|---|
| Inactivo | Sin información de ubicación | Suscriptor apagado o fuera de cobertura |
| Adjunto | MME presente | Suscriptor registrado en la red |
| PDN Activo | Conteo de sesiones PDN > 0 | Conexión de datos activa |
| Registrado en IMS | S-CSCF asignado | Servicios de voz listos |
| En Llamada | Conteo de llamadas activas > 0 | Llamada VoLTE en progreso |
Extracción de Métricas del Resumen
Aunque el Panel de Control no exporta métricas directamente, puedes:
- Contar filas visibles para el total de suscriptores
- Buscar marcas de verificación verdes para contar suscriptores habilitados
- Revisar detalles ampliados para información de estado
- Anotar marcas de tiempo de última vista para la capacidad de respuesta
Monitoreo de la Página de Diameter
URL: https://[hostname]:7443/diameter
Métricas Clave
Monitoreo de Pares Críticos
Identifica pares críticos y monitorea su estado:
| Tipo de Par | Crítico | Impacto si Está Caído |
|---|---|---|
| MME | Alto | Sin nuevos adjuntos LTE |
| P-GW | Alto | Sin sesiones de datos |
| S-CSCF | Alto | Sin registros IMS |
| P-CSCF | Alto | Sin llamadas VoLTE |
| I-CSCF | Medio | Problemas de enrutamiento IMS |
| AS | Bajo-Medio | Servicio específico no disponible |
Monitoreo de la Página de Aplicación
URL: https://[hostname]:7443/application
Métricas Clave
| Métrica | Descripción | Rango Normal | Umbral de Acción |
|---|---|---|---|
| Conteo de Procesos | Procesos Erlang activos | Varía según la carga | > 90% del límite |
| Uso de Memoria | Memoria total consumida | < 80% | > 90% |
| Tiempo de Actividad | Tiempo desde el último reinicio | N/A | Seguimiento para estabilidad |
Monitoreo de la Base de Datos
Consultas Directas a la Base de Datos
Conéctate a la Base de Datos SQL para extraer métricas detalladas:
Conteos de Suscriptores
Consulta la base de datos para recuperar:
- Conteo total de todos los suscriptores
- Conteo de suscriptores habilitados
- Conteo de suscriptores habilitados para IMS
Estadísticas de Sesiones
Consulta la base de datos para recuperar:
- Conteo de sesiones PDN activas
- Conteo de llamadas VoLTE activas
- Desglose de sesiones PDN por perfil de APN
Estadísticas de Ubicación
Consulta la base de datos para recuperar:
- Conteo de suscriptores agrupados por red visitada (combinación MCC-MNC)
- Conteo de suscriptores actualmente en roaming (no en PLMN local 001-001)
- Distribución de suscriptores en diferentes redes visitadas
Actividad Reciente
Consulta la base de datos para recuperar:
- Conteo de suscriptores vistos en la última hora
- Distribución de suscriptores por MME que sirve
- Análisis de marcas de tiempo de la última actividad del suscriptor
Monitoreo de Salud de la Base de Datos
Monitorea la salud de la base de datos consultando:
- Tamaño total de la base de datos y tendencias de crecimiento
- Tamaños de tablas individuales y conteos de filas
- Conteo actual de conexiones a la base de datos
- Rendimiento de consultas y uso de recursos
Monitoreo de Registros
Salida de Registros
OmniHSS envía registros a stdout/stderr, que deben ser capturados por tu gestor de procesos.
Niveles de Registro
Patrones Clave de Registro a Monitorear
Eventos de Pares de Diameter:
[info] Par de Diameter conectado: mme01.epc.example.com
[warn] Par de Diameter desconectado: pgw01.epc.example.com
[error] Fallo de conexión de par de Diameter: tiempo de espera
Eventos de Base de Datos:
[info] Conexión a la base de datos establecida
[error] Conexión a la base de datos perdida: tiempo de espera
[error] Consulta a la base de datos fallida: bloqueo detectado
Eventos de Autenticación:
[info] Autenticación exitosa: IMSI 001001123456789
[warn] Autenticación fallida: IMSI 001001123456789, vector inválido
[error] Roaming denegado: IMSI 001001123456789, MCC 310 MNC 410
Agregación de Registros
Para implementaciones en producción, implementa la agregación de registros:
Integración de Monitoreo Externo
Endpoint de Verificación de Salud
Verificación de Salud de API: GET /api/status
curl -k https://hss.example.com:8443/api/status
Respuesta Esperada:
{"status": "ok"}
Estado HTTP: 200 OK
Integración de Herramientas de Monitoreo
Ejemplo de Nagios/Icinga
#!/bin/bash
# check_omnihss.sh
API_URL="https://hss.example.com:8443/api/status"
response=$(curl -k -s -o /dev/null -w "%{http_code}" "$API_URL" --max-time 5)
if [ "$response" = "200" ]; then
echo "OK - API de OmniHSS respondiendo"
exit 0
else
echo "CRÍTICO - API de OmniHSS no respondiendo (HTTP $response)"
exit 2
fi
Integración con Prometheus
Se pueden crear exportadores personalizados para exportar métricas de OmniHSS a Prometheus consultando la API y la base de datos.
Integración SNMP
Para monitoreo basado en SNMP, se pueden crear scripts de extensión SNMP personalizados que consulten la base de datos o la API para métricas y devuelvan valores a través de OIDs SNMP.
Indicadores Clave de Rendimiento
KPIs Operativos
Umbrales Recomendados para KPIs
| KPI | Objetivo | Advertencia | Crítico |
|---|---|---|---|
| Tiempo de Actividad del Sistema | 99.99% | < 99.95% | < 99.9% |
| Tiempo de Actividad de Pares de Diameter | 99.9% | < 99.5% | < 99% |
| Tasa de Éxito de Autenticación | > 99% | < 99% | < 95% |
| Tiempo de Respuesta de Diameter | < 100ms | > 200ms | > 500ms |
| Tiempo de Consulta de Base de Datos | < 50ms | > 100ms | > 500ms |
| Tasa de Errores | < 0.1% | > 0.5% | > 1% |
KPIs de Capacidad
| Métrica | Monitorear | Planificar Acción En |
|---|---|---|
| Total de Suscriptores | Conteo actual | 80% de la capacidad esperada |
| Sesiones PDN Concurrentes | Sesiones activas | 70% del máximo esperado |
| Tamaño de la Base de Datos | MB utilizados | 80% del almacenamiento asignado |
| Conexiones a la Base de Datos | Conexiones activas | 80% del tamaño del grupo |
Estrategias de Alerta
Prioridades de Alerta
Definiciones de Alerta
Alertas Críticas (P1)
Sistema No Disponible:
- La verificación de salud de la API falla
- Panel de Control inaccesible
- Falla de conexión a la base de datos
- Acción: Investigación y escalamiento inmediato
Todos los Pares de Diameter Desconectados:
- Cero pares conectados
- Acción: Verificar red, reiniciar si es necesario
Base de Datos Caída:
- No se puede conectar a la Base de Datos SQL
- Acción: Investigar el servidor de base de datos, reiniciar si es necesario
Alertas de Alta Prioridad (P2)
Par Crítico de Diameter Caído:
- MME primario desconectado
- P-GW primario desconectado
- S-CSCF primario desconectado
- Acción: Investigar conectividad de pares dentro de 15 minutos
Uso Elevado de Memoria:
- Memoria > 95%
- Acción: Investigar fuga de memoria, planificar reinicio
Alta Tasa de Fallos de Autenticación:
-
10% de las solicitudes de autenticación fallan
- Acción: Verificar aprovisionamiento de suscriptores, investigar causa
Alertas de Prioridad Media (P3)
Par No Crítico Caído:
- Par secundario desconectado
- Servidor de Aplicaciones desconectado
- Acción: Investigar dentro de 1 hora
Uso Elevado de Memoria:
- Memoria > 85%
- Acción: Monitorear tendencia, planificar actualización de capacidad
Tasa Elevada de Errores:
- Tasa de errores > 1%
- Acción: Revisar registros, identificar causa raíz
Alertas de Baja Prioridad (P4)
Advertencia de Capacidad:
- Suscriptores > 80% de la capacidad
- Base de Datos > 80% del almacenamiento asignado
- Acción: Planificar expansión de capacidad
Degradación del Rendimiento:
- Tiempos de respuesta elevados pero aceptables
- Acción: Monitorear y optimizar consultas
Canales de Notificación de Alertas
Lista de Verificación de Monitoreo
Chequeos Diarios
- Revisar Resumen del Panel de Control - conteos de suscriptores normales
- Revisar página de Diameter - todos los pares críticos conectados
- Revisar página de Aplicación - memoria y procesos dentro de límites
- Verificar registros de errores - sin errores críticos en las últimas 24 horas
- Verificar que la copia de seguridad se completó con éxito
Chequeos Semanales
- Revisar tendencias de capacidad - crecimiento de suscriptores
- Revisar tendencias de rendimiento - tiempos de respuesta
- Revisar tamaño de la base de datos - tasa de crecimiento aceptable
- Revisar tasas de error - identificar patrones
- Probar notificaciones de alerta - asegurar funcionamiento
Chequeos Mensuales
- Revisión de planificación de capacidad - proyectar 6 meses adelante
- Revisión de optimización de rendimiento - identificar consultas lentas
- Revisión de seguridad - expiración de certificados, vulnerabilidades
- Revisión de documentación - actualizar manuales
- Prueba de recuperación ante desastres - verificar que las copias de seguridad se restauren correctamente
← Volver a la Guía de Operaciones | Siguiente: Múltiples Funciones →