Saltar al contenido principal

Guía de Métricas y Monitoreo de OmniHSS

← Volver a la Guía de Operaciones


Tabla de Contenidos


Visión General del Monitoreo

OmniHSS proporciona varios mecanismos para monitorear la salud del sistema, el rendimiento y la actividad de los suscriptores. El personal de operaciones debe utilizar una combinación de estas herramientas para una visibilidad integral.

Capas de Monitoreo


Monitoreo del Panel de Control

El Panel de Control proporciona la interfaz principal de monitoreo en tiempo real.

Monitoreo de la Página de Resumen

URL: https://[hostname]:7443/overview

Métricas Clave Disponibles

Estados de Suscriptores Monitoreados

EstadoIndicadorLo Que Significa
InactivoSin información de ubicaciónSuscriptor apagado o fuera de cobertura
AdjuntoMME presenteSuscriptor registrado en la red
PDN ActivoConteo de sesiones PDN > 0Conexión de datos activa
Registrado en IMSS-CSCF asignadoServicios de voz listos
En LlamadaConteo de llamadas activas > 0Llamada VoLTE en progreso

Extracción de Métricas del Resumen

Aunque el Panel de Control no exporta métricas directamente, puedes:

  1. Contar filas visibles para el total de suscriptores
  2. Buscar marcas de verificación verdes para contar suscriptores habilitados
  3. Revisar detalles ampliados para información de estado
  4. Anotar marcas de tiempo de última vista para la capacidad de respuesta

Monitoreo de la Página de Diameter

URL: https://[hostname]:7443/diameter

Métricas Clave

Monitoreo de Pares Críticos

Identifica pares críticos y monitorea su estado:

Tipo de ParCríticoImpacto si Está Caído
MMEAltoSin nuevos adjuntos LTE
P-GWAltoSin sesiones de datos
S-CSCFAltoSin registros IMS
P-CSCFAltoSin llamadas VoLTE
I-CSCFMedioProblemas de enrutamiento IMS
ASBajo-MedioServicio específico no disponible

Monitoreo de la Página de Aplicación

URL: https://[hostname]:7443/application

Métricas Clave

MétricaDescripciónRango NormalUmbral de Acción
Conteo de ProcesosProcesos Erlang activosVaría según la carga> 90% del límite
Uso de MemoriaMemoria total consumida< 80%> 90%
Tiempo de ActividadTiempo desde el último reinicioN/ASeguimiento para estabilidad

Monitoreo de la Base de Datos

Consultas Directas a la Base de Datos

Conéctate a la Base de Datos SQL para extraer métricas detalladas:

Conteos de Suscriptores

Consulta la base de datos para recuperar:

  • Conteo total de todos los suscriptores
  • Conteo de suscriptores habilitados
  • Conteo de suscriptores habilitados para IMS

Estadísticas de Sesiones

Consulta la base de datos para recuperar:

  • Conteo de sesiones PDN activas
  • Conteo de llamadas VoLTE activas
  • Desglose de sesiones PDN por perfil de APN

Estadísticas de Ubicación

Consulta la base de datos para recuperar:

  • Conteo de suscriptores agrupados por red visitada (combinación MCC-MNC)
  • Conteo de suscriptores actualmente en roaming (no en PLMN local 001-001)
  • Distribución de suscriptores en diferentes redes visitadas

Actividad Reciente

Consulta la base de datos para recuperar:

  • Conteo de suscriptores vistos en la última hora
  • Distribución de suscriptores por MME que sirve
  • Análisis de marcas de tiempo de la última actividad del suscriptor

Monitoreo de Salud de la Base de Datos

Monitorea la salud de la base de datos consultando:

  • Tamaño total de la base de datos y tendencias de crecimiento
  • Tamaños de tablas individuales y conteos de filas
  • Conteo actual de conexiones a la base de datos
  • Rendimiento de consultas y uso de recursos

Monitoreo de Registros

Salida de Registros

OmniHSS envía registros a stdout/stderr, que deben ser capturados por tu gestor de procesos.

Niveles de Registro

Patrones Clave de Registro a Monitorear

Eventos de Pares de Diameter:

[info] Par de Diameter conectado: mme01.epc.example.com
[warn] Par de Diameter desconectado: pgw01.epc.example.com
[error] Fallo de conexión de par de Diameter: tiempo de espera

Eventos de Base de Datos:

[info] Conexión a la base de datos establecida
[error] Conexión a la base de datos perdida: tiempo de espera
[error] Consulta a la base de datos fallida: bloqueo detectado

Eventos de Autenticación:

[info] Autenticación exitosa: IMSI 001001123456789
[warn] Autenticación fallida: IMSI 001001123456789, vector inválido
[error] Roaming denegado: IMSI 001001123456789, MCC 310 MNC 410

Agregación de Registros

Para implementaciones en producción, implementa la agregación de registros:


Integración de Monitoreo Externo

Endpoint de Verificación de Salud

Verificación de Salud de API: GET /api/status

curl -k https://hss.example.com:8443/api/status

Respuesta Esperada:

{"status": "ok"}

Estado HTTP: 200 OK

Integración de Herramientas de Monitoreo

Ejemplo de Nagios/Icinga

#!/bin/bash
# check_omnihss.sh

API_URL="https://hss.example.com:8443/api/status"

response=$(curl -k -s -o /dev/null -w "%{http_code}" "$API_URL" --max-time 5)

if [ "$response" = "200" ]; then
echo "OK - API de OmniHSS respondiendo"
exit 0
else
echo "CRÍTICO - API de OmniHSS no respondiendo (HTTP $response)"
exit 2
fi

Integración con Prometheus

Se pueden crear exportadores personalizados para exportar métricas de OmniHSS a Prometheus consultando la API y la base de datos.

Integración SNMP

Para monitoreo basado en SNMP, se pueden crear scripts de extensión SNMP personalizados que consulten la base de datos o la API para métricas y devuelvan valores a través de OIDs SNMP.


Indicadores Clave de Rendimiento

KPIs Operativos

Umbrales Recomendados para KPIs

KPIObjetivoAdvertenciaCrítico
Tiempo de Actividad del Sistema99.99%< 99.95%< 99.9%
Tiempo de Actividad de Pares de Diameter99.9%< 99.5%< 99%
Tasa de Éxito de Autenticación> 99%< 99%< 95%
Tiempo de Respuesta de Diameter< 100ms> 200ms> 500ms
Tiempo de Consulta de Base de Datos< 50ms> 100ms> 500ms
Tasa de Errores< 0.1%> 0.5%> 1%

KPIs de Capacidad

MétricaMonitorearPlanificar Acción En
Total de SuscriptoresConteo actual80% de la capacidad esperada
Sesiones PDN ConcurrentesSesiones activas70% del máximo esperado
Tamaño de la Base de DatosMB utilizados80% del almacenamiento asignado
Conexiones a la Base de DatosConexiones activas80% del tamaño del grupo

Estrategias de Alerta

Prioridades de Alerta

Definiciones de Alerta

Alertas Críticas (P1)

Sistema No Disponible:

  • La verificación de salud de la API falla
  • Panel de Control inaccesible
  • Falla de conexión a la base de datos
  • Acción: Investigación y escalamiento inmediato

Todos los Pares de Diameter Desconectados:

  • Cero pares conectados
  • Acción: Verificar red, reiniciar si es necesario

Base de Datos Caída:

  • No se puede conectar a la Base de Datos SQL
  • Acción: Investigar el servidor de base de datos, reiniciar si es necesario

Alertas de Alta Prioridad (P2)

Par Crítico de Diameter Caído:

  • MME primario desconectado
  • P-GW primario desconectado
  • S-CSCF primario desconectado
  • Acción: Investigar conectividad de pares dentro de 15 minutos

Uso Elevado de Memoria:

  • Memoria > 95%
  • Acción: Investigar fuga de memoria, planificar reinicio

Alta Tasa de Fallos de Autenticación:

  • 10% de las solicitudes de autenticación fallan

  • Acción: Verificar aprovisionamiento de suscriptores, investigar causa

Alertas de Prioridad Media (P3)

Par No Crítico Caído:

  • Par secundario desconectado
  • Servidor de Aplicaciones desconectado
  • Acción: Investigar dentro de 1 hora

Uso Elevado de Memoria:

  • Memoria > 85%
  • Acción: Monitorear tendencia, planificar actualización de capacidad

Tasa Elevada de Errores:

  • Tasa de errores > 1%
  • Acción: Revisar registros, identificar causa raíz

Alertas de Baja Prioridad (P4)

Advertencia de Capacidad:

  • Suscriptores > 80% de la capacidad
  • Base de Datos > 80% del almacenamiento asignado
  • Acción: Planificar expansión de capacidad

Degradación del Rendimiento:

  • Tiempos de respuesta elevados pero aceptables
  • Acción: Monitorear y optimizar consultas

Canales de Notificación de Alertas


Lista de Verificación de Monitoreo

Chequeos Diarios

  • Revisar Resumen del Panel de Control - conteos de suscriptores normales
  • Revisar página de Diameter - todos los pares críticos conectados
  • Revisar página de Aplicación - memoria y procesos dentro de límites
  • Verificar registros de errores - sin errores críticos en las últimas 24 horas
  • Verificar que la copia de seguridad se completó con éxito

Chequeos Semanales

  • Revisar tendencias de capacidad - crecimiento de suscriptores
  • Revisar tendencias de rendimiento - tiempos de respuesta
  • Revisar tamaño de la base de datos - tasa de crecimiento aceptable
  • Revisar tasas de error - identificar patrones
  • Probar notificaciones de alerta - asegurar funcionamiento

Chequeos Mensuales

  • Revisión de planificación de capacidad - proyectar 6 meses adelante
  • Revisión de optimización de rendimiento - identificar consultas lentas
  • Revisión de seguridad - expiración de certificados, vulnerabilidades
  • Revisión de documentación - actualizar manuales
  • Prueba de recuperación ante desastres - verificar que las copias de seguridad se restauren correctamente

← Volver a la Guía de Operaciones | Siguiente: Múltiples Funciones →