Saltar al contenido principal

Guía de Métricas y Monitoreo de OmniHSS

← Volver a la Guía de Operaciones


Tabla de Contenidos


Descripción General del Monitoreo

OmniHSS proporciona varios mecanismos para monitorear la salud del sistema, el rendimiento y la actividad de los suscriptores. El personal de operaciones debe utilizar una combinación de estas herramientas para una visibilidad integral.

Capas de Monitoreo


Monitoreo del Panel de Control

El Panel de Control proporciona la interfaz principal de monitoreo en tiempo real.

Monitoreo de la Página de Resumen

URL: https://[hostname]:7443/overview

Métricas Clave Disponibles

Estados de Suscriptores Monitoreados

EstadoIndicadorQué Significa
InactivoSin información de ubicaciónSuscriptor apagado o fuera de cobertura
AdjuntoMME presenteSuscriptor registrado en la red
PDN ActivoConteo de sesiones PDN > 0Conexión de datos activa
IMS RegistradoS-CSCF asignadoServicios de voz listos
En LlamadaConteo de llamadas activas > 0Llamada VoLTE en progreso

Extracción de Métricas del Resumen

Aunque el Panel de Control no exporta métricas directamente, puedes:

  1. Contar filas visibles para el total de suscriptores
  2. Buscar marcas de verificación verdes para contar suscriptores habilitados
  3. Revisar detalles expandibles para información de estado
  4. Anotar marcas de tiempo de última vista para la capacidad de respuesta

Monitoreo de la Página de Diámetro

URL: https://[hostname]:7443/diameter

Métricas Clave

Monitoreo de Compañeros Críticos

Identifica compañeros críticos y monitorea su estado:

Tipo de CompañeroCriticidadImpacto si Está Caído
MMEAltaSin nuevos adjuntos LTE
P-GWAltaSin sesiones de datos
S-CSCFAltaSin registros IMS
P-CSCFAltaSin llamadas VoLTE
I-CSCFMediaProblemas de enrutamiento IMS
ASBaja-MediaServicio específico no disponible

Monitoreo de la Página de Aplicaciones

URL: https://[hostname]:7443/application

Métricas Clave

MétricaDescripciónRango NormalUmbral de Acción
Conteo de ProcesosProcesos Erlang activosVaría según la carga> 90% del límite
Uso de MemoriaMemoria total consumida< 80%> 90%
Tiempo de ActividadTiempo desde el último reinicioN/ARastrear para estabilidad

Monitoreo de la Base de Datos

Consultas Directas a la Base de Datos

Conéctate a la Base de Datos SQL para extraer métricas detalladas:

Conteos de Suscriptores

Consulta la base de datos para recuperar:

  • Conteo total de todos los suscriptores
  • Conteo de suscriptores habilitados
  • Conteo de suscriptores habilitados para IMS

Estadísticas de Sesiones

Consulta la base de datos para recuperar:

  • Conteo de sesiones PDN activas
  • Conteo de llamadas VoLTE activas
  • Desglose de sesiones PDN por perfil de APN

Estadísticas de Ubicación

Consulta la base de datos para recuperar:

  • Conteo de suscriptores agrupados por red visitada (combinación MCC-MNC)
  • Conteo de suscriptores actualmente en roaming (no en PLMN local 001-001)
  • Distribución de suscriptores a través de diferentes redes visitadas

Actividad Reciente

Consulta la base de datos para recuperar:

  • Conteo de suscriptores vistos en la última hora
  • Distribución de suscriptores por MME que sirve
  • Análisis de marcas de tiempo de la última actividad del suscriptor

Monitoreo de Salud de la Base de Datos

Monitorea la salud de la base de datos consultando:

  • Tamaño total de la base de datos y tendencias de crecimiento
  • Tamaños de tablas individuales y conteos de filas
  • Conteo actual de conexiones a la base de datos
  • Rendimiento de consultas y uso de recursos

Monitoreo de Registros

Salida de Registros

OmniHSS envía registros a stdout/stderr, que deben ser capturados por tu administrador de procesos.

Niveles de Registro

Patrones Clave de Registro a Monitorear

Eventos de Compañeros de Diámetro:

[info] Compañero de Diámetro conectado: mme01.epc.example.com
[warn] Compañero de Diámetro desconectado: pgw01.epc.example.com
[error] Fallo en la conexión del compañero de Diámetro: tiempo de espera

Eventos de Base de Datos:

[info] Conexión a la base de datos establecida
[error] Conexión a la base de datos perdida: tiempo de espera
[error] Consulta a la base de datos fallida: interbloqueo detectado

Eventos de Autenticación:

[info] Autenticación exitosa: IMSI 001001123456789
[warn] Fallo en la autenticación: IMSI 001001123456789, vector inválido
[error] Roaming denegado: IMSI 001001123456789, MCC 310 MNC 410

Agregación de Registros

Para implementaciones en producción, implementa la agregación de registros:


Integración de Monitoreo Externo

Endpoint de Verificación de Salud

Verificación de Salud de API: GET /api/status

curl -k https://hss.example.com:8443/api/status

Respuesta Esperada:

{"status": "ok"}

Estado HTTP: 200 OK

Integración de Herramientas de Monitoreo

Ejemplo de Nagios/Icinga

#!/bin/bash
# check_omnihss.sh

API_URL="https://hss.example.com:8443/api/status"

response=$(curl -k -s -o /dev/null -w "%{http_code}" "$API_URL" --max-time 5)

if [ "$response" = "200" ]; then
echo "OK - API de OmniHSS respondiendo"
exit 0
else
echo "CRÍTICO - API de OmniHSS no respondiendo (HTTP $response)"
exit 2
fi

Integración con Prometheus

Se pueden crear exportadores personalizados para exportar métricas de OmniHSS a Prometheus consultando la API y la base de datos.

Integración SNMP

Para monitoreo basado en SNMP, se pueden crear scripts de extensión SNMP personalizados que consulten la base de datos o la API para métricas y devuelvan valores a través de OIDs SNMP.


Indicadores Clave de Desempeño

KPIs Operacionales

Umbrales de KPI Recomendados

KPIObjetivoAdvertenciaCrítico
Tiempo de Actividad del Sistema99.99%< 99.95%< 99.9%
Tiempo de Actividad de Compañeros de Diámetro99.9%< 99.5%< 99%
Tasa de Éxito de Autenticación> 99%< 99%< 95%
Tiempo de Respuesta de Diámetro< 100ms> 200ms> 500ms
Tiempo de Consulta de Base de Datos< 50ms> 100ms> 500ms
Tasa de Errores< 0.1%> 0.5%> 1%

KPIs de Capacidad

MétricaMonitorearPlan de Acción en
Total de SuscriptoresConteo actual80% de la capacidad esperada
Sesiones PDN ConcurrentesSesiones activas70% del máximo esperado
Tamaño de la Base de DatosMB utilizados80% del almacenamiento asignado
Conexiones a la Base de DatosConexiones activas80% del tamaño del grupo

Estrategias de Alertas

Prioridades de Alertas

Definiciones de Alertas

Alertas Críticas (P1)

Sistema No Disponible:

  • La verificación de salud de la API falla
  • Panel de Control inaccesible
  • Fallo de conexión a la base de datos
  • Acción: Investigación y escalamiento inmediato

Todos los Compañeros de Diámetro Desconectados:

  • Cero compañeros conectados
  • Acción: Verificar red, reiniciar si es necesario

Base de Datos Caída:

  • No se puede conectar a la Base de Datos SQL
  • Acción: Investigar el servidor de base de datos, reiniciar si es necesario

Alertas de Alta Prioridad (P2)

Compañero Crítico Caído:

  • MME principal desconectado
  • P-GW principal desconectado
  • S-CSCF principal desconectado
  • Acción: Investigar conectividad del compañero dentro de 15 minutos

Uso Elevado de Memoria:

  • Memoria > 95%
  • Acción: Investigar fuga de memoria, planificar reinicio

Alta Tasa de Fallos de Autenticación:

  • 10% de las solicitudes de autenticación fallan

  • Acción: Verificar aprovisionamiento de suscriptores, investigar causa

Alertas de Prioridad Media (P3)

Compañero No Crítico Caído:

  • Compañero secundario desconectado
  • Servidor de Aplicaciones desconectado
  • Acción: Investigar dentro de 1 hora

Uso Elevado de Memoria:

  • Memoria > 85%
  • Acción: Monitorear tendencia, planificar actualización de capacidad

Tasa Elevada de Errores:

  • Tasa de errores > 1%
  • Acción: Revisar registros, identificar causa raíz

Alertas de Baja Prioridad (P4)

Advertencia de Capacidad:

  • Suscriptores > 80% de la capacidad
  • Base de Datos > 80% del almacenamiento asignado
  • Acción: Planificar expansión de capacidad

Degradación del Rendimiento:

  • Tiempos de respuesta elevados pero aceptables
  • Acción: Monitorear y optimizar consultas

Canales de Notificación de Alertas


Lista de Verificación de Monitoreo

Chequeos Diarios

  • Revisar Resumen del Panel de Control - conteos de suscriptores normales
  • Revisar página de Diámetro - todos los compañeros críticos conectados
  • Revisar página de Aplicaciones - memoria y procesos dentro de límites
  • Verificar registros de errores - sin errores críticos en las últimas 24 horas
  • Verificar que la copia de seguridad se completó con éxito

Chequeos Semanales

  • Revisar tendencias de capacidad - crecimiento de suscriptores
  • Revisar tendencias de rendimiento - tiempos de respuesta
  • Revisar tamaño de la base de datos - tasa de crecimiento aceptable
  • Revisar tasas de errores - identificar patrones
  • Probar notificaciones de alertas - asegurar funcionamiento

Chequeos Mensuales

  • Revisión de planificación de capacidad - proyectar 6 meses adelante
  • Revisión de optimización de rendimiento - identificar consultas lentas
  • Revisión de seguridad - expiración de certificados, vulnerabilidades
  • Revisión de documentación - actualizar manuales de procedimientos
  • Prueba de recuperación ante desastres - verificar que las copias de seguridad se restauren correctamente

← Volver a la Guía de Operaciones | Siguiente: Multi-Features →