Guía de Métricas y Monitoreo de OmniHSS

Tabla de Contenidos

Descripción General del Monitoreo
Monitoreo del Panel de Control
Monitoreo de la Base de Datos
Monitoreo de Registros
Integración de Monitoreo Externo
Indicadores Clave de Desempeño
Estrategias de Alertas

Descripción General del Monitoreo

OmniHSS proporciona varios mecanismos para monitorear la salud del sistema, el rendimiento y la actividad de los suscriptores. El personal de operaciones debe utilizar una combinación de estas herramientas para una visibilidad integral.

Capas de Monitoreo

Monitoreo del Panel de Control

El Panel de Control proporciona la interfaz principal de monitoreo en tiempo real.

Monitoreo de la Página de Resumen

URL: https://[hostname]:7443/overview

Métricas Clave Disponibles

Estados de Suscriptores Monitoreados

Estado	Indicador	Qué Significa
Inactivo	Sin información de ubicación	Suscriptor apagado o fuera de cobertura
Adjunto	MME presente	Suscriptor registrado en la red
PDN Activo	Conteo de sesiones PDN > 0	Conexión de datos activa
IMS Registrado	S-CSCF asignado	Servicios de voz listos
En Llamada	Conteo de llamadas activas > 0	Llamada VoLTE en progreso

Extracción de Métricas del Resumen

Aunque el Panel de Control no exporta métricas directamente, puedes:

Contar filas visibles para el total de suscriptores
Buscar marcas de verificación verdes para contar suscriptores habilitados
Revisar detalles expandibles para información de estado
Anotar marcas de tiempo de última vista para la capacidad de respuesta

Monitoreo de la Página de Diámetro

URL: https://[hostname]:7443/diameter

Métricas Clave

Monitoreo de Compañeros Críticos

Identifica compañeros críticos y monitorea su estado:

Tipo de Compañero	Criticidad	Impacto si Está Caído
MME	Alta	Sin nuevos adjuntos LTE
P-GW	Alta	Sin sesiones de datos
S-CSCF	Alta	Sin registros IMS
P-CSCF	Alta	Sin llamadas VoLTE
I-CSCF	Media	Problemas de enrutamiento IMS
AS	Baja-Media	Servicio específico no disponible

Monitoreo de la Página de Aplicaciones

URL: https://[hostname]:7443/application

Métricas Clave

Métrica	Descripción	Rango Normal	Umbral de Acción
Conteo de Procesos	Procesos Erlang activos	Varía según la carga	> 90% del límite
Uso de Memoria	Memoria total consumida	< 80%	> 90%
Tiempo de Actividad	Tiempo desde el último reinicio	N/A	Rastrear para estabilidad

Monitoreo de la Base de Datos

Consultas Directas a la Base de Datos

Conéctate a la Base de Datos SQL para extraer métricas detalladas:

Conteos de Suscriptores

Consulta la base de datos para recuperar:

Conteo total de todos los suscriptores
Conteo de suscriptores habilitados
Conteo de suscriptores habilitados para IMS

Estadísticas de Sesiones

Consulta la base de datos para recuperar:

Conteo de sesiones PDN activas
Conteo de llamadas VoLTE activas
Desglose de sesiones PDN por perfil de APN

Estadísticas de Ubicación

Consulta la base de datos para recuperar:

Conteo de suscriptores agrupados por red visitada (combinación MCC-MNC)
Conteo de suscriptores actualmente en roaming (no en PLMN local 001-001)
Distribución de suscriptores a través de diferentes redes visitadas

Actividad Reciente

Consulta la base de datos para recuperar:

Conteo de suscriptores vistos en la última hora
Distribución de suscriptores por MME que sirve
Análisis de marcas de tiempo de la última actividad del suscriptor

Monitoreo de Salud de la Base de Datos

Monitorea la salud de la base de datos consultando:

Tamaño total de la base de datos y tendencias de crecimiento
Tamaños de tablas individuales y conteos de filas
Conteo actual de conexiones a la base de datos
Rendimiento de consultas y uso de recursos

Monitoreo de Registros

Salida de Registros

OmniHSS envía registros a stdout/stderr, que deben ser capturados por tu administrador de procesos.

Niveles de Registro

Patrones Clave de Registro a Monitorear

Eventos de Compañeros de Diámetro:

[info] Compañero de Diámetro conectado: mme01.epc.example.com
[warn] Compañero de Diámetro desconectado: pgw01.epc.example.com
[error] Fallo en la conexión del compañero de Diámetro: tiempo de espera

Eventos de Base de Datos:

[info] Conexión a la base de datos establecida
[error] Conexión a la base de datos perdida: tiempo de espera
[error] Consulta a la base de datos fallida: interbloqueo detectado

Eventos de Autenticación:

[info] Autenticación exitosa: IMSI 001001123456789
[warn] Fallo en la autenticación: IMSI 001001123456789, vector inválido
[error] Roaming denegado: IMSI 001001123456789, MCC 310 MNC 410

Agregación de Registros

Para implementaciones en producción, implementa la agregación de registros:

Integración de Monitoreo Externo

Endpoint de Verificación de Salud

Verificación de Salud de API: GET /api/status

curl -k https://hss.example.com:8443/api/status

Respuesta Esperada:

{"status": "ok"}

Estado HTTP: 200 OK

Integración de Herramientas de Monitoreo

Ejemplo de Nagios/Icinga

#!/bin/bash
# check_omnihss.sh

API_URL="https://hss.example.com:8443/api/status"

response=$(curl -k -s -o /dev/null -w "%{http_code}" "$API_URL" --max-time 5)

if [ "$response" = "200" ]; then
    echo "OK - API de OmniHSS respondiendo"
    exit 0
else
    echo "CRÍTICO - API de OmniHSS no respondiendo (HTTP $response)"
    exit 2
fi

Integración con Prometheus

Se pueden crear exportadores personalizados para exportar métricas de OmniHSS a Prometheus consultando la API y la base de datos.

Integración SNMP

Para monitoreo basado en SNMP, se pueden crear scripts de extensión SNMP personalizados que consulten la base de datos o la API para métricas y devuelvan valores a través de OIDs SNMP.

Indicadores Clave de Desempeño

KPIs Operacionales

Umbrales de KPI Recomendados

KPI	Objetivo	Advertencia	Crítico
Tiempo de Actividad del Sistema	99.99%	< 99.95%	< 99.9%
Tiempo de Actividad de Compañeros de Diámetro	99.9%	< 99.5%	< 99%
Tasa de Éxito de Autenticación	> 99%	< 99%	< 95%
Tiempo de Respuesta de Diámetro	< 100ms	> 200ms	> 500ms
Tiempo de Consulta de Base de Datos	< 50ms	> 100ms	> 500ms
Tasa de Errores	< 0.1%	> 0.5%	> 1%

KPIs de Capacidad

Métrica	Monitorear	Plan de Acción en
Total de Suscriptores	Conteo actual	80% de la capacidad esperada
Sesiones PDN Concurrentes	Sesiones activas	70% del máximo esperado
Tamaño de la Base de Datos	MB utilizados	80% del almacenamiento asignado
Conexiones a la Base de Datos	Conexiones activas	80% del tamaño del grupo

Estrategias de Alertas

Prioridades de Alertas

Definiciones de Alertas

Alertas Críticas (P1)

Sistema No Disponible:

La verificación de salud de la API falla
Panel de Control inaccesible
Fallo de conexión a la base de datos
Acción: Investigación y escalamiento inmediato

Todos los Compañeros de Diámetro Desconectados:

Cero compañeros conectados
Acción: Verificar red, reiniciar si es necesario

Base de Datos Caída:

No se puede conectar a la Base de Datos SQL
Acción: Investigar el servidor de base de datos, reiniciar si es necesario

Alertas de Alta Prioridad (P2)

Compañero Crítico Caído:

MME principal desconectado
P-GW principal desconectado
S-CSCF principal desconectado
Acción: Investigar conectividad del compañero dentro de 15 minutos

Uso Elevado de Memoria:

Memoria > 95%
Acción: Investigar fuga de memoria, planificar reinicio

Alta Tasa de Fallos de Autenticación:

10% de las solicitudes de autenticación fallan
Acción: Verificar aprovisionamiento de suscriptores, investigar causa

Alertas de Prioridad Media (P3)

Compañero No Crítico Caído:

Compañero secundario desconectado
Servidor de Aplicaciones desconectado
Acción: Investigar dentro de 1 hora

Uso Elevado de Memoria:

Memoria > 85%
Acción: Monitorear tendencia, planificar actualización de capacidad

Tasa Elevada de Errores:

Tasa de errores > 1%
Acción: Revisar registros, identificar causa raíz

Alertas de Baja Prioridad (P4)

Advertencia de Capacidad:

Suscriptores > 80% de la capacidad
Base de Datos > 80% del almacenamiento asignado
Acción: Planificar expansión de capacidad

Degradación del Rendimiento:

Tiempos de respuesta elevados pero aceptables
Acción: Monitorear y optimizar consultas

Canales de Notificación de Alertas

Lista de Verificación de Monitoreo

Chequeos Diarios

Revisar Resumen del Panel de Control - conteos de suscriptores normales
Revisar página de Diámetro - todos los compañeros críticos conectados
Revisar página de Aplicaciones - memoria y procesos dentro de límites
Verificar registros de errores - sin errores críticos en las últimas 24 horas
Verificar que la copia de seguridad se completó con éxito

Chequeos Semanales

Revisar tendencias de capacidad - crecimiento de suscriptores
Revisar tendencias de rendimiento - tiempos de respuesta
Revisar tamaño de la base de datos - tasa de crecimiento aceptable
Revisar tasas de errores - identificar patrones
Probar notificaciones de alertas - asegurar funcionamiento

Chequeos Mensuales

Revisión de planificación de capacidad - proyectar 6 meses adelante
Revisión de optimización de rendimiento - identificar consultas lentas
Revisión de seguridad - expiración de certificados, vulnerabilidades
Revisión de documentación - actualizar manuales de procedimientos
Prueba de recuperación ante desastres - verificar que las copias de seguridad se restauren correctamente

← Volver a la Guía de Operaciones | Siguiente: Multi-Features →

Tabla de Contenidos​

Descripción General del Monitoreo​

Capas de Monitoreo​

Monitoreo del Panel de Control​

Monitoreo de la Página de Resumen​

Métricas Clave Disponibles​

Estados de Suscriptores Monitoreados​

Extracción de Métricas del Resumen​

Monitoreo de la Página de Diámetro​

Métricas Clave​

Monitoreo de Compañeros Críticos​

Monitoreo de la Página de Aplicaciones​

Métricas Clave​

Monitoreo de la Base de Datos​

Consultas Directas a la Base de Datos​

Conteos de Suscriptores​

Estadísticas de Sesiones​

Estadísticas de Ubicación​

Actividad Reciente​

Monitoreo de Salud de la Base de Datos​

Monitoreo de Registros​

Salida de Registros​

Niveles de Registro​

Patrones Clave de Registro a Monitorear​

Agregación de Registros​

Integración de Monitoreo Externo​

Endpoint de Verificación de Salud​

Integración de Herramientas de Monitoreo​

Ejemplo de Nagios/Icinga​

Integración con Prometheus​

Integración SNMP​

Indicadores Clave de Desempeño​

KPIs Operacionales​

Umbrales de KPI Recomendados​

KPIs de Capacidad​

Estrategias de Alertas​

Prioridades de Alertas​

Definiciones de Alertas​

Alertas Críticas (P1)​

Alertas de Alta Prioridad (P2)​

Alertas de Prioridad Media (P3)​

Alertas de Baja Prioridad (P4)​

Canales de Notificación de Alertas​

Lista de Verificación de Monitoreo​

Chequeos Diarios​

Chequeos Semanales​

Chequeos Mensuales​

Tabla de Contenidos

Descripción General del Monitoreo

Capas de Monitoreo

Monitoreo del Panel de Control

Monitoreo de la Página de Resumen

Métricas Clave Disponibles

Estados de Suscriptores Monitoreados

Extracción de Métricas del Resumen

Monitoreo de la Página de Diámetro

Métricas Clave

Monitoreo de Compañeros Críticos

Monitoreo de la Página de Aplicaciones

Métricas Clave

Monitoreo de la Base de Datos

Consultas Directas a la Base de Datos

Conteos de Suscriptores

Estadísticas de Sesiones

Estadísticas de Ubicación

Actividad Reciente

Monitoreo de Salud de la Base de Datos

Monitoreo de Registros

Salida de Registros

Niveles de Registro

Patrones Clave de Registro a Monitorear

Agregación de Registros

Integración de Monitoreo Externo

Endpoint de Verificación de Salud

Integración de Herramientas de Monitoreo

Ejemplo de Nagios/Icinga

Integración con Prometheus

Integración SNMP

Indicadores Clave de Desempeño

KPIs Operacionales

Umbrales de KPI Recomendados

KPIs de Capacidad

Estrategias de Alertas

Prioridades de Alertas

Definiciones de Alertas

Alertas Críticas (P1)

Alertas de Alta Prioridad (P2)

Alertas de Prioridad Media (P3)

Alertas de Baja Prioridad (P4)

Canales de Notificación de Alertas

Lista de Verificación de Monitoreo

Chequeos Diarios

Chequeos Semanales

Chequeos Mensuales