Gestión de Alarmas y Escalación

Manejo de Fallos, Niveles de Severidad y Respuesta Operativa

Guía para gestionar alarmas, investigar fallos y escalar problemas

Tabla de Contenidos

Descripción General
Ciclo de Vida de la Alarma
Niveles de Severidad
Categorías de Alarmas
Investigación y Solución de Problemas
Procedimientos de Escalación
Seguimiento de Resoluciones
Mejores Prácticas

Descripción General

Las alarmas (también llamadas "fallos") representan problemas o anomalías detectadas en las estaciones base Nokia AirScale. RAN Monitor supervisa continuamente las alarmas activas y rastrea su ciclo de vida desde la generación hasta la resolución.

Ejemplo de Panel de Alarmas:

Alarm Overview Dashboard

Ejemplo que muestra el estado de 4G con una tabla de resumen de alarmas que muestra el estado de la alarma (activa/despejada), niveles de severidad (crítica/advertencia), marcas de tiempo y descripciones de alarmas por fallos en la interfaz óptica.

Fuentes de Alarmas

Atributos Clave de la Alarma

Cada alarma contiene:

Atributo	Ejemplo	Propósito
ID de Alarma	a1b2c3d4-e5f6-...	Identificador único
Severidad	Crítica, Mayor, Menor	Nivel de prioridad
Causa Probable	"Celda No Disponible"	Categoría de causa raíz
Problema Específico	"Conexión S1 Perdida"	Problema detallado
Sistema Afectado	/BSC-1/BTS-23/Celda-A	Lo que está impactado (DN)
Hora del Evento	2025-12-10 14:23:45	Cuándo se detectó
Estado	Activa / Despejada	Estado actual

Ciclo de Vida de la Alarma

Transiciones de Estado

Ejemplo de Línea de Tiempo de Alarmas

14:23:45 UTC - Ocurre el Problema
            └─> La estación base detecta pérdida de conectividad
            └─> Genera alarma: "Conexión S1 Perdida" (Crítica)

14:23:47 UTC - Alarma Enviada a RAN Monitor
            └─> Notificación webhook de NE3S recibida
            └─> Almacenada en InfluxDB
            └─> Regla de alerta activada

14:23:50 UTC - Notificación Enviada
            └─> Alerta de Grafana activada
            └─> Mensaje de Slack al equipo NOC
            └─> Incidente de PagerDuty creado

14:24:15 UTC - El Operador Reconoce
            └─> El equipo NOC marca como reconocido
            └─> Comienza el seguimiento de duración

14:28:35 UTC - El Problema se Resuelve Automáticamente
            └─> Conectividad restaurada
            └─> La estación base despeja la alarma
            └─> RAN Monitor registra "Despejada"

14:28:36 UTC - Alarma Cerrada
            └─> Duración registrada: 5 minutos 51 segundos
            └─> Seguimiento para informes de SLA
            └─> Archivada después de 30 días

Niveles de Severidad

RAN Monitor rastrea cinco niveles de severidad, cada uno con diferentes impactos operativos y requisitos de escalación:

Severidad Crítica

Definición: Impacta el servicio, requiere acción inmediata

Ejemplos:

Dispositivo completamente inalcanzable (pérdida de conectividad)
Todas las celdas caídas (fallo de banda base)
Interfaz de plano de control caída (S1 perdido)
Fallo completo en el reenvío de datos
La estación base no responde a la gestión

Escalación:

Notificar al ingeniero de guardia inmediatamente (llamada telefónica)
Crear incidente en el sistema de gestión de incidentes
Actualizar la página de estado
Informar a la dirección si se ve afectado el SLA

SLA de Respuesta: < 15 minutos

Severidad Mayor

Definición: Rendimiento degradado, requiere investigación urgente

Ejemplos:

Disponibilidad de celda < 95% durante > 15 minutos
Tasa de éxito de transferencia < 95%
Recurso DL/UL bloqueado (> 95% de utilización sostenida)
Tasa de retransmisión de RLC > 5%
Múltiples celdas mostrando mala calidad
Degradación del enlace (aumentando errores E1/T1)

Escalación:

Notificar al equipo NOC + ingeniero senior
Crear incidente en gestión de incidentes
Notificar al equipo de ingeniería si sigue abierto después de 30 minutos
Verificar problemas en cascada a otras celdas/sitios

SLA de Respuesta: < 30 minutos de investigación

Severidad Menor

Definición: Degradación, rastrear e investigar

Ejemplos:

Disponibilidad de celda 95-98% (tendencia a la baja)
Advertencia de alta temperatura en amplificador
Capacidad de licencia acercándose al límite
Problemas de consistencia de configuración
Rendimiento lento en la interfaz de gestión
Alarmas intermitentes (< 5 ocurrencias/hora)

Escalación:

Registrar en el panel para conocimiento
Asignar a ingeniería para investigación
Programar para la próxima ventana de mantenimiento si es necesario
Crear ticket para análisis de tendencias

SLA de Respuesta: Revisión el mismo día

Severidad de Advertencia

Definición: Informativa, monitorear tendencias

Ejemplos:

Disponibilidad de celda > 98% pero tendencia a la baja
Temperatura/potencia en rango normal pero elevada
Recursos al 60-70% de utilización
Desajuste de configuración (parámetros no críticos)
Primera ocurrencia de un nuevo tipo de fallo

Escalación:

Visibilidad en el panel solamente
Sin notificaciones automáticas
Revisión manual en cadencia

Despejada

Definición: Alarma previamente activa ahora resuelta

Propósito:

Documentar que el problema ha sido resuelto
Rastrear el tiempo medio de reparación (MTTR)
Permitir informes de cumplimiento de SLA
Identificar problemas recurrentes

Categorías de Alarmas

Alarmas de Conectividad

Categoría: Conectividad Externa
Causas Probables:
  - Conexión S1 Perdida       → MME/SGW inalcanzable
  - Enlace de Retroceso Caído  → Fallo en el transporte IP
  - Error en la Interfaz USIM  → Problema de conectividad HSS
  - Sincronización NTP Perdida → Problema de red de sincronización de tiempo

Impacto: Interrupción del servicio, fallos en la configuración de llamadas
Investigación:
  1. Verificar conectividad de red entre dispositivos
  2. Verificar que las reglas del firewall permitan los protocolos requeridos
  3. Verificar el estado y errores del dispositivo par
  4. Revisar estadísticas de la interfaz de red

Alarmas de Hardware y Medio Ambiente

Categoría: Infraestructura Física
Causas Probables:
  - Advertencia de Alta Temperatura  → Sistema de refrigeración degradado
  - Fuente de Alimentación Degradada   → Problema de UPS/PSU
  - Fallo del Ventilador               → Mal funcionamiento del ventilador de refrigeración
  - Espacio en Disco Bajo              → Almacenamiento acercándose al límite
  - Agotamiento de Memoria             → Fuga de memoria del proceso

Impacto: Fallos en cascada potenciales, pérdida de datos
Investigación:
  1. Verificar el estado del hardware a través de la interfaz de gestión
  2. Revisar tendencias de temperatura
  3. Verificar el funcionamiento del sistema de refrigeración
  4. Monitorear la utilización de memoria y CPU

Alarmas de Software y Proceso

Categoría: Capa de Aplicación
Causas Probables:
  - Fallo de Proceso            → Error de software o OOM
  - Alta Utilización de CPU     → Cuello de botella en el rendimiento
  - Sobrecarga de Cola          → Acumulación de procesamiento de mensajes
  - Violación de Licencia       → Capacidad excedida

Impacto: Degradación o interrupción del servicio
Investigación:
  1. Verificar el estado del proceso
  2. Revisar registros en busca de mensajes de error
  3. Monitorear CPU/memoria/profundidad de cola
  4. Verificar el estado de la licencia

Alarmas de Recursos de Radio

Categoría: Interfaz de Aire
Causas Probables:
  - Celda No Disponible         → Sin cobertura/potencia de radio
  - Recurso DL Bloqueado        → Agotamiento de capacidad
  - Alta Tasa de Fallo de Handover → Problema de configuración de vecino
  - Mala Calidad de Celda       → Interferencia RF o pérdida de trayectoria

Impacto: Degradación de la experiencia del usuario
Investigación:
  1. Verificar parámetros físicos de la celda
  2. Revisar la configuración de la celda vecina
  3. Analizar métricas de calidad RF
  4. Verificar alineación de antena

Alarmas de Configuración

Categoría: Estado del Sistema
Causas Probables:
  - Desajuste de Parámetros       → Inconsistencia de configuración
  - Licencia Expirada             → Problema de licencia
  - Error de Suma de Comprobación de Configuración → Corrupción o conflicto
  - Función No Licenciada         → Uso de función excede la licencia

Impacto: Indisponibilidad o degradación de funciones
Investigación:
  1. Revisar cambios de configuración
  2. Comparar configuración actual vs. la prevista
  3. Verificar archivo de licencia y expiración
  4. Verificar compatibilidad de versión de software

Investigación y Solución de Problemas

Flujo de Trabajo de Investigación

Paso 1: Revisar Detalles de la Alarma

Cuando se activa una alarma, comience por recopilar información:

Qué recopilar:

ID de Alarma e identificador único
Severidad y causa probable
DN del sistema afectado (dispositivo/celda/componente)
Hora del evento (cuándo ocurrió)
Duración (cuánto tiempo ha estado activa)
Descripción completa de la alarma y texto

Herramientas:

Interfaz Web de RAN Monitor → Página de Alarmas
Grafana → Tabla de Alarmas Activas
InfluxDB → Consultar registro de alarma en bruto

Paso 2: Investigar Causa Probable

Cada tipo de alarma tiene causas conocidas e investigaciones:

Conocimiento Documentado:

Guías de solución de problemas de Nokia AirScale
Historial de tickets anteriores (problemas similares)
Runbooks documentados de RAN Monitor
Experiencia del equipo (expertos en la materia)

Paso 3: Verificar Métricas Relacionadas

Correlacione alarmas con métricas de rendimiento para entender el impacto:

Ejemplo: Alarma "Recurso DL Bloqueado"
├─ Verificar Utilización de Recurso DL (debería ser > 95%)
├─ Verificar Rendimiento de Tráfico (¿tendencia al alza?)
├─ Verificar Éxito en la Configuración de Llamadas (¿caídas?)
├─ Verificar Éxito en el Handover (¿afectado?)
└─ Verificar Disponibilidad de la Celda (¿caída?)

Herramientas:

Grafana → Panel específico del dispositivo
Interfaz Web → Página de detalles del dispositivo → Sección de Métricas
Consultas directas en InfluxDB para correlación

Paso 4: Correlacionar con Cambios Recientes

Muchos problemas son causados por modificaciones recientes:

Línea de Tiempo:
├─ Cambios de configuración (últimas 4 horas)
├─ Actualizaciones de software (últimas 24 horas)
├─ Ajuste de parámetros de función (últimos 7 días)
├─ Actividades de mantenimiento (últimos 7 días)
├─ Cambios en la red (últimos 7 días)
└─ Cambios de terceros (red externa)

Herramientas:

RAN Monitor → Historial de configuración
Sistema de gestión de cambios
Historial de incidentes (problemas similares antes)
Registros de notificaciones entre equipos

Paso 5: Diagnosticar Causa Raíz

Basado en la investigación, identifique la causa raíz:

Ejemplo de Árbol de Decisiones: Alarma "Celda No Disponible"

Alarma de Celda No Disponible
│
├─ ¿El dispositivo responde a la gestión?
│  ├─ NO → Verificar conectividad del dispositivo, reiniciar si es necesario
│  └─ SÍ → Continuar
│
├─ ¿Todas las celdas están caídas o una celda específica?
│  ├─ Todas las celdas → Verificar hardware de banda base/suministro de energía
│  └─ Celda específica → Continuar
│
├─ ¿La celda está transmitiendo potencia?
│  ├─ NO → Verificar Amplificador de Potencia, conexión de antena
│  └─ SÍ → Continuar
│
├─ ¿Las celdas vecinas informan sobre esta celda?
│  ├─ SÍ → Otros dispositivos ven esta celda como no disponible
│  │       → Verificar alineación de antena, conexión de cable
│  └─ NO → La celda está caída por una razón interna
│          → Verificar estado del módulo de banda base, estado de DSP
│
└─ Verificar registros en busca de mensajes de error
   → Caída de software
   → Violación de licencia
   → Error de parámetro

Paso 6: Implementar Resolución

Una vez identificada la causa raíz, implemente la solución:

Tipos de Resoluciones:

Tipo	Método	Ejemplo
Inmediata	Reiniciar/reboot	Reinicio del dispositivo para limpiar proceso colgado
Configuración	Ajustar parámetros	Cambiar umbral de handover
Hardware	Reemplazar/reparar	Cambiar fuente de alimentación fallida
Software	Actualizar/parchear	Instalar corrección de error de software
Red	Arreglar conectividad	Restaurar ruta BGP, arreglar firewall

Paso 7: Verificar Resolución

Después de implementar la solución, verifique:

Lista de Verificación de Verificación:
□ Alarma despejada en RAN Monitor
□ Métricas relacionadas se han normalizado
□ Sin alarmas secundarias/cascadas
□ Métricas de rendimiento regresaron a la línea base
□ Informes de clientes (si corresponde) resueltos
□ El sistema está estable (> 30 minutos de observación)

Paso 8: Documentar Aprendizaje

Registre los hallazgos para referencia futura:

Documentar:

Causa raíz y factores contribuyentes
Pasos tomados para resolver
Tiempo gastado (para seguimiento de SLA)
Medidas preventivas tomadas
Conocimiento compartido con el equipo

Procedimientos de Escalación

Escalera de Escalación

Disparadores de Escalación

Escalar a Nivel 2 si:

Alarma crítica no despejada después de 15 minutos
Alarma mayor no despejada después de 30 minutos
El problema está fuera de la experiencia del equipo NOC
Requiere reinicio de dispositivo/cambio mayor
Afecta a > 1 sitio simultáneamente

Escalar a Nivel 3 si:

Nivel 2 no puede diagnosticar después de 1 hora
Problema crítico persiste > 30 minutos
Se sospecha fallo de hardware
Se detectan problemas en cascada
Requiere participación del vendedor

Contactar al Vendedor (Nivel 4) si:

Se confirma fallo de hardware (PSU, CMON, etc.)
Se sospecha error de software (caída irrecuperable)
Problema de licencia/activación
Problema documentado en problemas conocidos del vendedor
Múltiples niveles de escalación no pueden resolver

Comunicación de Escalación

Plantilla para Escalar a Nivel 2:

Asunto: Escalación - [Severidad] - [Dispositivo] - [Problema]

Hora de Alerta: [2025-12-10 14:30 UTC]
Duración: [15 minutos]
Dispositivo: [SITE_A_BS1]
Problema: [Celda No Disponible]

Síntomas:
- Celda A1 no responde a la gestión
- Todas las celdas informando celda no disponible
- Ping del dispositivo exitoso

Investigación Realizada:
- Conectividad del dispositivo verificada
- Estado del módulo de banda base verificado
- Estado de la fuente de alimentación: OK
- Temperatura: Normal

Métricas:
- Disponibilidad de celda: 0%
- Sin tráfico en la celda
- Plano de control: Conectado

Análisis Inicial:
- Posible fallo del módulo de banda base
- O problema de hardware del amplificador de potencia

Próximos Pasos Recomendados:
- Diagnósticos de hardware
- Intercambio de módulo si está disponible
- Reinicio del dispositivo como último recurso

Enlace de Escalación: [Enlace del Panel]

Seguimiento de Resoluciones

Seguimiento de SLA

Rastrear el tiempo hasta la resolución para el cumplimiento de SLA:

Línea de Tiempo de Alarma:
├─ Hora del Evento: 14:23:45 ← Cuándo ocurrió el problema
├─ Hora de Detección: 14:23:47 (2 seg) ← Gestión detectó
├─ Hora de Alerta: 14:23:50 (5 seg) ← Operaciones notificadas
├─ Hora de Reconocimiento: 14:24:15 (30 seg) ← Operador reconocido
├─ Investigación: 14:24:15 → 14:28:00 (3.75 min)
├─ Resolución: 14:28:00 → 14:28:35 (35 seg de arreglo + verificación)
└─ Hora de Despeje: 14:28:36 ← Alarma despejada
    └─ Duración Total: 5 min 51 seg

Métricas de SLA:
├─ Latencia de Detección: 2 segundos
├─ Alerta a ACK: 30 segundos
├─ Tiempo para Resolver: 5 min 51 seg
└─ Estado de SLA: APROBADO (< 15 min objetivo)

Análisis de Tendencias

Rastrear patrones en los datos de alarmas:

Preguntas a hacer:

¿Estamos viendo la misma alarma repetidamente?
¿Está aumentando/disminuyendo la tasa de alarmas?
¿Se agrupan las alarmas en momentos específicos?
¿Se ven afectados múltiples sitios simultáneamente?
¿Está mejorando el MTTR con el tiempo?

Herramientas:

Grafana → Panel de tendencias de alarmas
Informe de alarmas principales (semanal)
Seguimiento de MTTR por dispositivo/tipo

Prevención de Problemas Recurrentes

Mejores Prácticas

Excelencia Operativa

1. Prevención de Fatiga por Alarmas

Establecer umbrales significativos (no demasiado sensibles)
Usar ventanas de duración (no un solo pico)
Agregar alarmas relacionadas
Suprimir falsos positivos conocidos

2. Respuesta Rápida

Mantener runbooks actualizados
Capacitar al equipo sobre problemas comunes
Usar automatización para reinicios rutinarios
Tener contactos de escalación disponibles

3. Documentación de Calidad

Documentar cada incidente
Compartir aprendizajes con el equipo
Actualizar runbooks basados en incidentes
Capacitar a los miembros del equipo

4. Monitoreo Proactivo

Vigilar advertencias antes de críticas
Análisis de tendencias para planificación de capacidad
Chequeos de salud regulares
Establecimiento de línea base de rendimiento

Desarrollo de Runbook

Cada alarma frecuente debe tener un runbook:

Plantilla:

Alarma: [Celda No Disponible]
Probabilidad: [Alta]
MTTR: [5-15 minutos]
Objetivo de SLA: [Resuelto dentro de 30 minutos]

Síntomas:
- Alarma: "Celda No Disponible"
- Usuarios: Incapaces de conectarse
- Métricas: Disponibilidad de celda 0%

Diagnóstico Rápido (< 5 minutos):
1. ¿Está el dispositivo respondiendo a ping?
2. ¿Están funcionando otras celdas?
3. ¿Está funcionando la banda base (verificar registros)?

Pasos de Resolución:
Paso 1: Verificación de Conectividad del Dispositivo
  - Hacer ping al dispositivo: ping 192.168.1.100
  - Si no hay respuesta → Verificar conectividad de red

Paso 2: Estado del Hardware
  - Verificar estado del Amplificador de Potencia
  - Verificar LEDs del módulo de banda base
  - Verificar conexión de antena

Paso 3: Reiniciar Celda
  - Reiniciar celda a través de la interfaz de gestión
  - Esperar 60 segundos para el inicio
  - Verificar que las métricas se normalicen

Paso 4: Si Aún Está Caída
  - Escalar a Nivel 2
  - Preparar para reinicio del dispositivo
  - Notificar al cliente

Escalación:
- Si > 15 minutos → Escalar a [Nombre del Ingeniero]
- Si > 30 minutos → Escalar a [Ingeniero Senior]
- Si falla el hardware → Contactar Soporte de Nokia

Prevención:
- Actualizaciones regulares del firmware de banda base
- Reemplazo preventivo de la fuente de alimentación
- Inspección de conexión de antena trimestralmente

Tabla de Contenidos​

Descripción General​

Fuentes de Alarmas​

Atributos Clave de la Alarma​

Ciclo de Vida de la Alarma​

Transiciones de Estado​

Ejemplo de Línea de Tiempo de Alarmas​

Niveles de Severidad​

Severidad Crítica​

Severidad Mayor​

Severidad Menor​

Severidad de Advertencia​

Despejada​

Categorías de Alarmas​

Alarmas de Conectividad​

Alarmas de Hardware y Medio Ambiente​

Alarmas de Software y Proceso​

Alarmas de Recursos de Radio​

Alarmas de Configuración​

Investigación y Solución de Problemas​

Flujo de Trabajo de Investigación​

Paso 1: Revisar Detalles de la Alarma​

Paso 2: Investigar Causa Probable​

Paso 3: Verificar Métricas Relacionadas​

Paso 4: Correlacionar con Cambios Recientes​

Paso 5: Diagnosticar Causa Raíz​

Paso 6: Implementar Resolución​

Paso 7: Verificar Resolución​

Paso 8: Documentar Aprendizaje​

Procedimientos de Escalación​

Escalera de Escalación​

Disparadores de Escalación​

Comunicación de Escalación​

Seguimiento de Resoluciones​

Seguimiento de SLA​

Análisis de Tendencias​

Prevención de Problemas Recurrentes​

Mejores Prácticas​

Excelencia Operativa​

Desarrollo de Runbook​

Tabla de Contenidos

Descripción General

Fuentes de Alarmas

Atributos Clave de la Alarma

Ciclo de Vida de la Alarma

Transiciones de Estado

Ejemplo de Línea de Tiempo de Alarmas

Niveles de Severidad

Severidad Crítica

Severidad Mayor

Severidad Menor

Severidad de Advertencia

Despejada

Categorías de Alarmas

Alarmas de Conectividad

Alarmas de Hardware y Medio Ambiente

Alarmas de Software y Proceso

Alarmas de Recursos de Radio

Alarmas de Configuración

Investigación y Solución de Problemas

Flujo de Trabajo de Investigación

Paso 1: Revisar Detalles de la Alarma

Paso 2: Investigar Causa Probable

Paso 3: Verificar Métricas Relacionadas

Paso 4: Correlacionar con Cambios Recientes

Paso 5: Diagnosticar Causa Raíz

Paso 6: Implementar Resolución

Paso 7: Verificar Resolución

Paso 8: Documentar Aprendizaje

Procedimientos de Escalación

Escalera de Escalación

Disparadores de Escalación

Comunicación de Escalación

Seguimiento de Resoluciones

Seguimiento de SLA

Análisis de Tendencias

Prevención de Problemas Recurrentes

Mejores Prácticas

Excelencia Operativa

Desarrollo de Runbook