Gestión de Alarmas y Escalación
Manejo de Fallos, Niveles de Severidad y Respuesta Operativa
Guía para gestionar alarmas, investigar fallos y escalar problemas
Tabla de Contenidos
- Descripción General
- Ciclo de Vida de la Alarma
- Niveles de Severidad
- Categorías de Alarmas
- Investigación y Solución de Problemas
- Procedimientos de Escalación
- Seguimiento de Resoluciones
- Mejores Prácticas
Descripción General
Las alarmas (también llamadas "fallos") representan problemas o anomalías detectadas en las estaciones base Nokia AirScale. RAN Monitor supervisa continuamente las alarmas activas y rastrea su ciclo de vida desde la generación hasta la resolución.
Ejemplo de Panel de Alarmas:

Ejemplo que muestra el estado de 4G con una tabla de resumen de alarmas que muestra el estado de la alarma (activa/despejada), niveles de severidad (crítica/advertencia), marcas de tiempo y descripciones de alarmas por fallos en la interfaz óptica.
Fuentes de Alarmas
Atributos Clave de la Alarma
Cada alarma contiene:
| Atributo | Ejemplo | Propósito |
|---|---|---|
| ID de Alarma | a1b2c3d4-e5f6-... | Identificador único |
| Severidad | Crítica, Mayor, Menor | Nivel de prioridad |
| Causa Probable | "Celda No Disponible" | Categoría de causa raíz |
| Problema Específico | "Conexión S1 Perdida" | Problema detallado |
| Sistema Afectado | /BSC-1/BTS-23/Celda-A | Lo que está impactado (DN) |
| Hora del Evento | 2025-12-10 14:23:45 | Cuándo se detectó |
| Estado | Activa / Despejada | Estado actual |
Ciclo de Vida de la Alarma
Transiciones de Estado
Ejemplo de Línea de Tiempo de Alarmas
14:23:45 UTC - Ocurre el Problema
└─> La estación base detecta pérdida de conectividad
└─> Genera alarma: "Conexión S1 Perdida" (Crítica)
14:23:47 UTC - Alarma Enviada a RAN Monitor
└─> Notificación webhook de NE3S recibida
└─> Almacenada en InfluxDB
└─> Regla de alerta activada
14:23:50 UTC - Notificación Enviada
└─> Alerta de Grafana activada
└─> Mensaje de Slack al equipo NOC
└─> Incidente de PagerDuty creado
14:24:15 UTC - El Operador Reconoce
└─> El equipo NOC marca como reconocido
└─> Comienza el seguimiento de duración
14:28:35 UTC - El Problema se Resuelve Automáticamente
└─> Conectividad restaurada
└─> La estación base despeja la alarma
└─> RAN Monitor registra "Despejada"
14:28:36 UTC - Alarma Cerrada
└─> Duración registrada: 5 minutos 51 segundos
└─> Seguimiento para informes de SLA
└─> Archivada después de 30 días
Niveles de Severidad
RAN Monitor rastrea cinco niveles de severidad, cada uno con diferentes impactos operativos y requisitos de escalación:
Severidad Crítica
Definición: Impacta el servicio, requiere acción inmediata
Ejemplos:
- Dispositivo completamente inalcanzable (pérdida de conectividad)
- Todas las celdas caídas (fallo de banda base)
- Interfaz de plano de control caída (S1 perdido)
- Fallo completo en el reenvío de datos
- La estación base no responde a la gestión
Escalación:
- Notificar al ingeniero de guardia inmediatamente (llamada telefónica)
- Crear incidente en el sistema de gestión de incidentes
- Actualizar la página de estado
- Informar a la dirección si se ve afectado el SLA
SLA de Respuesta: < 15 minutos
Severidad Mayor
Definición: Rendimiento degradado, requiere investigación urgente
Ejemplos:
- Disponibilidad de celda < 95% durante > 15 minutos
- Tasa de éxito de transferencia < 95%
- Recurso DL/UL bloqueado (> 95% de utilización sostenida)
- Tasa de retransmisión de RLC > 5%
- Múltiples celdas mostrando mala calidad
- Degradación del enlace (aumentando errores E1/T1)
Escalación:
- Notificar al equipo NOC + ingeniero senior
- Crear incidente en gestión de incidentes
- Notificar al equipo de ingeniería si sigue abierto después de 30 minutos
- Verificar problemas en cascada a otras celdas/sitios
SLA de Respuesta: < 30 minutos de investigación
Severidad Menor
Definición: Degradación, rastrear e investigar
Ejemplos:
- Disponibilidad de celda 95-98% (tendencia a la baja)
- Advertencia de alta temperatura en amplificador
- Capacidad de licencia acercándose al límite
- Problemas de consistencia de configuración
- Rendimiento lento en la interfaz de gestión
- Alarmas intermitentes (< 5 ocurrencias/hora)
Escalación:
- Registrar en el panel para conocimiento
- Asignar a ingeniería para investigación
- Programar para la próxima ventana de mantenimiento si es necesario
- Crear ticket para análisis de tendencias
SLA de Respuesta: Revisión el mismo día
Severidad de Advertencia
Definición: Informativa, monitorear tendencias
Ejemplos:
- Disponibilidad de celda > 98% pero tendencia a la baja
- Temperatura/potencia en rango normal pero elevada
- Recursos al 60-70% de utilización
- Desajuste de configuración (parámetros no críticos)
- Primera ocurrencia de un nuevo tipo de fallo
Escalación:
- Visibilidad en el panel solamente
- Sin notificaciones automáticas
- Revisión manual en cadencia
Despejada
Definición: Alarma previamente activa ahora resuelta
Propósito:
- Documentar que el problema ha sido resuelto
- Rastrear el tiempo medio de reparación (MTTR)
- Permitir informes de cumplimiento de SLA
- Identificar problemas recurrentes
Categorías de Alarmas
Alarmas de Conectividad
Categoría: Conectividad Externa
Causas Probables:
- Conexión S1 Perdida → MME/SGW inalcanzable
- Enlace de Retroceso Caído → Fallo en el transporte IP
- Error en la Interfaz USIM → Problema de conectividad HSS
- Sincronización NTP Perdida → Problema de red de sincronización de tiempo
Impacto: Interrupción del servicio, fallos en la configuración de llamadas
Investigación:
1. Verificar conectividad de red entre dispositivos
2. Verificar que las reglas del firewall permitan los protocolos requeridos
3. Verificar el estado y errores del dispositivo par
4. Revisar estadísticas de la interfaz de red
Alarmas de Hardware y Medio Ambiente
Categoría: Infraestructura Física
Causas Probables:
- Advertencia de Alta Temperatura → Sistema de refrigeración degradado
- Fuente de Alimentación Degradada → Problema de UPS/PSU
- Fallo del Ventilador → Mal funcionamiento del ventilador de refrigeración
- Espacio en Disco Bajo → Almacenamiento acercándose al límite
- Agotamiento de Memoria → Fuga de memoria del proceso
Impacto: Fallos en cascada potenciales, pérdida de datos
Investigación:
1. Verificar el estado del hardware a través de la interfaz de gestión
2. Revisar tendencias de temperatura
3. Verificar el funcionamiento del sistema de refrigeración
4. Monitorear la utilización de memoria y CPU
Alarmas de Software y Proceso
Categoría: Capa de Aplicación
Causas Probables:
- Fallo de Proceso → Error de software o OOM
- Alta Utilización de CPU → Cuello de botella en el rendimiento
- Sobrecarga de Cola → Acumulación de procesamiento de mensajes
- Violación de Licencia → Capacidad excedida
Impacto: Degradación o interrupción del servicio
Investigación:
1. Verificar el estado del proceso
2. Revisar registros en busca de mensajes de error
3. Monitorear CPU/memoria/profundidad de cola
4. Verificar el estado de la licencia
Alarmas de Recursos de Radio
Categoría: Interfaz de Aire
Causas Probables:
- Celda No Disponible → Sin cobertura/potencia de radio
- Recurso DL Bloqueado → Agotamiento de capacidad
- Alta Tasa de Fallo de Handover → Problema de configuración de vecino
- Mala Calidad de Celda → Interferencia RF o pérdida de trayectoria
Impacto: Degradación de la experiencia del usuario
Investigación:
1. Verificar parámetros físicos de la celda
2. Revisar la configuración de la celda vecina
3. Analizar métricas de calidad RF
4. Verificar alineación de antena
Alarmas de Configuración
Categoría: Estado del Sistema
Causas Probables:
- Desajuste de Parámetros → Inconsistencia de configuración
- Licencia Expirada → Problema de licencia
- Error de Suma de Comprobación de Configuración → Corrupción o conflicto
- Función No Licenciada → Uso de función excede la licencia
Impacto: Indisponibilidad o degradación de funciones
Investigación:
1. Revisar cambios de configuración
2. Comparar configuración actual vs. la prevista
3. Verificar archivo de licencia y expiración
4. Verificar compatibilidad de versión de software
Investigación y Solución de Problemas
Flujo de Trabajo de Investigación
Paso 1: Revisar Detalles de la Alarma
Cuando se activa una alarma, comience por recopilar información:
Qué recopilar:
- ID de Alarma e identificador único
- Severidad y causa probable
- DN del sistema afectado (dispositivo/celda/componente)
- Hora del evento (cuándo ocurrió)
- Duración (cuánto tiempo ha estado activa)
- Descripción completa de la alarma y texto
Herramientas:
- Interfaz Web de RAN Monitor → Página de Alarmas
- Grafana → Tabla de Alarmas Activas
- InfluxDB → Consultar registro de alarma en bruto
Paso 2: Investigar Causa Probable
Cada tipo de alarma tiene causas conocidas e investigaciones:
Conocimiento Documentado:
- Guías de solución de problemas de Nokia AirScale
- Historial de tickets anteriores (problemas similares)
- Runbooks documentados de RAN Monitor
- Experiencia del equipo (expertos en la materia)
Paso 3: Verificar Métricas Relacionadas
Correlacione alarmas con métricas de rendimiento para entender el impacto:
Ejemplo: Alarma "Recurso DL Bloqueado"
├─ Verificar Utilización de Recurso DL (debería ser > 95%)
├─ Verificar Rendimiento de Tráfico (¿tendencia al alza?)
├─ Verificar Éxito en la Configuración de Llamadas (¿caídas?)
├─ Verificar Éxito en el Handover (¿afectado?)
└─ Verificar Disponibilidad de la Celda (¿caída?)
Herramientas:
- Grafana → Panel específico del dispositivo
- Interfaz Web → Página de detalles del dispositivo → Sección de Métricas
- Consultas directas en InfluxDB para correlación
Paso 4: Correlacionar con Cambios Recientes
Muchos problemas son causados por modificaciones recientes:
Línea de Tiempo:
├─ Cambios de configuración (últimas 4 horas)
├─ Actualizaciones de software (últimas 24 horas)
├─ Ajuste de parámetros de función (últimos 7 días)
├─ Actividades de mantenimiento (últimos 7 días)
├─ Cambios en la red (últimos 7 días)
└─ Cambios de terceros (red externa)
Herramientas:
- RAN Monitor → Historial de configuración
- Sistema de gestión de cambios
- Historial de incidentes (problemas similares antes)
- Registros de notificaciones entre equipos
Paso 5: Diagnosticar Causa Raíz
Basado en la investigación, identifique la causa raíz:
Ejemplo de Árbol de Decisiones: Alarma "Celda No Disponible"
Alarma de Celda No Disponible
│
├─ ¿El dispositivo responde a la gestión?
│ ├─ NO → Verificar conectividad del dispositivo, reiniciar si es necesario
│ └─ SÍ → Continuar
│
├─ ¿Todas las celdas están caídas o una celda específica?
│ ├─ Todas las celdas → Verificar hardware de banda base/suministro de energía
│ └─ Celda específica → Continuar
│
├─ ¿La celda está transmitiendo potencia?
│ ├─ NO → Verificar Amplificador de Potencia, conexión de antena
│ └─ SÍ → Continuar
│
├─ ¿Las celdas vecinas informan sobre esta celda?
│ ├─ SÍ → Otros dispositivos ven esta celda como no disponible
│ │ → Verificar alineación de antena, conexión de cable
│ └─ NO → La celda está caída por una razón interna
│ → Verificar estado del módulo de banda base, estado de DSP
│
└─ Verificar registros en busca de mensajes de error
→ Caída de software
→ Violación de licencia
→ Error de parámetro
Paso 6: Implementar Resolución
Una vez identificada la causa raíz, implemente la solución:
Tipos de Resoluciones:
| Tipo | Método | Ejemplo |
|---|---|---|
| Inmediata | Reiniciar/reboot | Reinicio del dispositivo para limpiar proceso colgado |
| Configuración | Ajustar parámetros | Cambiar umbral de handover |
| Hardware | Reemplazar/reparar | Cambiar fuente de alimentación fallida |
| Software | Actualizar/parchear | Instalar corrección de error de software |
| Red | Arreglar conectividad | Restaurar ruta BGP, arreglar firewall |
Paso 7: Verificar Resolución
Después de implementar la solución, verifique:
Lista de Verificación de Verificación:
□ Alarma despejada en RAN Monitor
□ Métricas relacionadas se han normalizado
□ Sin alarmas secundarias/cascadas
□ Métricas de rendimiento regresaron a la línea base
□ Informes de clientes (si corresponde) resueltos
□ El sistema está estable (> 30 minutos de observación)
Paso 8: Documentar Aprendizaje
Registre los hallazgos para referencia futura:
Documentar:
- Causa raíz y factores contribuyentes
- Pasos tomados para resolver
- Tiempo gastado (para seguimiento de SLA)
- Medidas preventivas tomadas
- Conocimiento compartido con el equipo
Procedimientos de Escalación
Escalera de Escalación
Disparadores de Escalación
Escalar a Nivel 2 si:
- Alarma crítica no despejada después de 15 minutos
- Alarma mayor no despejada después de 30 minutos
- El problema está fuera de la experiencia del equipo NOC
- Requiere reinicio de dispositivo/cambio mayor
- Afecta a > 1 sitio simultáneamente
Escalar a Nivel 3 si:
- Nivel 2 no puede diagnosticar después de 1 hora
- Problema crítico persiste > 30 minutos
- Se sospecha fallo de hardware
- Se detectan problemas en cascada
- Requiere participación del vendedor
Contactar al Vendedor (Nivel 4) si:
- Se confirma fallo de hardware (PSU, CMON, etc.)
- Se sospecha error de software (caída irrecuperable)
- Problema de licencia/activación
- Problema documentado en problemas conocidos del vendedor
- Múltiples niveles de escalación no pueden resolver
Comunicación de Escalación
Plantilla para Escalar a Nivel 2:
Asunto: Escalación - [Severidad] - [Dispositivo] - [Problema]
Hora de Alerta: [2025-12-10 14:30 UTC]
Duración: [15 minutos]
Dispositivo: [SITE_A_BS1]
Problema: [Celda No Disponible]
Síntomas:
- Celda A1 no responde a la gestión
- Todas las celdas informando celda no disponible
- Ping del dispositivo exitoso
Investigación Realizada:
- Conectividad del dispositivo verificada
- Estado del módulo de banda base verificado
- Estado de la fuente de alimentación: OK
- Temperatura: Normal
Métricas:
- Disponibilidad de celda: 0%
- Sin tráfico en la celda
- Plano de control: Conectado
Análisis Inicial:
- Posible fallo del módulo de banda base
- O problema de hardware del amplificador de potencia
Próximos Pasos Recomendados:
- Diagnósticos de hardware
- Intercambio de módulo si está disponible
- Reinicio del dispositivo como último recurso
Enlace de Escalación: [Enlace del Panel]
Seguimiento de Resoluciones
Seguimiento de SLA
Rastrear el tiempo hasta la resolución para el cumplimiento de SLA:
Línea de Tiempo de Alarma:
├─ Hora del Evento: 14:23:45 ← Cuándo ocurrió el problema
├─ Hora de Detección: 14:23:47 (2 seg) ← Gestión detectó
├─ Hora de Alerta: 14:23:50 (5 seg) ← Operaciones notificadas
├─ Hora de Reconocimiento: 14:24:15 (30 seg) ← Operador reconocido
├─ Investigación: 14:24:15 → 14:28:00 (3.75 min)
├─ Resolución: 14:28:00 → 14:28:35 (35 seg de arreglo + verificación)
└─ Hora de Despeje: 14:28:36 ← Alarma despejada
└─ Duración Total: 5 min 51 seg
Métricas de SLA:
├─ Latencia de Detección: 2 segundos
├─ Alerta a ACK: 30 segundos
├─ Tiempo para Resolver: 5 min 51 seg
└─ Estado de SLA: APROBADO (< 15 min objetivo)
Análisis de Tendencias
Rastrear patrones en los datos de alarmas:
Preguntas a hacer:
- ¿Estamos viendo la misma alarma repetidamente?
- ¿Está aumentando/disminuyendo la tasa de alarmas?
- ¿Se agrupan las alarmas en momentos específicos?
- ¿Se ven afectados múltiples sitios simultáneamente?
- ¿Está mejorando el MTTR con el tiempo?
Herramientas:
- Grafana → Panel de tendencias de alarmas
- Informe de alarmas principales (semanal)
- Seguimiento de MTTR por dispositivo/tipo
Prevención de Problemas Recurrentes
Mejores Prácticas
Excelencia Operativa
1. Prevención de Fatiga por Alarmas
- Establecer umbrales significativos (no demasiado sensibles)
- Usar ventanas de duración (no un solo pico)
- Agregar alarmas relacionadas
- Suprimir falsos positivos conocidos
2. Respuesta Rápida
- Mantener runbooks actualizados
- Capacitar al equipo sobre problemas comunes
- Usar automatización para reinicios rutinarios
- Tener contactos de escalación disponibles
3. Documentación de Calidad
- Documentar cada incidente
- Compartir aprendizajes con el equipo
- Actualizar runbooks basados en incidentes
- Capacitar a los miembros del equipo
4. Monitoreo Proactivo
- Vigilar advertencias antes de críticas
- Análisis de tendencias para planificación de capacidad
- Chequeos de salud regulares
- Establecimiento de línea base de rendimiento
Desarrollo de Runbook
Cada alarma frecuente debe tener un runbook:
Plantilla:
Alarma: [Celda No Disponible]
Probabilidad: [Alta]
MTTR: [5-15 minutos]
Objetivo de SLA: [Resuelto dentro de 30 minutos]
Síntomas:
- Alarma: "Celda No Disponible"
- Usuarios: Incapaces de conectarse
- Métricas: Disponibilidad de celda 0%
Diagnóstico Rápido (< 5 minutos):
1. ¿Está el dispositivo respondiendo a ping?
2. ¿Están funcionando otras celdas?
3. ¿Está funcionando la banda base (verificar registros)?
Pasos de Resolución:
Paso 1: Verificación de Conectividad del Dispositivo
- Hacer ping al dispositivo: ping 192.168.1.100
- Si no hay respuesta → Verificar conectividad de red
Paso 2: Estado del Hardware
- Verificar estado del Amplificador de Potencia
- Verificar LEDs del módulo de banda base
- Verificar conexión de antena
Paso 3: Reiniciar Celda
- Reiniciar celda a través de la interfaz de gestión
- Esperar 60 segundos para el inicio
- Verificar que las métricas se normalicen
Paso 4: Si Aún Está Caída
- Escalar a Nivel 2
- Preparar para reinicio del dispositivo
- Notificar al cliente
Escalación:
- Si > 15 minutos → Escalar a [Nombre del Ingeniero]
- Si > 30 minutos → Escalar a [Ingeniero Senior]
- Si falla el hardware → Contactar Soporte de Nokia
Prevención:
- Actualizaciones regulares del firmware de banda base
- Reemplazo preventivo de la fuente de alimentación
- Inspección de conexión de antena trimestralmente