Saltar al contenido principal

Gestión de Alarmas y Escalación

Manejo de Fallos, Niveles de Severidad y Respuesta Operativa

Guía para gestionar alarmas, investigar fallos y escalar problemas


Tabla de Contenidos

  1. Descripción General
  2. Ciclo de Vida de la Alarma
  3. Niveles de Severidad
  4. Categorías de Alarmas
  5. Investigación y Solución de Problemas
  6. Procedimientos de Escalación
  7. Seguimiento de Resoluciones
  8. Mejores Prácticas

Descripción General

Las alarmas (también llamadas "fallos") representan problemas o anomalías detectadas en las estaciones base Nokia AirScale. RAN Monitor supervisa continuamente las alarmas activas y rastrea su ciclo de vida desde la generación hasta la resolución.

Ejemplo de Panel de Alarmas:

Alarm Overview Dashboard

Ejemplo que muestra el estado de 4G con una tabla de resumen de alarmas que muestra el estado de la alarma (activa/despejada), niveles de severidad (crítica/advertencia), marcas de tiempo y descripciones de alarmas por fallos en la interfaz óptica.

Fuentes de Alarmas

Atributos Clave de la Alarma

Cada alarma contiene:

AtributoEjemploPropósito
ID de Alarmaa1b2c3d4-e5f6-...Identificador único
SeveridadCrítica, Mayor, MenorNivel de prioridad
Causa Probable"Celda No Disponible"Categoría de causa raíz
Problema Específico"Conexión S1 Perdida"Problema detallado
Sistema Afectado/BSC-1/BTS-23/Celda-ALo que está impactado (DN)
Hora del Evento2025-12-10 14:23:45Cuándo se detectó
EstadoActiva / DespejadaEstado actual

Ciclo de Vida de la Alarma

Transiciones de Estado

Ejemplo de Línea de Tiempo de Alarmas

14:23:45 UTC - Ocurre el Problema
└─> La estación base detecta pérdida de conectividad
└─> Genera alarma: "Conexión S1 Perdida" (Crítica)

14:23:47 UTC - Alarma Enviada a RAN Monitor
└─> Notificación webhook de NE3S recibida
└─> Almacenada en InfluxDB
└─> Regla de alerta activada

14:23:50 UTC - Notificación Enviada
└─> Alerta de Grafana activada
└─> Mensaje de Slack al equipo NOC
└─> Incidente de PagerDuty creado

14:24:15 UTC - El Operador Reconoce
└─> El equipo NOC marca como reconocido
└─> Comienza el seguimiento de duración

14:28:35 UTC - El Problema se Resuelve Automáticamente
└─> Conectividad restaurada
└─> La estación base despeja la alarma
└─> RAN Monitor registra "Despejada"

14:28:36 UTC - Alarma Cerrada
└─> Duración registrada: 5 minutos 51 segundos
└─> Seguimiento para informes de SLA
└─> Archivada después de 30 días

Niveles de Severidad

RAN Monitor rastrea cinco niveles de severidad, cada uno con diferentes impactos operativos y requisitos de escalación:

Severidad Crítica

Definición: Impacta el servicio, requiere acción inmediata

Ejemplos:

  • Dispositivo completamente inalcanzable (pérdida de conectividad)
  • Todas las celdas caídas (fallo de banda base)
  • Interfaz de plano de control caída (S1 perdido)
  • Fallo completo en el reenvío de datos
  • La estación base no responde a la gestión

Escalación:

  • Notificar al ingeniero de guardia inmediatamente (llamada telefónica)
  • Crear incidente en el sistema de gestión de incidentes
  • Actualizar la página de estado
  • Informar a la dirección si se ve afectado el SLA

SLA de Respuesta: < 15 minutos

Severidad Mayor

Definición: Rendimiento degradado, requiere investigación urgente

Ejemplos:

  • Disponibilidad de celda < 95% durante > 15 minutos
  • Tasa de éxito de transferencia < 95%
  • Recurso DL/UL bloqueado (> 95% de utilización sostenida)
  • Tasa de retransmisión de RLC > 5%
  • Múltiples celdas mostrando mala calidad
  • Degradación del enlace (aumentando errores E1/T1)

Escalación:

  • Notificar al equipo NOC + ingeniero senior
  • Crear incidente en gestión de incidentes
  • Notificar al equipo de ingeniería si sigue abierto después de 30 minutos
  • Verificar problemas en cascada a otras celdas/sitios

SLA de Respuesta: < 30 minutos de investigación

Severidad Menor

Definición: Degradación, rastrear e investigar

Ejemplos:

  • Disponibilidad de celda 95-98% (tendencia a la baja)
  • Advertencia de alta temperatura en amplificador
  • Capacidad de licencia acercándose al límite
  • Problemas de consistencia de configuración
  • Rendimiento lento en la interfaz de gestión
  • Alarmas intermitentes (< 5 ocurrencias/hora)

Escalación:

  • Registrar en el panel para conocimiento
  • Asignar a ingeniería para investigación
  • Programar para la próxima ventana de mantenimiento si es necesario
  • Crear ticket para análisis de tendencias

SLA de Respuesta: Revisión el mismo día

Severidad de Advertencia

Definición: Informativa, monitorear tendencias

Ejemplos:

  • Disponibilidad de celda > 98% pero tendencia a la baja
  • Temperatura/potencia en rango normal pero elevada
  • Recursos al 60-70% de utilización
  • Desajuste de configuración (parámetros no críticos)
  • Primera ocurrencia de un nuevo tipo de fallo

Escalación:

  • Visibilidad en el panel solamente
  • Sin notificaciones automáticas
  • Revisión manual en cadencia

Despejada

Definición: Alarma previamente activa ahora resuelta

Propósito:

  • Documentar que el problema ha sido resuelto
  • Rastrear el tiempo medio de reparación (MTTR)
  • Permitir informes de cumplimiento de SLA
  • Identificar problemas recurrentes

Categorías de Alarmas

Alarmas de Conectividad

Categoría: Conectividad Externa
Causas Probables:
- Conexión S1 Perdida → MME/SGW inalcanzable
- Enlace de Retroceso Caído → Fallo en el transporte IP
- Error en la Interfaz USIM → Problema de conectividad HSS
- Sincronización NTP Perdida → Problema de red de sincronización de tiempo

Impacto: Interrupción del servicio, fallos en la configuración de llamadas
Investigación:
1. Verificar conectividad de red entre dispositivos
2. Verificar que las reglas del firewall permitan los protocolos requeridos
3. Verificar el estado y errores del dispositivo par
4. Revisar estadísticas de la interfaz de red

Alarmas de Hardware y Medio Ambiente

Categoría: Infraestructura Física
Causas Probables:
- Advertencia de Alta Temperatura → Sistema de refrigeración degradado
- Fuente de Alimentación Degradada → Problema de UPS/PSU
- Fallo del Ventilador → Mal funcionamiento del ventilador de refrigeración
- Espacio en Disco Bajo → Almacenamiento acercándose al límite
- Agotamiento de Memoria → Fuga de memoria del proceso

Impacto: Fallos en cascada potenciales, pérdida de datos
Investigación:
1. Verificar el estado del hardware a través de la interfaz de gestión
2. Revisar tendencias de temperatura
3. Verificar el funcionamiento del sistema de refrigeración
4. Monitorear la utilización de memoria y CPU

Alarmas de Software y Proceso

Categoría: Capa de Aplicación
Causas Probables:
- Fallo de Proceso → Error de software o OOM
- Alta Utilización de CPU → Cuello de botella en el rendimiento
- Sobrecarga de Cola → Acumulación de procesamiento de mensajes
- Violación de Licencia → Capacidad excedida

Impacto: Degradación o interrupción del servicio
Investigación:
1. Verificar el estado del proceso
2. Revisar registros en busca de mensajes de error
3. Monitorear CPU/memoria/profundidad de cola
4. Verificar el estado de la licencia

Alarmas de Recursos de Radio

Categoría: Interfaz de Aire
Causas Probables:
- Celda No Disponible → Sin cobertura/potencia de radio
- Recurso DL Bloqueado → Agotamiento de capacidad
- Alta Tasa de Fallo de Handover → Problema de configuración de vecino
- Mala Calidad de Celda → Interferencia RF o pérdida de trayectoria

Impacto: Degradación de la experiencia del usuario
Investigación:
1. Verificar parámetros físicos de la celda
2. Revisar la configuración de la celda vecina
3. Analizar métricas de calidad RF
4. Verificar alineación de antena

Alarmas de Configuración

Categoría: Estado del Sistema
Causas Probables:
- Desajuste de Parámetros → Inconsistencia de configuración
- Licencia Expirada → Problema de licencia
- Error de Suma de Comprobación de Configuración → Corrupción o conflicto
- Función No Licenciada → Uso de función excede la licencia

Impacto: Indisponibilidad o degradación de funciones
Investigación:
1. Revisar cambios de configuración
2. Comparar configuración actual vs. la prevista
3. Verificar archivo de licencia y expiración
4. Verificar compatibilidad de versión de software

Investigación y Solución de Problemas

Flujo de Trabajo de Investigación

Paso 1: Revisar Detalles de la Alarma

Cuando se activa una alarma, comience por recopilar información:

Qué recopilar:

  • ID de Alarma e identificador único
  • Severidad y causa probable
  • DN del sistema afectado (dispositivo/celda/componente)
  • Hora del evento (cuándo ocurrió)
  • Duración (cuánto tiempo ha estado activa)
  • Descripción completa de la alarma y texto

Herramientas:

  • Interfaz Web de RAN Monitor → Página de Alarmas
  • Grafana → Tabla de Alarmas Activas
  • InfluxDB → Consultar registro de alarma en bruto

Paso 2: Investigar Causa Probable

Cada tipo de alarma tiene causas conocidas e investigaciones:

Conocimiento Documentado:

  • Guías de solución de problemas de Nokia AirScale
  • Historial de tickets anteriores (problemas similares)
  • Runbooks documentados de RAN Monitor
  • Experiencia del equipo (expertos en la materia)

Paso 3: Verificar Métricas Relacionadas

Correlacione alarmas con métricas de rendimiento para entender el impacto:

Ejemplo: Alarma "Recurso DL Bloqueado"
├─ Verificar Utilización de Recurso DL (debería ser > 95%)
├─ Verificar Rendimiento de Tráfico (¿tendencia al alza?)
├─ Verificar Éxito en la Configuración de Llamadas (¿caídas?)
├─ Verificar Éxito en el Handover (¿afectado?)
└─ Verificar Disponibilidad de la Celda (¿caída?)

Herramientas:

  • Grafana → Panel específico del dispositivo
  • Interfaz Web → Página de detalles del dispositivo → Sección de Métricas
  • Consultas directas en InfluxDB para correlación

Paso 4: Correlacionar con Cambios Recientes

Muchos problemas son causados por modificaciones recientes:

Línea de Tiempo:
├─ Cambios de configuración (últimas 4 horas)
├─ Actualizaciones de software (últimas 24 horas)
├─ Ajuste de parámetros de función (últimos 7 días)
├─ Actividades de mantenimiento (últimos 7 días)
├─ Cambios en la red (últimos 7 días)
└─ Cambios de terceros (red externa)

Herramientas:

  • RAN Monitor → Historial de configuración
  • Sistema de gestión de cambios
  • Historial de incidentes (problemas similares antes)
  • Registros de notificaciones entre equipos

Paso 5: Diagnosticar Causa Raíz

Basado en la investigación, identifique la causa raíz:

Ejemplo de Árbol de Decisiones: Alarma "Celda No Disponible"

Alarma de Celda No Disponible

├─ ¿El dispositivo responde a la gestión?
│ ├─ NO → Verificar conectividad del dispositivo, reiniciar si es necesario
│ └─ SÍ → Continuar

├─ ¿Todas las celdas están caídas o una celda específica?
│ ├─ Todas las celdas → Verificar hardware de banda base/suministro de energía
│ └─ Celda específica → Continuar

├─ ¿La celda está transmitiendo potencia?
│ ├─ NO → Verificar Amplificador de Potencia, conexión de antena
│ └─ SÍ → Continuar

├─ ¿Las celdas vecinas informan sobre esta celda?
│ ├─ SÍ → Otros dispositivos ven esta celda como no disponible
│ │ → Verificar alineación de antena, conexión de cable
│ └─ NO → La celda está caída por una razón interna
│ → Verificar estado del módulo de banda base, estado de DSP

└─ Verificar registros en busca de mensajes de error
→ Caída de software
→ Violación de licencia
→ Error de parámetro

Paso 6: Implementar Resolución

Una vez identificada la causa raíz, implemente la solución:

Tipos de Resoluciones:

TipoMétodoEjemplo
InmediataReiniciar/rebootReinicio del dispositivo para limpiar proceso colgado
ConfiguraciónAjustar parámetrosCambiar umbral de handover
HardwareReemplazar/repararCambiar fuente de alimentación fallida
SoftwareActualizar/parchearInstalar corrección de error de software
RedArreglar conectividadRestaurar ruta BGP, arreglar firewall

Paso 7: Verificar Resolución

Después de implementar la solución, verifique:

Lista de Verificación de Verificación:
□ Alarma despejada en RAN Monitor
□ Métricas relacionadas se han normalizado
□ Sin alarmas secundarias/cascadas
□ Métricas de rendimiento regresaron a la línea base
□ Informes de clientes (si corresponde) resueltos
□ El sistema está estable (> 30 minutos de observación)

Paso 8: Documentar Aprendizaje

Registre los hallazgos para referencia futura:

Documentar:

  • Causa raíz y factores contribuyentes
  • Pasos tomados para resolver
  • Tiempo gastado (para seguimiento de SLA)
  • Medidas preventivas tomadas
  • Conocimiento compartido con el equipo

Procedimientos de Escalación

Escalera de Escalación

Disparadores de Escalación

Escalar a Nivel 2 si:

  • Alarma crítica no despejada después de 15 minutos
  • Alarma mayor no despejada después de 30 minutos
  • El problema está fuera de la experiencia del equipo NOC
  • Requiere reinicio de dispositivo/cambio mayor
  • Afecta a > 1 sitio simultáneamente

Escalar a Nivel 3 si:

  • Nivel 2 no puede diagnosticar después de 1 hora
  • Problema crítico persiste > 30 minutos
  • Se sospecha fallo de hardware
  • Se detectan problemas en cascada
  • Requiere participación del vendedor

Contactar al Vendedor (Nivel 4) si:

  • Se confirma fallo de hardware (PSU, CMON, etc.)
  • Se sospecha error de software (caída irrecuperable)
  • Problema de licencia/activación
  • Problema documentado en problemas conocidos del vendedor
  • Múltiples niveles de escalación no pueden resolver

Comunicación de Escalación

Plantilla para Escalar a Nivel 2:

Asunto: Escalación - [Severidad] - [Dispositivo] - [Problema]

Hora de Alerta: [2025-12-10 14:30 UTC]
Duración: [15 minutos]
Dispositivo: [SITE_A_BS1]
Problema: [Celda No Disponible]

Síntomas:
- Celda A1 no responde a la gestión
- Todas las celdas informando celda no disponible
- Ping del dispositivo exitoso

Investigación Realizada:
- Conectividad del dispositivo verificada
- Estado del módulo de banda base verificado
- Estado de la fuente de alimentación: OK
- Temperatura: Normal

Métricas:
- Disponibilidad de celda: 0%
- Sin tráfico en la celda
- Plano de control: Conectado

Análisis Inicial:
- Posible fallo del módulo de banda base
- O problema de hardware del amplificador de potencia

Próximos Pasos Recomendados:
- Diagnósticos de hardware
- Intercambio de módulo si está disponible
- Reinicio del dispositivo como último recurso

Enlace de Escalación: [Enlace del Panel]

Seguimiento de Resoluciones

Seguimiento de SLA

Rastrear el tiempo hasta la resolución para el cumplimiento de SLA:

Línea de Tiempo de Alarma:
├─ Hora del Evento: 14:23:45 ← Cuándo ocurrió el problema
├─ Hora de Detección: 14:23:47 (2 seg) ← Gestión detectó
├─ Hora de Alerta: 14:23:50 (5 seg) ← Operaciones notificadas
├─ Hora de Reconocimiento: 14:24:15 (30 seg) ← Operador reconocido
├─ Investigación: 14:24:15 → 14:28:00 (3.75 min)
├─ Resolución: 14:28:00 → 14:28:35 (35 seg de arreglo + verificación)
└─ Hora de Despeje: 14:28:36 ← Alarma despejada
└─ Duración Total: 5 min 51 seg

Métricas de SLA:
├─ Latencia de Detección: 2 segundos
├─ Alerta a ACK: 30 segundos
├─ Tiempo para Resolver: 5 min 51 seg
└─ Estado de SLA: APROBADO (< 15 min objetivo)

Análisis de Tendencias

Rastrear patrones en los datos de alarmas:

Preguntas a hacer:

  • ¿Estamos viendo la misma alarma repetidamente?
  • ¿Está aumentando/disminuyendo la tasa de alarmas?
  • ¿Se agrupan las alarmas en momentos específicos?
  • ¿Se ven afectados múltiples sitios simultáneamente?
  • ¿Está mejorando el MTTR con el tiempo?

Herramientas:

  • Grafana → Panel de tendencias de alarmas
  • Informe de alarmas principales (semanal)
  • Seguimiento de MTTR por dispositivo/tipo

Prevención de Problemas Recurrentes


Mejores Prácticas

Excelencia Operativa

1. Prevención de Fatiga por Alarmas

  • Establecer umbrales significativos (no demasiado sensibles)
  • Usar ventanas de duración (no un solo pico)
  • Agregar alarmas relacionadas
  • Suprimir falsos positivos conocidos

2. Respuesta Rápida

  • Mantener runbooks actualizados
  • Capacitar al equipo sobre problemas comunes
  • Usar automatización para reinicios rutinarios
  • Tener contactos de escalación disponibles

3. Documentación de Calidad

  • Documentar cada incidente
  • Compartir aprendizajes con el equipo
  • Actualizar runbooks basados en incidentes
  • Capacitar a los miembros del equipo

4. Monitoreo Proactivo

  • Vigilar advertencias antes de críticas
  • Análisis de tendencias para planificación de capacidad
  • Chequeos de salud regulares
  • Establecimiento de línea base de rendimiento

Desarrollo de Runbook

Cada alarma frecuente debe tener un runbook:

Plantilla:

Alarma: [Celda No Disponible]
Probabilidad: [Alta]
MTTR: [5-15 minutos]
Objetivo de SLA: [Resuelto dentro de 30 minutos]

Síntomas:
- Alarma: "Celda No Disponible"
- Usuarios: Incapaces de conectarse
- Métricas: Disponibilidad de celda 0%

Diagnóstico Rápido (< 5 minutos):
1. ¿Está el dispositivo respondiendo a ping?
2. ¿Están funcionando otras celdas?
3. ¿Está funcionando la banda base (verificar registros)?

Pasos de Resolución:
Paso 1: Verificación de Conectividad del Dispositivo
- Hacer ping al dispositivo: ping 192.168.1.100
- Si no hay respuesta → Verificar conectividad de red

Paso 2: Estado del Hardware
- Verificar estado del Amplificador de Potencia
- Verificar LEDs del módulo de banda base
- Verificar conexión de antena

Paso 3: Reiniciar Celda
- Reiniciar celda a través de la interfaz de gestión
- Esperar 60 segundos para el inicio
- Verificar que las métricas se normalicen

Paso 4: Si Aún Está Caída
- Escalar a Nivel 2
- Preparar para reinicio del dispositivo
- Notificar al cliente

Escalación:
- Si > 15 minutos → Escalar a [Nombre del Ingeniero]
- Si > 30 minutos → Escalar a [Ingeniero Senior]
- Si falla el hardware → Contactar Soporte de Nokia

Prevención:
- Actualizaciones regulares del firmware de banda base
- Reemplazo preventivo de la fuente de alimentación
- Inspección de conexión de antena trimestralmente