RAN 监控操作指南
无线接入网络 (RAN) 监控与管理平台
由 Omnitouch 网络服务提供
目录
概述
RAN 监控是一个用于 Nokia AirScale 基站在 3GPP LTE 和 5G 网络中的管理和监控平台。它提供了对您的 RAN 设备健康、性能和配置的实时可视化。
关键特性
- 实时监控 - 持续收集性能指标和警报
- 自动化管理 - 维护与基站的持久连接
- 历史分析 - 存储数据以进行趋势分析和容量规划
- Web 仪表板 - 通过内置 Web UI 实现实时操作可视化
- Grafana 集成 - 高级分析和自定义仪表板
系统组件
| 组件 | 目的 | 访问 |
|---|---|---|
| RAN 监控管理器 | ���理基站连接的核心应用程序 | 后台服务 |
| Web UI 控制面板 | 实时操作仪表板 | https://<server>:9443 |
| MySQL 数据库 | 会话状态和设备配置 | 内部 |
| InfluxDB | 时间序列指标存储 | http://<server>:8086 |
| Grafana | 分析仪表板和警报 | http://<server>:3000 |
| TCE NSNTI 服务器 | 从基站收集跟踪 | TCP 端口 49151 |
| TCE TZSP 转发器 | 实时跟踪导出到 Wireshark | UDP 端口 37008 |
示例:详细监控仪表板

综合监控仪表板显示 LNMME 的 S1 连接状态、操作状态、传输数据、连接的用户设备、平均 PRB 使用率、性能监控指标和地理覆盖图。该仪表板为网络运营商提供了对设备健康、连接状态和关键性能指标的快速可视化。
RAN 监控的功能
RAN 监控在后台持续运行,以:
- 注册和连接 - 与您的 Nokia 基站建立安全连接
- 收集性能数据 - 每 10 秒收集一次 KPI(可配置)
- 监控警报 - 跟踪故障及其严重程度
- 跟踪配置 - 记录系统状态和参数变化
- 存储历史数据 - 在时间序列数据库中保留指标
- 提供可视化 - 通过 Web UI 和 Grafana 显示实时状态
数据流
收集的内容
性能指标:
- 小区可用性和正常运行时间
- 流量吞吐量(上行/下行)
- 资源利用率(PRB 使用)
- 呼叫建立成功率
- 切换性能
- 无线质量测量
警报:
- 故障严重性(严重、主要、次要、警告)
- 受影响的系统和组件
- 可能的原因和描述
- 时间戳和持续时间
配置:
- 完整的 XML 配置快照(存储为版本文件)
- 自动变化检测和版本控制
- ��置历史和审计跟踪
- 每个设备保留最后 10 个版本
有关配置管理的详细信息,请参见 配置归档指南。
有关详细计数器定义,请参见 Nokia 计数器参考。
系统架构
基础设施概述
��置概述
有关完整的配置详细信息,请参见 运行时配置指南。
跟踪收集实体 (TCE)
RAN 监控包括一个集成的跟踪收集实体,用于捕获和分析 LTE/5G 协议消息。这使得详细故障排除、驱动测试和射频优化成为可能。
什么是 TCE?
跟踪收集实体接收来自 Nokia AirScale 基站的跟踪数据,包含:
- S1-AP 消息 - eNodeB 和 EPC 之间的控制面信令
- RRC 消息 - 无线资源控制信令
- NAS 消息 - 非接入层信令
- 用户平面数据 - PDCP 层吞吐量信息
用例
驱动测试:
- 捕获最终用户的射频体验
- 分析切换性能
- 测量信号质量(RSRP、RSRQ、SINR)
- 识别覆盖盲区
故障排除:
- 调试呼叫建立失败
- 分析切换问题
- 调查掉话
- 审查移动事件
射频优化:
- PCI 规划验证
- 邻接关系优化
- 切换参数调整
- 覆盖和容量分析
有关完整的跟踪收集程序和 Wireshark 分析,请参见 TCE MDT 数据收集指南。
Web UI 概述
RAN 监控包括一个内置的 Web UI,用于实时操作监控和管理。
访问: https://<ran-monitor-ip>:9443
主仪表板提供系统健康、设备状态和活动警报的快速可视化。
关键页面
主仪表板
实时系统概述,包括:
- 系统健康指标
- 设备状态摘要(关联/失败计数)
- 按严重性分类的活动警报计数
- 最近的活动和事件
每 5 秒自动刷新以实现实时可视化。
基站页面
查看所有受管理设备及其当前状态:
- 连接状态(绿色 = 关联,红色 = 失败)
- 注册状态和会话信息
- 最后联系时间戳
- 过滤、搜索和排序功能
单击任何设备以查看详细信息,包括注册详情、会话生命周期、最近指��和活动警报。

警报页面
监控网络中的所有故障:
- 按严重性分类的颜色编码(红色 = 严重,橙色 = 主要,黄色 = 次要,蓝色 = 警告,绿色 = 清除)
- 警报详情、可能原因、受影响系统
- 时间戳和持续时间跟踪
- 按严重性排序和过滤功能
有关警报处理程序的详细信息,请参见 警报管理指南。

配置管理
安全管理基站配置:
- 下载 当前配置(备份)
- 上传 新配置 → 接收计划 ID
- 验证 使用计划 ID 的配置
- 激活 验证的配置
- 验证 更改是否生效
始终在激活之前进行验证,以防止服务中断。
配置归档: 所有配置更改都会自动跟踪和版本控制。查看历史配置、下载以前版本或通过配置归档页面比较更改。
有关详细程序,请参见 Web UI 指南 - 配置管理 和 配置归档指南。

未配置的 eNodeB
发现尝试连接但尚未配置的基站:
- 代理 ID(���加到配置时使用)
- 最后看到的时间戳
- 连接尝试次数
- 操作:刷新、删除、清除所有
用例: 当新基站部署时,它们会出现在这里。复制代理 ID 并将其添加到 config/runtime.exs。

应用日志
实时日志仪表板用于故障排除:
- 按日志级别过滤(紧急到调试)
- 在所有消息中搜索
- 暂停/恢复实时流
- 动态更改系统日志级别
- 按严重性颜色编码
有关故障排除程序的详细信息,请参见 故障排除指南。

数据保留政策
管理数据在 InfluxDB 中存储的时间:
- 查看全局保留政策和总记录计数
- 设置每个设备的保留期限
- 按测量类型查看记录计数(性能指标、配置、警报)
- 手动触发清理或清除设备的所有数据
有关完整的数据保留信息,请参见 数据保留政策指南。

InfluxDB 状态
监控时间序列数据库的健康:
- 连接状态指示器
- 按类型的测量计数
- 存储信息
- 数据库版本和配置
- 每 5 分钟自动刷新
状态解释:
- 已连接 + 计数增长 = 正常操作
- 已连接 + 无数据 = 检查设备注册
- 已断开连接 = 检查 InfluxDB 连接性

完整的 Web UI 指南
有关全面的 Web UI 文档,包括所有功能、工作流程和最佳实践,请参见:
Web UI 指南 - 完整控制面板参考
使用 Grafana 进行监控
虽然 Web UI 提供实时可视化,但 Grafana 使深入的历史分析和自定义仪表板成为可能。
为什么使用 Grafana?
Grafana 最适合:
- 多天/周/月的历史趋势分析
- 根据您的需求量身定制的 KPI 仪表板
- 长期容量规划
- 模式识别和异常检测
- 高管报告和 SLA 跟踪
- 具有通知通道的高级警报
Web UI 最适合:
- 立即检查设备状态
- 实时警报监控
- 配置管理
- 会话故障排除
- 系统管理任务

示例 Grafana 仪表板显示小区可用性、吞吐量趋势和资源利用率
仪表板类型
高管摘要仪表板:
- 网络整体健康概述
- 按严重性分类的总警报计数
- 所有站点的平均小区可用性
- 汇总的吞吐量和容量指标
- 设备状态网格
NOC 操作仪表板:
- 实时活动问题表
- 资源利用率仪表
- 流量概述(过去 24 小时)
- 警报趋势图
- 设备状态快速查看
工程深度分析仪表板:
- 流量模式分析
- 小区质量指标(SINR、RSRP 分布)
- 无线性能(RLC 重传、RRC 建立成功)
- 配置审计跟踪
- 相关性分析
Nokia AirScale 性能仪表板:
- PRB 利用率(下行/上行)
- 吞吐量趋势(PDCP 层)
- 活动 UE 计数
- 小区可用性计算
- 每个小区的资源细分
- RSSI 测量
- RRC 连接建立成功
- 按天线的 VSWR
- 功耗
有关完整的仪表板示例、查询模式和计数器定义,请参见:
Grafana 集成指南 - 完整的分析和仪表板指南
Nokia 计数器参考 - 性能计数器定义
常见操作
日常操作
每日健康检查(5-10 分钟):
- 打开 Web UI 仪表板
- 验证所有设备显示绿色状态
- 检查警报计数和严重性
- 审查任何失败的设备
- 根据需要调查问题
有关详细程序,请参见 Web UI 指南 - 工作流程。
警报调查:
- 打开警报页面,按严重性排序
- 单击警报以获取完整详情
- 导航到受影响的设备
- 交叉参考指标
- 确定所需的操作并解决
有关警报处理程序的详细信息,请参见 警报管理指南。
设备管理
添加新基站:
- 验证与设备的网络连接
- 检查未配置的 eNodeB 页面以查找设备
- 将设备添加到
config/runtime.exs - 重启 RAN 监控
- 验证注册成功(绿色状态)
- 确认指标流入 InfluxDB
移除基站:
- 决定是保留还是删除历史数据
- 在
config/runtime.exs中注释掉或删除设备 - 可选地通过数据保留页面清除数据
- 重启 RAN 监控
- 更新 Grafana 仪表板
更新设备凭据:
- 注意当前设备状态
- 在
config/runtime.exs中更新凭据 - 重启 RAN 监控
- 验证重新连接成功
有关完整操作程序,请参见:
常见操作指南 - 日常管理任务

配置管理
安全配置更新工作流程:
- 下载 当前配置(备份) - 或从配置归档中检索
- 修改 离线配置
- 上传 到设备 → 获取计划 ID
- 验证 使用计划 ID → 验证无错误
- 激活 如果验证成功
- 验证 更改是否生效
- 监控 设备稳定性 15-30 分钟
- 确认 新版本出现在配置归档中(1 小时内)
重要: 始终在激活之前进行验证。尽可能在维护窗口期间安排更改。
配置回滚: 如果出现问题,请从配置归档中下载以前的版本,并使用相同的工作流程上传。
有关基站配置的详细信息,请参见 AirScale 配置指南。
有关配置历史和版本控制,请参见 配置归档指南。
文档索引
RAN 监控文档按受众和用例组织:
针对操作团队(NOC、管理员)
| 文档 | 目的 | 使用时机 |
|---|---|---|
| Web UI 指南 | 完整控制面板参考 | 日常操作、监控设备 |
| 常见操作指南 | 日常管理任务 | 添加设备、管理配置、备份 |
| 配置归档指南 | 配置版本控制和历史 | 跟踪配置更改、回滚、审计 |
| 警报管理指南 | 警报处理和升级 | 调查故障、响应警报 |
| 故障排除指南 | 问题解决程序 | 当出现问题时,错误诊断 |
| 数据保留政策指南 | 数据生命周期管理 | 管理存储、设置保留期限 |
针对工程和分析
| 文档 | 目的 | 使用时机 |
|---|---|---|
| Grafana 集成指南 | 仪表板、查询和警报 | 构建仪表板、设置警报 |
| Nokia 计数器参考 | 性能计数器定义 | 理解指标、创建查询 |
| AirScale 配置指南 | 基站设置和配置 | 配置设备、理解参数 |
| TCE MDT 数据收集指南 | MDT 跟踪收集和 Wireshark 分析 | 收集驱动测试数据、覆盖优化 |
| API 端点参考 | REST API 文档 | 集成、自动化、脚本 |
针对配置和部署
| 文档 | 目的 | 使用时机 |
|---|---|---|
| 运行时配置指南 | 完整配置参考 | 初始设置、修改设置 |
快速入门
新手使用 RAN 监控?
设置监控?
- 查看 Grafana 集成指南 以获取仪表板
- 参考 Nokia 计数器参考 以获取指标
- 查看 数据保留政策指南 以管理存储
快速参考
访问点
| 服务 | URL | 目的 |
|---|---|---|
| Web UI 仪表板 | https://<server>:9443 | 实时监控和管理 |
| Grafana | http://<server>:3000 | 分析仪表板和警报 |
| InfluxDB | http://<server>:8086 | 指标数据库(通常仅限内部访问) |
重要路径
| 路径 | 目的 |
|---|---|
config/runtime.exs | 主要配置文件(设备、数据库、设置) |
priv/cert/ | HTTPS Web UI 的 SSL 证书 |
priv/external/nokia/ | 管理员认证密钥 |
priv/airscale_configs/ | 配置归档(版本化 XML 文件) |
关键概念
会话管理:
- RAN 监控与基站建立会话
- 会话有过期时间并需要保持活动
- 重新注册会自动发生(默认:每 30 秒)
- 会话状态存储在 MySQL 数据库中
数据流:
- 每 10 秒收集一次指标(可配置)
- 每 10 秒通过轮询 + 实时 Webhook 收集警报
- 每 1 小时快照配置(在更改时保存为版本文件)
- 性能指标和警报写入 InfluxDB 以进行历史存储
数据保留:
- 全局默认:720 小时(30 天)
- 每设备可覆盖
- 自动清理每小时运行
- 通过 Web UI 可手动清理
有关配置详细信息,请参见 运行时配置指南。
常见工作流程
每日健康检查:
- 打开 Web UI → 仪表板
- 检查设备状态(全部绿色?)
- 审查警报计数
- 调查任何问题
响应关键警报:
- Web UI → 警报 → 按严重性排序
- 单击警报以获取详细信息
- 导航到设备
- 审查最近的指标和配置更改
- 实施解决方案
- 验证警报是否清除
添加新设备:
- 验证网络连接
- 编辑
config/runtime.exs - 将设备添加到 airscales 列表
- 重启 RAN 监控
- 验证注册(绿色状态)
支持
故障排除资源
| 资源 | 用于 |
|---|---|
| 故障排除指南 | 常见问题和解决方案 |
| 应用日志页面 | 实时系统日志和错误 |
| 设备详细视图 | 会话状态、注册问题 |
| InfluxDB 状态页面 | 数据收集验证 |
快速诊断步骤
设备未连接:
- 检查基站页面 → 设备状态
- 验证网络连接:
ping <device-ip> - 检查
config/runtime.exs中的凭据 - 审查应用日志以查找错误
Grafana 中没有指标:
- 检查设备是否已关联(绿色状态)
- 验证 InfluxDB 状态页面显示计数增长
- 测试 InfluxDB 连接性
- 检查 Grafana 数据源配置
Web UI 无法加载:
- 验证端口 9443 是否可访问
- 检查防火墙是否允许 HTTPS 流量
- 验证 SSL 证书是否存在
- 审查应用日志以查找 Web UI 启动错误
有关完整的故障排除程序,请参见 故障排除指南。
获取帮助
在联系支持之前:
收集以下信息:
- 问题描述及其开始时间
- 应用日志中的错误消息
- 受影响的设备(名称/IP)
- 最近的配置更改
- RAN 监控版本和操作系统
联系:
有关 RAN 监控的帮助:
- Omnitouch 网络服务支持
- 包括收集的诊断信息
- 提供配置文件(清除密码)
- 包括相关日志摘录
自助服务:
- 搜索 故障排除指南
- 检查应用日志以获取特定错误
- 审查最近的配置更改
- 测试连接性和基本功能
- 查阅相关文档指南