Prometheus 指标和监控指南

概述

OmniTAS 以 Prometheus 格式导出全面的操作指标，用于监控、警报和可观察性。本指南涵盖所有可用指标、其使用、故障排除和监控最佳实践。

指标端点

所有指标都在以下地址公开： http://<tas-ip>:8080/metrics

完整指标参考

Diameter 指标

`diameter_response_duration_milliseconds`

类型： Histogram
标签： application (ro, sh), command (ccr, cca, 等), result (success, error, timeout)
桶： 10, 50, 100, 250, 500, 1000, 2500, 5000, 10000 ms
描述： Diameter 请求的持续时间（以毫秒为单位）

用法：

# 平均 Diameter 响应时间
rate(diameter_response_duration_milliseconds_sum[5m]) /
rate(diameter_response_duration_milliseconds_count[5m])

# P95 Diameter 延迟
histogram_quantile(0.95, rate(diameter_response_duration_milliseconds_bucket[5m]))

警报条件：

P95 > 1000ms - Diameter 响应缓慢

`diameter_requests_total`

类型： Counter
标签： application (ro, sh), command (ccr, udr, 等)
描述： 发送的 Diameter 请求总数

用法：

# 请求速率
rate(diameter_requests_total[5m])

`diameter_responses_total`

类型： Counter
标签： application (ro, sh), command (ccr, udr, 等), result_code (2001, 3002, 5xxx, 等)
描述： 接收到的 Diameter 响应总数

用法：

# 成功率
rate(diameter_responses_total{result_code="2001"}[5m]) /
rate(diameter_responses_total[5m]) * 100

`diameter_peer_state`

类型： Gauge
标签： peer_host, peer_realm, application (ro, sh)
描述： Diameter 对等体的状态 (1=up, 0=down)
更新间隔： 每 10 秒

用法：

# 检查是否有对等体宕机
diameter_peer_state == 0

警报条件：

任何对等体宕机超过 1 分钟

拨号计划生成指标

1. HTTP 请求指标

`http_dialplan_request_duration_milliseconds`

类型： Histogram
标签： call_type (mt, mo, emergency, unknown)
描述： 端到端 HTTP 请求持续时间 从拨号计划 HTTP 请求接收时开始，到响应发送时结束。这包括所有处理：参数解析、授权、Diameter 查询 (Sh/Ro)、HLR 查询 (SS7 MAP) 和 XML 生成。

用法：

# 平均端到端 HTTP 请求时间
rate(http_dialplan_request_duration_milliseconds_sum[5m]) /
rate(http_dialplan_request_duration_milliseconds_count[5m])

# 按呼叫类型的 P95
histogram_quantile(0.95,
  rate(http_dialplan_request_duration_milliseconds_bucket[5m])
) by (call_type)

# 比较 MT 与 MO 性能
histogram_quantile(0.95,
  rate(http_dialplan_request_duration_milliseconds_bucket{call_type="mt"}[5m])
)
vs
histogram_quantile(0.95,
  rate(http_dialplan_request_duration_milliseconds_bucket{call_type="mo"}[5m])
)

警报条件：

P95 > 2000ms - HTTP 响应时间缓慢
P95 > 3000ms - 关键性能问题
P99 > 5000ms - 严重性能下降
任何请求显示 call_type="unknown" - 呼叫类型检测失败

洞察：

这是理解用户面向延迟的 最重要指标
典型值：P50: 100-500ms, P95: 500-2000ms, P99: 1000-3000ms
包括所有组件的时间 (Sh + HLR + OCS + 处理)
如果这个指标缓慢，深入分析组件指标 (subscriber_data, hlr_data, ocs_authorization)
预期范围：100ms (快速本地呼叫) 到 5000ms (缓慢且有重试/超时)

重要说明：

替代了旧的 dialplan_generation_duration_milliseconds 指标，该指标仅测量 XML 生成
准确反映 FreeSWITCH/SBC 的体验
用于 SLA 监控和容量规划

2. 订阅者数据指标

`subscriber_data_duration_milliseconds`

类型： Histogram
标签： result (success, error)
描述： 从 Sh 接口 (HSS) 检索订阅者数据所需的时间

用法：

# 平均 Sh 查询时间
rate(subscriber_data_duration_milliseconds_sum[5m]) /
rate(subscriber_data_duration_milliseconds_count[5m])

# 第 95 百分位 Sh 查询时间
histogram_quantile(0.95,
  rate(subscriber_data_duration_milliseconds_bucket[5m])
)

警报条件：

P95 > 100ms - HSS 响应缓慢
P95 > 500ms - 关键 HSS 性能问题

`subscriber_data_lookups_total`

类型： Counter
标签： result (success, error)
描述： 订阅者数据查询的总数

用法：

# Sh 查询速率
rate(subscriber_data_lookups_total[5m])

# Sh 错误率
rate(subscriber_data_lookups_total{result="error"}[5m])

# Sh 成功率百分比
(rate(subscriber_data_lookups_total{result="success"}[5m]) /
 rate(subscriber_data_lookups_total[5m])) * 100

警报条件：

错误率 > 5% - HSS 连接问题
错误率 > 20% - 关键 HSS 故障

2. HLR 数据指标

`hlr_data_duration_milliseconds`

类型： Histogram
标签： result (success, error)
描述： 通过 SS7 MAP 检索 HLR 数据所需的��间

用法：

# 平均 HLR 查询时间
rate(hlr_data_duration_milliseconds_sum[5m]) /
rate(hlr_data_duration_milliseconds_count[5m])

# 第 95 百分位 HLR 查询时间
histogram_quantile(0.95,
  rate(hlr_data_duration_milliseconds_bucket[5m])
)

警报条件：

P95 > 500ms - SS7 MAP 响应缓慢
P95 > 2000ms - 关键 SS7 MAP 问题

`hlr_lookups_total`

类型： Counter
标签： result_type (msrn, forwarding, error, unknown)
描述： 按结果类型的总 HLR 查询

用法：

# 按类型的 HLR 查询速率
rate(hlr_lookups_total[5m])

# MSRN 发现速率 (漫游订阅者)
rate(hlr_lookups_total{result_type="msrn"}[5m])

# 呼叫转发发现速率
rate(hlr_lookups_total{result_type="forwarding"}[5m])

# HLR 错误率
rate(hlr_lookups_total{result_type="error"}[5m])

警报条件：

错误率 > 10% - SS7 MAP 问题
MSRN 速率突然下降 - 可能的漫游问题

洞察：

高 MSRN 速率表明许多漫游订阅者
高转发率表明许多转发呼叫
与呼叫量进行比较以计算漫游百分比

3. OCS 授权指标

`ocs_authorization_duration_milliseconds`

类型： Histogram
标签： result (success, error)
描述： OCS 授权所需的时间

用法：

# 平均 OCS 授权时间
rate(ocs_authorization_duration_milliseconds_sum[5m]) /
rate(ocs_authorization_duration_milliseconds_count[5m])

# 第 95 百分位 OCS 授权时间
histogram_quantile(0.95,
  rate(ocs_authorization_duration_milliseconds_bucket[5m])
)

警报条件：

P95 > 1000ms - OCS 响应缓慢
P95 > 5000ms - 关键 OCS 性能问题

`ocs_authorization_attempts_total`

类型： Counter
标签： result (success, error), skipped (yes, no)
描述： OCS 授权尝试的总数

用法：

# OCS 授权速率
rate(ocs_authorization_attempts_total{skipped="no"}[5m])

# OCS 错误率
rate(ocs_authorization_attempts_total{result="error",skipped="no"}[5m])

# OCS 跳过率 (紧急、语音信箱等)
rate(ocs_authorization_attempts_total{skipped="yes"}[5m])

# OCS 成功率百分比
(rate(ocs_authorization_attempts_total{result="success",skipped="no"}[5m]) /
 rate(ocs_authorization_attempts_total{skipped="no"}[5m])) * 100

警报条件：

错误率 > 5% - OCS 连接问题
成功率 < 95% - OCS 拒绝过多呼叫

洞察：

高跳过率表明许多紧急/免费呼叫
错误率激增表明 OCS 故障
将成功率与业务期望进行比较

4. 呼叫处理指标

`call_param_errors_total`

类型： Counter
标签： error_type (parse_failed, missing_required_params)
描述： 呼叫参数解析错误

用法：

# 参数错误率
rate(call_param_errors_total[5m])

# 按类型的错误
rate(call_param_errors_total[5m]) by (error_type)

警报条件：

任何错误 > 0 - 表示格式不正确的呼叫参数请求
错误 > 1% 的呼叫量 - 关键问题

`authorization_decisions_total`

类型： Counter
标签： disposition (mt, mo, emergency, unauthorized), result (success, error)
描述： 按呼叫类型的授权决策

用法：

# 按处置的授权率
rate(authorization_decisions_total[5m]) by (disposition)

# MT 呼叫率
rate(authorization_decisions_total{disposition="mt"}[5m])

# MO 呼叫率
rate(authorization_decisions_total{disposition="mo"}[5m])

# 紧急呼叫率
rate(authorization_decisions_total{disposition="emergency"}[5m])

# 未授权呼叫率
rate(authorization_decisions_total{disposition="unauthorized"}[5m])

警报条件：

未授权率 > 1% - 可能的攻击或配置错误
紧急呼叫激增 - 可能的紧急事件
MT/MO 比率的意外变化 - 可能的问题

洞察：

MT/MO 比率指示流量模式
紧急呼叫率指示服务使用情况
未授权率指示安全态势

`freeswitch_variable_set_duration_milliseconds`

类型： Histogram
标签： batch_size (1, 5, 10, 25, 50, 100)
描述： 设置拨号计划变量所需的时间

用法：

# 平均变量设置时间
rate(freeswitch_variable_set_duration_milliseconds_sum[5m]) /
rate(freeswitch_variable_set_duration_milliseconds_count[5m])

# 按批量大小的变量设置时间
histogram_quantile(0.95,
  rate(freeswitch_variable_set_duration_milliseconds_bucket[5m])
) by (batch_size)

警报条件：

P95 > 100ms - 变量设置性能缓慢
增长趋势 - 可能的系统性能问题

5. 模块处理指标

`dialplan_module_duration_milliseconds`

类型： Histogram
标签： module (MT, MO, Emergency, CallParams, 等), call_type
描述： 每个拨号计划模块的处理时间

用法：

# 按模块的处理时间
histogram_quantile(0.95,
  rate(dialplan_module_duration_milliseconds_bucket[5m])
) by (module)

# MT 模块处理时间
histogram_quantile(0.95,
  rate(dialplan_module_duration_milliseconds_bucket{module="MT"}[5m])
)

警报条件：

任何模块 P95 > 500ms - 性能问题
任何模块的增长趋势 - 潜在泄漏或问题

洞察：

确定哪个模块最慢
优化最慢的模块
��较不同呼叫类型的模块时间

6. 呼叫量指标

`call_attempts_total`

类型： Counter
标签： call_type (mt, mo, emergency, unauthorized), result (success, rejected)
描述： 总呼叫尝试次数

用法：

# 呼叫尝试速率
rate(call_attempts_total[5m])

# 按呼叫类型的成功率
(rate(call_attempts_total{result="success"}[5m]) /
 rate(call_attempts_total[5m])) * 100 by (call_type)

# 被拒绝的呼叫率
rate(call_attempts_total{result="rejected"}[5m])

警报条件：

被拒绝率 > 5% - 可能的问题
呼叫量突然下降 - 服务中断
呼叫量突然激增 - 可能的攻击

`active_calls`

类型： Gauge
标签： call_type (mt, mo, emergency)
描述： 当前活跃呼叫

用法：

# 当前活跃呼叫
active_calls

# 按类型的活跃呼叫
active_calls by (call_type)

# 峰值活跃呼叫 (过去一小时)
max_over_time(active_calls[1h])

警报条件：

活跃呼叫 > 容量 - 超载
活跃呼叫 = 0 超过一段时间 - 服务中断

7. 模拟指标

`call_simulations_total`

类型： Counter
标签： call_type (mt, mo, emergency, unauthorized), source (web, api)
描述： 运行的呼叫模拟

用法：

# 模拟速率
rate(call_simulations_total[5m])

# 按类型的模拟
rate(call_simulations_total[5m]) by (call_type)

洞察：

跟踪诊断工具使用情况
确定重度用户
与故障排除活动相关联

8. SS7 MAP 指标

`ss7_map_http_duration_milliseconds`

类型： Histogram
标签： operation (sri, prn), result (success, error, timeout)
桶： 10, 50, 100, 250, 500, 1000, 2500, 5000, 10000 ms
描述： SS7 MAP HTTP 请求的持续时间（以毫秒为单位）

用法：

# SS7 MAP 错误率
rate(ss7_map_operations_total{result="error"}[5m]) /
rate(ss7_map_operations_total[5m]) * 100

警报条件：

P95 > 500ms - SS7 MAP 响应缓慢
错误率 > 50% - 关键 SS7 MAP 问题

`ss7_map_operations_total`

类型： Counter
标签： operation (sri, prn), result (success, error)
描述： SS7 MAP 操作的总数

9. 在线计费指标

`online_charging_events_total`

类型： Counter
标签： event_type (authorize, answer, reauth, hangup), result (success, nocredit, error, timeout)
描述： 在线计费事件的总数

用法：

# OCS 信贷失败
rate(online_charging_events_total{result="nocredit"}[5m])

警报条件：

信贷��败的高比率

10. 系统状态指标

`tracked_registrations`

类型： Gauge
描述： 当前活跃的 SIP 注册数量（来自 FreeSWITCH Sofia 注册数据库）
更新间隔： 每 10 秒

说明：

注册到期时会自动减少（FreeSWITCH 管理到期）

`tracked_call_sessions`

类型： Gauge
描述： 当前在 ETS 中跟踪的呼叫会话数量
更新间隔： 每 10 秒

11. HTTP 请求指标

`http_requests_total`

类型： Counter
标签： endpoint (dialplan, call_event, directory, voicemail, sms_ccr, metrics), status_code (200, 400, 500, 等)
描述： 按端点的 HTTP 请求总数

用法：

# HTTP 错误率
rate(http_requests_total{status_code=~"5.."}[5m]) /
rate(http_requests_total[5m]) * 100

警报条件：

HTTP 5xx 错误率 > 10%

12. 呼叫拒绝指标

`call_rejections_total`

类型： Counter
标签： call_type (mo, mt, emergency, unknown), reason (nocredit, unauthorized, parse_failed, missing_params, hlr_error, 等)
描述： 按原因的总呼叫拒绝次数

用法：

# 按原因的呼叫拒绝率
sum by (reason) (rate(call_rejections_total[5m]))

警报条件：

拒绝率 > 1/sec - 需要调查

13. 事件套接字连接指标

`event_socket_connected`

类型： Gauge
标签： connection_type (main, log_listener)
描述： 事件套接字连接状态 (1=connected, 0=disconnected)
更新间隔： 连接状态变化时实时更新

用法：

# 事件套接字连接状态
event_socket_connected

警报条件：

连接断开超过 30 秒

`event_socket_reconnections_total`

类型： Counter
标签： connection_type (main, log_listener), result (attempting, success, failed)
描述： 事件套接字重连尝试的总数

Grafana 仪表板集成

可以使用 Prometheus 数据源在 Grafana 中可视化这些指标。推荐的面板：

仪表板 1：呼叫量

活跃呼叫仪表
按类型的呼叫尝试速率 (MO/MT/紧急)
呼叫拒绝率

仪表板 2：Diameter 性能

响应时间热图
请求/响应速率
对等体状态表
按结果代码的错误率

仪表板 3：在线计费健康

信贷授权成功率
“无信贷”事件率
OCS 超时率

仪表板 4：系统性能

拨号计划生成延迟 (P50/P95/P99)
SS7 MAP 响应时间
整体系统可用性

关键警报

优先级 1 (立即页面)：

# 拨号计划完全宕机
rate(call_attempts_total[5m]) == 0

# HSS 完全宕机
rate(subscriber_data_lookups_total{result="error"}[5m]) /
rate(subscriber_data_lookups_total[5m]) > 0.9

# OCS 完全宕机
rate(ocs_authorization_attempts_total{result="error"}[5m]) /
rate(ocs_authorization_attempts_total[5m]) > 0.9

优先级 2 (警报)：

# 拨号计划生成缓慢
histogram_quantile(0.95,
  rate(dialplan_generation_duration_milliseconds_bucket[5m])
) > 1000

# 高 HSS 错误率
rate(subscriber_data_lookups_total{result="error"}[5m]) /
rate(subscriber_data_lookups_total[5m]) > 0.2

# 高 OCS 错误率
rate(ocs_authorization_attempts_total{result="error"}[5m]) /
rate(ocs_authorization_attempts_total[5m]) > 0.1

优先级 3 (警告)：

# HSS 延迟升高
histogram_quantile(0.95,
  rate(subscriber_data_duration_milliseconds_bucket[5m])
) > 100

# OCS 延迟升高
histogram_quantile(0.95,
  rate(ocs_authorization_duration_milliseconds_bucket[5m])
) > 1000

# 中等错误率
rate(call_attempts_total{result="rejected"}[5m]) /
rate(call_attempts_total[5m]) > 0.05

警报示例

Diameter 对等体宕机

alert: DiameterPeerDown
expr: diameter_peer_state == 0
for: 1m
annotations:
  summary: "Diameter 对等体 {{ $labels.peer_host }} 宕机"

高 Diameter 延迟

alert: HighDiameterLatency
expr: histogram_quantile(0.95, rate(diameter_response_duration_milliseconds_bucket[5m])) > 1000
for: 5m
annotations:
  summary: "Diameter P95 延迟超过 1s"

OCS 信贷失败

alert: HighOCSCreditFailures
expr: rate(online_charging_events_total{result="nocredit"}[5m]) > 0.1
for: 2m
annotations:
  summary: "高 OCS 信贷失败率"

SS7 MAP 网关错误

alert: SS7MapErrors
expr: rate(ss7_map_operations_total{result="error"}[5m]) / rate(ss7_map_operations_total[5m]) > 0.5
for: 3m
annotations:
  summary: "SS7 MAP 错误率超过 50%"

事件套接字断开

alert: EventSocketDown
expr: event_socket_connected == 0
for: 30s
annotations:
  summary: "事件套接字 {{ $labels.connection_type }} 断开"

高呼叫拒绝率

alert: HighCallRejectionRate
expr: rate(call_rejections_total[5m]) > 1
for: 2m
annotations:
  summary: "高呼叫拒绝率：{{ $value }} 拒绝/秒"

HTTP 错误率高

alert: HighHTTPErrorRate
expr: rate(http_requests_total{status_code=~"5.."}[5m]) / rate(http_requests_total[5m]) > 0.1
for: 3m
annotations:
  summary: "HTTP 5xx 错误率超过 10%"

使用指标进行故障排除

问题：呼叫类型显示为 "unknown"

症状：

所有指标显示 call_type="unknown" 而不是 mt、mo 或 emergency
无法区分呼叫类型之间的性能

根本原因： 呼叫类型提取失败或未正确传递通过处理管道。

调查：

检查日志中的 "HTTP 拨号计划请求" 消息 - 应该显示正确的呼叫类型
审查系统日志以查找呼叫类型处理错误

解决方案： 如果呼叫类型检测持续失败，请联系支持。

问题：呼叫缓慢

调查：

检查 http_dialplan_request_duration_milliseconds P95 - 从这里开始
如果高，检查组件时间：
- 检查 subscriber_data_duration_milliseconds 以查找 Sh 延迟
- 检查 hlr_data_duration_milliseconds 以查找 HLR 延迟
- 检查 ocs_authorization_duration_milliseconds 以查找 OCS 延迟
- 检查 dialplan_module_duration_milliseconds 以查找模块特定延迟
检查是否 call_type="unknown" - 表示呼叫类型检测失败
比较 MT 与 MO 与紧急处理时间
与系统日志相关联以获取详细错误消息

解决方案： 优化最慢的组件

问题：呼叫失败

调查：

检查 call_attempts_total{result="rejected"} 速率
检查 subscriber_data_lookups_total{result="error"} 以查找 Sh 问题
检查 hlr_lookups_total{result_type="error"} 以查找 HLR 问题
检查 ocs_authorization_attempts_total{result="error"} 以查找 OCS 问题
检查 authorization_decisions_total{disposition="unauthorized"} 以查找授权问题

解决方案： 修复故障组件

问题：高负载

调查：

检查 active_calls 当前值
检查 call_attempts_total 速率
检查速率是否与预期流量匹配
比较 MT 与 MO 比率
检查是否有异常模式（激增、稳定增长）

解决方案： 扩展或调查异常流量

问题：漫游问题

调查：

检查 hlr_lookups_total{result_type="msrn"} 速率
检查 hlr_data_duration_milliseconds 以查找延迟
使用 HLR 查询工具查询特定订阅者
检查是否正确检索 MSRN

解决方案： 修复 HLR 连接或配置

性能基准

典型值（调优良好的系统）

HTTP 拨号计划请求（端到端）： P50: 100-500ms, P95: 500-2000ms, P99: 1000-3000ms
Sh 查询时间： P50: 15ms, P95: 50ms, P99: 100ms
HLR 查询时间： P50: 100ms, P95: 300ms, P99: 800ms
OCS 授权时间： P50: 150ms, P95: 500ms, P99: 1500ms
拨号计划模块处理： P50: 1-5ms, P95: 10-25ms, P99: 50ms
Sh 成功率： > 99%
HLR 成功率： > 95% (较低是正常的，因为离线订阅者)
OCS 成功率： > 98%
呼叫成功率： > 99%

注意： HTTP 拨号计划请求时间是所有组件时间加上开销的总和。它应该大致等于：Sh 查询 + HLR 查询 + OCS 授权 + 拨号计划模块处理 + 网络/解析开销。最低预期时间约为 ~100ms（仅需要 Sh 查询时），最大典型时间约为 ~2000ms（所有查询和重试）。

容量规划

监控这些趋势：

call_attempts_total 速率的增长
active_calls 峰值的增长
稳定或改善的 P95 延迟
稳定或改善的成功率

当以下情况发生时，计划扩展：

活跃呼叫接近 80% 的容量
尽管负载稳定，P95 延迟增长
尽管外部系��稳定，成功率下降

与日志集成

将指标与日志关联：

指标中高错误率 → 搜索日志中的 ERROR 消息
响应时间缓慢 → 搜索日志中的 WARNING 消息，查找超时
特定呼叫问题 → 按呼叫 ID 或电话号码搜索日志
使用模拟工具重现和调试

最佳实践

在问题发生之前设置仪表板
根据基准定义警报阈值
通过使用呼叫模拟器测试警报
每周审查指标以识别趋势
将指标与业务事件相关联（活动、故障等）
使用指标为基础设施投资提供依据
与运营团队共享仪表板
记录您的警报响应程序

配置

当应用程序启动时，指标收集会自动启用。指标端点在与 API 相同的端口上公开（默认：8080）。

要配置 Prometheus 抓取指标，请将此作业添加到您的 prometheus.yml：

scrape_configs:
  - job_name: 'omnitas'
    static_configs:
      - targets: ['<tas-ip>:8080']
    metrics_path: '/metrics'
    scrape_interval: 10s

指标基数

这些指标的设计控制了基数，以避免压倒 Prometheus：

对等体标签： 限制为仅配置的对等体
呼叫类型： 固定集 (mo, mt, emergency, unauthorized)
结果代码： 限制为实际接收到的 Diameter/OCS 结果代码
操作： 每个接口的固定集 (sri/prn 用于 MAP, ccr/cca 用于 Diameter)

估计的时间序列总数：~200-500，具体取决于配置的对等体数量和活动结果代码。

指标保留

推荐的保留期限：

原始指标： 30 天（高分辨率）
5 分钟聚合： 90 天
1 小时聚合： 1 年
每日聚合： 5 年

这支持：

实时故障排除（原始指标）
每周/月分析（5 分钟/1 小时聚合）
容量规划（每日聚合）
历史比较（年度聚合）

概述​

指标端点​

完整指标参考​

Diameter 指标​

diameter_response_duration_milliseconds​

diameter_requests_total​

diameter_responses_total​

diameter_peer_state​

拨号计划生成指标​

1. HTTP 请求指标​

http_dialplan_request_duration_milliseconds​

2. 订阅者数据指标​

subscriber_data_duration_milliseconds​

subscriber_data_lookups_total​

2. HLR 数据指标​

hlr_data_duration_milliseconds​

hlr_lookups_total​

3. OCS 授权指标​

ocs_authorization_duration_milliseconds​

ocs_authorization_attempts_total​

4. 呼叫处理指标​

call_param_errors_total​

authorization_decisions_total​

freeswitch_variable_set_duration_milliseconds​

5. 模块处理指标​

dialplan_module_duration_milliseconds​

6. 呼叫量指标​

call_attempts_total​

active_calls​

7. 模拟指标​

call_simulations_total​

8. SS7 MAP 指标​

ss7_map_http_duration_milliseconds​

ss7_map_operations_total​

9. 在线计费指标​

online_charging_events_total​

10. 系统状态指标​

tracked_registrations​

tracked_call_sessions​

11. HTTP 请求指标​

http_requests_total​

12. 呼叫拒绝指标​

call_rejections_total​

13. 事件套接字连接指标​

event_socket_connected​

event_socket_reconnections_total​

Grafana 仪表板集成​

仪表板 1：呼叫量​

仪表板 2：Diameter 性能​

仪表板 3：在线计费健康​

仪表板 4：系统性能​

推荐的 Grafana 仪表板布局​

关键警报​

警报示例​

Diameter 对等体宕机​

高 Diameter 延迟​

OCS 信贷失败​

SS7 MAP 网关错误​

事件套接字断开​

高呼叫拒绝率​

HTTP 错误率高​

使用指标进行故障排除​

问题：呼叫类型显示为 "unknown"​

问题：呼叫缓慢​

问题：呼叫失败​

问题：高负载​

问题：漫游问题​

性能基准​

典型值（调优良好的系统）​

容量规划​

与日志集成​

最佳实践​

配置​

指标基数​

指标保留​

概述

指标端点

完整指标参考

Diameter 指标

`diameter_response_duration_milliseconds`

`diameter_requests_total`

`diameter_responses_total`

`diameter_peer_state`

拨号计划生成指标

1. HTTP 请求指标

`http_dialplan_request_duration_milliseconds`

2. 订阅者数据指标

`subscriber_data_duration_milliseconds`

`subscriber_data_lookups_total`

2. HLR 数据指标

`hlr_data_duration_milliseconds`

`hlr_lookups_total`

3. OCS 授权指标

`ocs_authorization_duration_milliseconds`

`ocs_authorization_attempts_total`

4. 呼叫处理指标

`call_param_errors_total`

`authorization_decisions_total`

`freeswitch_variable_set_duration_milliseconds`

5. 模块处理指标

`dialplan_module_duration_milliseconds`

6. 呼叫量指标

`call_attempts_total`

`active_calls`

7. 模拟指标

`call_simulations_total`

8. SS7 MAP 指标

`ss7_map_http_duration_milliseconds`

`ss7_map_operations_total`

9. 在线计费指标

`online_charging_events_total`

10. 系统状态指标

`tracked_registrations`

`tracked_call_sessions`

11. HTTP 请求指标

`http_requests_total`

12. 呼叫拒绝指标

`call_rejections_total`

13. 事件套接字连接指标

`event_socket_connected`

`event_socket_reconnections_total`

Grafana 仪表板集成

仪表板 1：呼叫量

仪表板 2：Diameter 性能

仪表板 3：在线计费健康

仪表板 4：系统性能

推荐的 Grafana 仪表板布局

关键警报

警报示例

Diameter 对等体宕机

高 Diameter 延迟

OCS 信贷失败

SS7 MAP 网关错误

事件套接字断开

高呼叫拒绝率

HTTP 错误率高

使用指标进行故障排除

问题：呼叫类型显示为 "unknown"

问题：呼叫缓慢

问题：呼叫失败

问题：高负载

问题：漫游问题

性能基准

典型值（调优良好的系统）

容量规划

与日志集成

最佳实践

配置

指标基数

指标保留