دليل مقاييس Prometheus والمراقبة
نظرة عامة
يقوم OmniTAS بتصدير مقاييس تشغيلية شاملة بتنسيق Prometheus للمراقبة والتنبيه والرؤية. يغطي هذا الدليل جميع المقاييس المتاحة، واستخداماتها، واستكشاف الأخطاء، وأفضل ممارسات المراقبة.
نقطة نهاية المقاييس
تُعرض جميع المقاييس على: http://<tas-ip>:8080/metrics
مرجع المقاييس الكامل
مقاييس القطر
diameter_response_duration_milliseconds
النوع: هيستوجرام
التسميات: application (ro, sh)، command (ccr, cca، إلخ)، result (success، error، timeout)
الأقسام: 10، 50، 100، 250، 500، 1000، 2500، 5000، 10000 مللي ثانية
الوصف: مدة طلبات القطر بالمللي ثانية
الاستخدام:
# متوسط زمن استجابة القطر
rate(diameter_response_duration_milliseconds_sum[5m]) /
rate(diameter_response_duration_milliseconds_count[5m])
# P95 زمن التأخير في القطر
histogram_quantile(0.95, rate(diameter_response_duration_milliseconds_bucket[5m]))
التنبيه عند:
- P95 > 1000 مللي ثانية - استجابات القطر بطيئة
diameter_requests_total
النوع: عداد
التسميات: application (ro، sh)، command (ccr، udr، إلخ)
الوصف: العدد الإجمالي لطلبات القطر المرسلة
الاستخدام:
# معدل الطلبات
rate(diameter_requests_total[5m])
diameter_responses_total
النوع: عداد
التسميات: application (ro، sh)، command (ccr، udr، إلخ)، result_code (2001، 3002، 5xxx، إلخ)
الوصف: العدد الإجمالي لاستجابات القطر المستلمة
الاستخدام:
# معدل النجاح
rate(diameter_responses_total{result_code="2001"}[5m]) /
rate(diameter_responses_total[5m]) * 100
diameter_peer_state
النوع: مقياس
التسميات: peer_host، peer_realm، application (ro، sh)
الوصف: حالة أقران القطر (1=مرفوع، 0=مغلق)
فترة التحديث: كل 10 ثوانٍ
الاستخدام:
# تحقق من الأقران المغلقة
diameter_peer_state == 0
التنبيه عند:
- أي نظير مغلق لأكثر من دقيقة واحدة
مقاييس توليد خطة الاتصال
1. مقاييس طلب HTTP
http_dialplan_request_duration_milliseconds
النوع: هيستوجرام
التسميات: call_type (mt، mo، emergency، unknown)
الوصف: مدة طلب HTTP من النهاية إلى النهاية من لحظة استلام طلب خطة الاتصال HTTP إلى لحظة إرسال الاستجابة. يشمل ذلك جميع المعالجات: تحليل المعلمات، التفويض، استعلامات القطر (Sh/Ro)، استعلامات HLR (SS7 MAP)، وتوليد XML.
الاستخدام:
# متوسط زمن طلب HTTP من النهاية إلى النهاية
rate(http_dialplan_request_duration_milliseconds_sum[5m]) /
rate(http_dialplan_request_duration_milliseconds_count[5m])
# P95 حسب نوع المكالمة
histogram_quantile(0.95,
rate(http_dialplan_request_duration_milliseconds_bucket[5m])
) by (call_type)
# مقارنة أداء MT مقابل MO
histogram_quantile(0.95,
rate(http_dialplan_request_duration_milliseconds_bucket{call_type="mt"}[5m])
)
vs
histogram_quantile(0.95,
rate(http_dialplan_request_duration_milliseconds_bucket{call_type="mo"}[5m])
)
التنبيه عند:
- P95 > 2000 مللي ثانية - أوقات استجابة HTTP بطيئة
- P95 > 3000 مللي ثانية - مشكلة أداء حرجة
- P99 > 5000 مللي ثانية - تدهور أداء شديد
- أي طلبات تظهر
call_type="unknown"- فشل في كشف نوع المكالمة
الرؤى:
- هذه هي أهم مقياس لفهم زمن التأخير من جانب المستخدم
- القيم النموذجية: P50: 100-500 مللي ثانية، P95: 500-2000 مللي ثانية، P99: 1000-3000 مللي ثانية
- تشمل جميع أوقات المكونات (Sh + HLR + OCS + المعالجة)
- إذا كانت هذه بطيئة، تحقق من مقاييس المكونات (subscriber_data، hlr_data، ocs_authorization)
- النطاق المتوقع: 100 مللي ثانية (مكالمات محلية سريعة) إلى 5000 مللي ثانية (بطيئة مع إعادة المحاولة/مهلات)
ملاحظات هامة:
- يحل محل مقياس
dialplan_generation_duration_millisecondsالقديم الذي كان يقيس فقط توليد XML - يعكس بدقة ما يختبره FreeSWITCH/SBC
- استخدم هذا لمراقبة SLA وتخطيط السعة
2. مقاييس بيانات المشتركين
subscriber_data_duration_milliseconds
النوع: هيستوجرام
التسميات: result (success، error)
الوصف: الوقت المستغرق لاسترجاع بيانات المشترك من واجهة Sh (HSS)
الاستخدام:
# متوسط زمن استعلام Sh
rate(subscriber_data_duration_milliseconds_sum[5m]) /
rate(subscriber_data_duration_milliseconds_count[5m])
# زمن استعلام Sh في النسبة المئوية 95
histogram_quantile(0.95,
rate(subscriber_data_duration_milliseconds_bucket[5m])
)
التنبيه عند:
- P95 > 100 مللي ثانية - استجابات HSS بطيئة
- P95 > 500 مللي ثانية - مشكلة أداء حرجة في HSS
subscriber_data_lookups_total
النوع: عداد
التسميات: result (success، error)
الوصف: العدد الإجمالي لاستعلامات بيانات المشتركين
الاستخدام:
# معدل استعلام Sh
rate(subscriber_data_lookups_total[5m])
# معدل أخطاء Sh
rate(subscriber_data_lookups_total{result="error"}[5m])
# نسبة معدل نجاح استعلامات Sh
(rate(subscriber_data_lookups_total{result="success"}[5m]) /
rate(subscriber_data_lookups_total[5m])) * 100
التنبيه عند:
- معدل الأخطاء > 5% - مشاكل في الاتصال بـ HSS
- معدل الأخطاء > 20% - فشل حرج في HSS
2. مقاييس بيانات HLR
hlr_data_duration_milliseconds
النوع: هيستوجرام
التسميات: result (success، error)
الوصف: الوقت المستغرق لاسترجاع بيانات HLR عبر SS7 MAP
الاستخدام:
# متوسط زمن استعلام HLR
rate(hlr_data_duration_milliseconds_sum[5m]) /
rate(hlr_data_duration_milliseconds_count[5m])
# زمن استعلام HLR في النسبة المئوية 95
histogram_quantile(0.95,
rate(hlr_data_duration_milliseconds_bucket[5m])
)
التنبيه عند:
- P95 > 500 مللي ثانية - استجابات SS7 MAP بطيئة
- P95 > 2000 مللي ثانية - مشكلة حرجة في SS7 MAP
hlr_lookups_total
النوع: عداد
التسميات: result_type (msrn، forwarding، error، unknown)
الوصف: إجمالي استعلامات HLR حسب نوع النتيجة
الاستخدام:
# معدل استعلام HLR حسب النوع
rate(hlr_lookups_total[5m])
# معدل اكتشاف MSRN (المشتركين المتجولين)
rate(hlr_lookups_total{result_type="msrn"}[5m])
# معدل اكتشاف تحويل المكالمات
rate(hlr_lookups_total{result_type="forwarding"}[5m])
# معدل أخطاء HLR
rate(hlr_lookups_total{result_type="error"}[5m])
التنبيه عند:
- معدل الأخطاء > 10% - مشاكل في SS7 MAP
- انخفاض مفاجئ في معدل MSRN - مشكلة محتملة في التجوال
الرؤى:
- معدل MSRN العالي يشير إلى وجود العديد من المشتركين المتجولين
- معدل التحويل العالي يشير إلى وجود العديد من المكالمات المحولة
- قارن مع حجم المكالمات لنسبة التجوال
3. مقاييس تفويض OCS
ocs_authorization_duration_milliseconds
النوع: هيستوجرام
التسميات: result (success، error)
الوصف: الوقت المستغرق لتفويض OCS
الاستخدام:
# متوسط زمن تفويض OCS
rate(ocs_authorization_duration_milliseconds_sum[5m]) /
rate(ocs_authorization_duration_milliseconds_count[5m])
# زمن تفويض OCS في النسبة المئوية 95
histogram_quantile(0.95,
rate(ocs_authorization_duration_milliseconds_bucket[5m])
)
التنبيه عند:
- P95 > 1000 مللي ثانية - استجابات OCS بطيئة
- P95 > 5000 مللي ثانية - مشكلة حرجة في أداء OCS
ocs_authorization_attempts_total
النوع: عداد
التسميات: result (success، error)، skipped (yes، no)
الوصف: العدد الإجمالي لمحاولات تفويض OCS
الاستخدام:
# معدل تفويض OCS
rate(ocs_authorization_attempts_total{skipped="no"}[5m])
# معدل أخطاء OCS
rate(ocs_authorization_attempts_total{result="error",skipped="no"}[5m])
# معدل تخطي OCS (حالات الطوارئ، البريد الصوتي، إلخ)
rate(ocs_authorization_attempts_total{skipped="yes"}[5m])
# نسبة معدل نجاح تفويض OCS
(rate(ocs_authorization_attempts_total{result="success",skipped="no"}[5m]) /
rate(ocs_authorization_attempts_total{skipped="no"}[5m])) * 100
التنبيه عند:
- معدل الأخطاء > 5% - مشاكل في الاتصال بـ OCS
- معدل النجاح < 95% - OCS يرفض العديد من المكالمات
الرؤى:
- معدل التخطي العالي يشير إلى وجود العديد من المكالمات الطارئة/المجانية
- ارتفاع معدل الأخطاء يشير إلى انقطاع OCS
- قارن معدل النجاح مع توقعات العمل
4. مقاييس معالجة المكالمات
call_param_errors_total
النوع: عداد
التسميات: error_type (parse_failed، missing_required_params)
الوصف: أخطاء تحليل معلمات المكالمات
الاستخدام:
# معدل أخطاء المعلمات
rate(call_param_errors_total[5m])
# الأخطاء حسب النوع
rate(call_param_errors_total[5m]) by (error_type)
التنبيه عند:
- أي أخطاء > 0 - تشير إلى طلبات معلمات مكالمات غير صحيحة
- الأخطاء > 1% من حجم المكالمات - مشكلة حرجة
authorization_decisions_total
النوع: عداد
التسميات: disposition (mt، mo، emergency، unauthorized)، result (success، error)
الوصف: قرارات التفويض حسب نوع المكالمة
الاستخدام:
# معدل التفويض حسب الحالة
rate(authorization_decisions_total[5m]) by (disposition)
# معدل المكالمات MT
rate(authorization_decisions_total{disposition="mt"}[5m])
# معدل المكالمات MO
rate(authorization_decisions_total{disposition="mo"}[5m])
# معدل المكالمات الطارئة
rate(authorization_decisions_total{disposition="emergency"}[5m])
# معدل المكالمات غير المصرح بها
rate(authorization_decisions_total{disposition="unauthorized"}[5m])
التنبيه عند:
- معدل غير المصرح به > 1% - هجوم محتمل أو تكوين خاطئ
- ارتفاع مفاجئ في المكالمات الطارئة - حدث طارئ محتمل
- تغيير غير متوقع في نسبة MT/MO - مشكلة محتملة
الرؤى:
- نسبة MT/MO تشير إلى أنماط الحركة
- معدل المكالمات الطارئة يشير إلى استخدام الخدمة
- معدل غير المصرح به يشير إلى الوضع الأمني
freeswitch_variable_set_duration_milliseconds
النوع: هيستوجرام
التسميات: batch_size (1، 5، 10، 25، 50، 100)
الوصف: الوقت المستغرق لتعيين متغيرات خطة الاتصال
الاستخدام:
# متوسط زمن تعيين المتغيرات
rate(freeswitch_variable_set_duration_milliseconds_sum[5m]) /
rate(freeswitch_variable_set_duration_milliseconds_count[5m])
# زمن تعيين المتغيرات حسب حجم الدفعة
histogram_quantile(0.95,
rate(freeswitch_variable_set_duration_milliseconds_bucket[5m])
) by (batch_size)
التنبيه عند:
- P95 > 100 مللي ثانية - أداء تعيين المتغيرات بطيء
- اتجاه متزايد - مشكلة محتملة في أداء النظام
5. مقاييس معالجة الوحدات
dialplan_module_duration_milliseconds
النوع: هيستوجرام
التسميات: module (MT، MO، Emergency، CallParams، إلخ)، call_type
الوصف: زمن المعالجة لكل وحدة من وحدات خطة الاتصال
الاستخدام:
# زمن المعالجة حسب الوحدة
histogram_quantile(0.95,
rate(dialplan_module_duration_milliseconds_bucket[5m])
) by (module)
# زمن معالجة وحدة MT
histogram_quantile(0.95,
rate(dialplan_module_duration_milliseconds_bucket{module="MT"}[5m])
)
التنبيه عند:
- أي وحدة P95 > 500 مللي ثانية - مشكلة في الأداء
- اتجاه متزايد في أي وحدة - تسرب أو مشكلة محتملة
الرؤى:
- تحديد الوحدة الأبطأ
- تحسين الوحدات الأبطأ أولاً
- قارن أوقات الوحدات عبر أنواع المكالمات
6. مقاييس حجم المكالمات
call_attempts_total
النوع: عداد
ا��تسميات: call_type (mt، mo، emergency، unauthorized)، result (success، rejected)
الوصف: العدد الإجمالي لمحاولات المكالمات
الاستخدام:
# معدل محاولات المكالمات
rate(call_attempts_total[5m])
# معدل النجاح حسب نوع المكالمة
(rate(call_attempts_total{result="success"}[5m]) /
rate(call_attempts_total[5m])) * 100 by (call_type)
# معدل المكالمات المرفوضة
rate(call_attempts_total{result="rejected"}[5m])
التنبيه عند:
- معدل الرفض > 5% - مشكلة محتملة
- انخفاض مفاجئ في حجم المكالمات - انقطاع الخدمة
- ارتفاع مفاجئ في حجم المكالمات - هجوم محتمل
active_calls
النوع: مقياس
التسميات: call_type (mt، mo، emergency)
الوصف: المكالمات النشطة حالياً
الاستخدام:
# المكالمات النشطة الحالية
active_calls
# المكالمات النشطة حسب النوع
active_calls by (call_type)
# ذروة المكالمات النشطة (الساعة الماضية)
max_over_time(active_calls[1h])
التنبيه عند:
- المكالمات النشطة > ال��عة - حمل زائد
- المكالمات النشطة = 0 لفترة طويلة - الخدمة متوقفة
7. مقاييس المحاكاة
call_simulations_total
النوع: عداد
التسميات: call_type (mt، mo، emergency، unauthorized)، source (web، api)
الوصف: عدد محاكيات المكالمات التي تم تشغيلها
الاستخدام:
# معدل المحاكاة
rate(call_simulations_total[5m])
# المحاكيات حسب النوع
rate(call_simulations_total[5m]) by (call_type)
الرؤى:
- تتبع استخدام أدوات التشخيص
- تحديد المستخدمين الثقيلين
- الربط مع نشاط استكشاف الأخطاء
8. مقاييس SS7 MAP
ss7_map_http_duration_milliseconds
النوع: هيستوجرام
التسميات: operation (sri، prn)، result (success، error، timeout)
الأقسام: 10، 50، 100، 250، 500، 1000، 2500، 5000، 10000 مللي ثانية
الوصف: مدة طلبات SS7 MAP HTTP بالمللي ثانية
الاستخدام:
# معدل أخطاء SS7 MAP
rate(ss7_map_operations_total{result="error"}[5m]) /
rate(ss7_map_operations_total[5m]) * 100
التنبيه عند:
- P95 > 500 مللي ثانية - استجابات SS7 MAP بطيئة
- معدل الأخطاء > 50% - مشكلة حرجة في SS7 MAP
ss7_map_operations_total
النوع: عداد
التسميات: operation (sri، prn)، result (success، error)
الوصف: العدد الإجمالي لعمليات SS7 MAP
9. مقاييس الشحن عبر الإنترنت
online_charging_events_total
النوع: عداد
التسميات: event_type (authorize، answer، reauth، hangup)، result (success، nocredit، error، timeout)
الوصف: العدد الإجمالي لفعاليات الشحن عبر الإنترنت
الاستخدام:
# فشل ائتمان OCS
rate(online_charging_events_total{result="nocredit"}[5m])
التنبيه عند:
- معدل عالٍ من فشل الائتمان
10. مقاييس حالة النظام
tracked_registrations
النوع: مقياس
الوصف: عدد التسجيلات SIP النشطة حالياً (من قاعدة بيانات تسجيل FreeSWITCH Sofia)
فترة التحديث: كل 10 ثوانٍ
ملاحظات:
- يتم تقليصه تلقائيًا عند انتهاء التسجيلات (يدير FreeSWITCH انتهاء الصلاحية)
tracked_call_sessions
النوع: مقياس
الوصف: عدد جلسات المكالمات المتعقبة حالياً في ETS
فترة التحديث: كل 10 ثوانٍ
11. مقاييس طلب HTTP
http_requests_total
النوع: عداد
التسميات: endpoint (dialplan، call_event، directory، voicemail، sms_ccr، metrics)، status_code (200، 400، 500، إلخ)
الوصف: العدد الإجمالي لطلبات HTTP حسب نقطة النهاية
الاستخدام:
# معدل أخطاء HTTP
rate(http_requests_total{status_code=~"5.."}[5m]) /
rate(http_requests_total[5m]) * 100
التنبيه عند:
- معدل خطأ HTTP 5xx > 10%
12. مقاييس رفض المكالمات
call_rejections_total
النوع: عداد
التسميات: call_type (mo، mt، emergency، unknown)، reason (nocredit، unauthorized، parse_failed، missing_params، hlr_error، إلخ)
الوصف: العدد الإجمالي لرفض المكالمات حسب السبب
الاستخدام:
# معدل رفض المكالمات حسب السبب
sum by (reason) (rate(call_rejections_total[5m]))
التنبيه عند:
- معدل الرفض > 1/ثانية - الحاجة إلى التحقيق
13. مقاييس اتصال مقبس الأحداث
event_socket_connected
النوع: مقياس
التسميات: connection_type (main، log_listener)
الوصف: حالة اتصال مقبس الأحداث (1=متصل، 0=غير متصل)
فترة التحديث: في الوقت الحقيقي عند تغييرات حالة الاتصال
الاستخدام:
# حالة اتصال مقبس الأحداث
event_socket_connected
التنبيه عند:
- الاتصال مغلق لأكثر من 30 ثانية
event_socket_reconnections_total
النوع: عداد
التسميات: connection_type (main، log_listener)، result (attempting، success، failed)
الوصف: العدد الإجمالي لمحاولات إعادة الاتصال بمقبس الأحداث
تكامل لوحة معلومات Grafana
يمكن تصور المقاييس في Grafana باستخدام مصدر بيانات Prometheus. الألواح الموصى بها:
لوحة المعلومات 1: حجم المكالمات
- مقياس المكالمات النشطة
- معدل محاولات المكالمات حسب النوع (MO/MT/Emergency)
- معدل رفض المكالمات
لوحة المعلومات 2: أداء القطر
- خر��طة حرارة زمن الاستجابة
- معدلات الطلب/الاستجابة
- جدول حالة النظير
- معدل الأخطاء حسب رمز النتيجة
لوحة المعلومات 3: صحة الشحن عبر الإنترنت
- معدل نجاح تفويض الائتمان
- معدل أحداث "لا ائتمان"
- معدل مهلات OCS
لوحة المعلومات 4: أداء النظام
- زمن تأخير توليد خطة الاتصال (P50/P95/P99)
- أوقات استجابة SS7 MAP
- توافر النظام بشكل عام
تخطيط لوحة معلومات Grafana الموصى به
الصف 1: حجم المكالمات
- معدل محاولات المكالمات (حسب النوع)
- مقياس المكالمات النشطة
- نسبة معدل النجاح
الصف 2: الأداء
- P95 زمن طلب HTTP لخطة الاتصال (حسب نوع المكالمة) - المقياس الرئيسي
- P95 زمن استعلام Sh
- P95 زمن استعلام HLR
- P95 زمن تفويض OCS
- P95 زمن معالجة وحدة خطة الاتصال (حسب الوحدة)
الصف 3: معدلات النجاح
- معدل نجاح استعلام Sh
- معدل نجاح استعلام HLR
- معدل نجاح تفويض OCS
- معدل نجاح محاولات ��لمكالمات
الصف 4: أداء الوحدات
- P95 زمن المعالجة حسب الوحدة
- عدد المكالمات لكل وحدة
الصف 5: الأخطاء
- أخطاء المعلمات
- محاولات غير مصرح بها
- أخطاء Sh
- أخطاء HLR
- أخطاء OCS
التنبيهات الحرجة
الأولوية 1 (صفحة على الفور):
# خطة الاتصال متوقفة تمامًا
rate(call_attempts_total[5m]) == 0
# HSS متوقف تمامًا
rate(subscriber_data_lookups_total{result="error"}[5m]) /
rate(subscriber_data_lookups_total[5m]) > 0.9
# OCS متوقف تمامًا
rate(ocs_authorization_attempts_total{result="error"}[5m]) /
rate(ocs_authorization_attempts_total[5m]) > 0.9
الأولوية 2 (تنبيه):
# توليد خطة الاتصال بطيء
histogram_quantile(0.95,
rate(dialplan_generation_duration_milliseconds_bucket[5m])
) > 1000
# معدل أخطاء HSS مرتفع
rate(subscriber_data_lookups_total{result="error"}[5m]) /
rate(subscriber_data_lookups_total[5m]) > 0.2
# معدل أخطاء OCS مرتفع
rate(ocs_authorization_attempts_total{result="error"}[5m]) /
rate(ocs_authorization_attempts_total[5m]) > 0.1
الأولوية 3 (تحذير):
# زمن تأ��ير HSS مرتفع
histogram_quantile(0.95,
rate(subscriber_data_duration_milliseconds_bucket[5m])
) > 100
# زمن تأخير OCS مرتفع
histogram_quantile(0.95,
rate(ocs_authorization_duration_milliseconds_bucket[5m])
) > 1000
# معدل خطأ معتدل
rate(call_attempts_total{result="rejected"}[5m]) /
rate(call_attempts_total[5m]) > 0.05
أمثلة التنبيه
نظير القطر مغلق
alert: DiameterPeerDown
expr: diameter_peer_state == 0
for: 1m
annotations:
summary: "نظير القطر {{ $labels.peer_host }} مغلق"
ارتفاع زمن تأخير القطر
alert: HighDiameterLatency
expr: histogram_quantile(0.95, rate(diameter_response_duration_milliseconds_bucket[5m])) > 1000
for: 5m
annotations:
summary: "زمن تأخير P95 للقطر فوق 1 ثانية"
فشل ائتمان OCS
alert: HighOCSCreditFailures
expr: rate(online_charging_events_total{result="nocredit"}[5m]) > 0.1
for: 2m
annotations:
summary: "معدل مرتفع من فشل ائتمان OCS"
أخطاء بوابة SS7 MAP
alert: SS7MapErrors
expr: rate(ss7_map_operations_total{result="error"}[5m]) / rate(ss7_map_operations_total[5m]) > 0.5
for: 3m
annotations:
summary: "معدل أخطاء SS7 MAP فوق 50%"
مقبس الأحداث غير متصل
alert: EventSocketDown
expr: event_socket_connected == 0
for: 30s
annotations:
summary: "مقبس الأحداث {{ $labels.connection_type }} غير متصل"
معدل رفض المكالمات مرتفع
alert: HighCallRejectionRate
expr: rate(call_rejections_total[5m]) > 1
for: 2m
annotations:
summary: "معدل رفض المكالمات مرتفع: {{ $value }} رفضات/ثانية"
معدل خطأ HTTP مرتفع
alert: HighHTTPErrorRate
expr: rate(http_requests_total{status_code=~"5.."}[5m]) / rate(http_requests_total[5m]) > 0.1
for: 3m
annotations:
summary: "معدل خطأ HTTP 5xx فوق 10%"
استكشاف الأخطاء باستخدام المقاييس
المشكلة: نوع المكالمة يظهر كـ "غير معروف"
الأعراض:
- جميع المقاييس تظهر
call_type="unknown"بدلاً منmt،mo، أوemergency - لا يمكن التمييز بين الأداء بين أنواع المكالمات
السبب الجذري: فشل استخراج نوع المكالمة أو عدم تمريره بشكل صحيح عبر خط معالجة البيانات.
التحقيق:
- تحقق من السجلات لرسائل "طلب خطة الاتصال HTTP" - يجب أن تظهر نوع المكالمة الصحيح
- مراجعة سجلات النظام لأخطاء معالجة نوع المكالمة
الحل: اتصل بالدعم إذا استمر فشل كشف نوع المكالمة.
المشكلة: المكالمات بطيئة
التحقيق:
- تحقق من P95 لـ
http_dialplan_request_duration_milliseconds- ابدأ هنا - إذا كانت مرتفعة، تحقق من أوقات المكونات:
- تحقق من
subscriber_data_duration_millisecondsلتأخيرات Sh - تحقق من
hlr_data_duration_millisecondsلتأخيرات HLR - تحقق من
ocs_authorization_duration_millisecondsلتأخيرات OCS - تحقق من
dialplan_module_duration_millisecondsلتأخيرات محددة للوحدات
- تحقق من
- تحقق مما إذا كان
call_type="unknown"- يشير إلى فشل كشف نوع المكالمة - قارن أوقات المعالجة لـ MT مقابل MO مقابل الطوارئ
- اربط مع سجلات النظام للحصول على رسائل خطأ مفصلة
الحل: تحسين أبطأ مكون
المشكلة: المكالمات تفشل
التحقيق:
- تحقق من معدل
call_attempts_total{result="rejected"} - تحقق من
subscriber_data_lookups_total{result="error"}لمشاكل Sh - تحقق من
hlr_lookups_total{result_type="error"}لمشاكل HLR - تحقق من
ocs_authorization_attempts_total{result="error"}لمشاكل OCS - تحقق من
authorization_decisions_total{disposition="unauthorized"}لمشاكل التفويض
الحل: إصلاح المكون الفاشل
المشكلة: حمل مرتفع
التحقيق:
- تحقق من القيمة الحالية لـ
active_calls - تحقق من معدل
call_attempts_total - تحقق مما إذا كان المعدل يتطابق مع حركة المرور المتوقعة
- قارن نسبة MT مقابل MO
- تحقق من الأنماط غير العادية (ارتفاعات، نمو ثابت)
الحل: زيادة السعة أو التحقيق في حركة المرور غير العادية
المشكلة: مشاكل التجوال
التحقيق:
- تحقق من معدل
hlr_lookups_total{result_type="msrn"} - تحقق من
hlr_data_duration_millisecondsللتأخيرات - استخدم أداة استعلام HLR لمشتركين محددين
- تحقق مما إذا كان يتم استرجاع MSRN بشكل صحيح
الحل: إصلاح الاتصال أو التكوين لـ HLR
معايير الأداء
القيم النموذجية (نظام مضبوط جيدًا)
- طلب HTTP لخطة الاتصال (من النهاية إلى النهاية): P50: 100-500 مللي ثانية، P95: 500-2000 مللي ثانية، P99: 1000-3000 مللي ثانية
- زمن استعلام Sh: P50: 15 مللي ثانية، P95: 50 مللي ثانية، P99: 100 مللي ثانية
- زمن استعلام HLR: P50: 100 مللي ثانية، P95: 300 مللي ثانية، P99: 800 مللي ثانية
- زمن تفويض OCS: P50: 150 مللي ثانية، P95: 500 مللي ثانية، P99: 1500 مللي ثانية
- معالجة وحدة خطة الاتصال: P50: 1-5 مللي ثانية، P95: 10-25 مللي ثانية، P99: 50 مللي ثانية
- معدل نجاح Sh: > 99%
- معدل نجاح HLR: > 95% (الأقل هو الطبيعي بسبب المشتركين غير المتصلين)
- معدل نجاح OCS: > 98%
- معدل نجاح المكالمات: > 99%
ملاحظة: زمن طلب خطة الاتصال HTTP هو مجموع جميع أوقات المكونات بالإضافة إلى النفقات العامة. يجب أن يساوي تقريبًا: استعلام Sh + استعلام HLR + تفويض OCS + معالجة وحدة خطة الاتصال + النفقات العامة للشبكة/التحليل. الحد الأدنى للوقت المتوقع هو ~100 مللي ثانية (عندما يكون استعلام Sh فقط مطلوبًا)، والوقت الأقصى النموذجي هو ~2000 مللي ثانية (مع جميع الاستعلامات وإعادة المحاولة).
تخطيط السعة
راقب هذه الاتجاهات:
- النمو في معدل
call_attempts_total - النمو في ذروة
active_calls - استقرار أو تحسين P95
- استقرار أو تحسين معدلات النجاح
خطط للتوسع عندما:
- تقترب المكالمات النشطة من 80% من السعة
- تنمو P95 على الرغم من استقرار الحمل
- تنخفض معدلات النجاح على الرغم من استقرار الأنظمة الخارجية
التكامل مع السجلات
ربط المقاييس بالسجلات:
- معدل خطأ مرتفع في المقاييس → ابحث في السجلات عن رسائل ERROR
- أوقات استجابة بطيئة → ابحث في السجلات عن رسائل WARNING حول المهلات
- مشاكل مكالمات محددة → ابحث في السجلات حسب معرف المكالمة أو رقم الهاتف
- استخدم أداة المحاكاة لإعادة الإ��تاج واستكشاف الأخطاء
أفضل الممارسات
- قم بإعداد لوحات المعلومات قبل حدوث المشكلات
- حدد عتبات التنبيه بناءً على معاييرك الأساسية
- اختبر التنبيهات باستخدام محاكي المكالمات
- راجع المقاييس أسبوعيًا لتحديد الاتجاهات
- ربط المقاييس بالأحداث التجارية (الحملات، الانقطاعات، إلخ)
- استخدم المقاييس لتبرير الاستثمارات في البنية التحتية
- شارك لوحات المعلومات مع فريق العمليات
- وثق إجراءات استجابة التنبيه الخاصة بك
التكوين
يتم تمكين جمع المقاييس تلقائيًا عند بدء التطبيق. يتم عرض نقطة نهاية المقاييس على نفس المنفذ مثل واجهة برمجة التطبيقات (الافتراضي: 8080).
لتكوين Prometheus لجمع المقاييس، أضف هذه الوظيفة إلى ملف prometheus.yml الخاص بك:
scrape_configs:
- job_name: 'omnitas'
static_configs:
- targets: ['<tas-ip>:8080']
metrics_path: '/metrics'
scrape_interval: 10s
كثافة المقاييس
تم تصميم المقاييس بكثافة محكومة لتجنب إغراق Prometheus:
- تسميات النظير: محدودة فقط إلى الأقران المكونة
- أنواع المكالمات: مجموعة ثابتة (mo، mt، emergency، unauthorized)
- رموز النتائج: محدودة إلى رموز النتائج الفعلية المستلمة من القطر/OCS
- العمليات: مجموعة ثابتة لكل واجهة (sri/prn لـ MAP، ccr/cca للقطر)
إجمالي السلاسل الزمنية المقدرة: ~200-500 اعتمادًا على عدد الأقران المكونة ورموز النتائج النشطة.
احتفاظ المقاييس
فترات الاحتفاظ الموصى بها:
- المقاييس الخام: 30 يومًا (دقة عالية)
- التجميعات كل 5 دقائق: 90 يومًا
- التجميعات كل ساعة: سنة واحدة
- التجميعات اليومية: 5 سنوات
يدعم هذا:
- استكشاف الأخطاء في الوقت الحقيقي (المقاييس الخام)
- التحليل الأسبوعي/الشهري (التجميعات كل 5 دقائق/ساعة)
- تخطيط السعة (التجميعات اليومية)
- المقارنة التاريخ��ة (التجميعات السنوية)