何謂 DDM 數位診斷監控

DDM (Digital Diagnostic Monitoring)

 

由來

關於 DDM, 也有稱呼為 DOM (Digital Optical Monitoring). 最初的動機是為了可以即時地了解光纖收發模組的狀態, 藉由監測內部幾項指標, 監測模組的運作與健康狀態, 使網管人員可以預先判斷網路連線的可靠性. 一旦有些指標超出預期設定的警示範圍, 可以在適當且可控的時機, 更換光纖模組, 減少網路中斷的時間點, 降低對使用者的衝擊. 首先提出 DDM 的是當時光通信產業的領頭羊 Finisar, 經由研發與創新的深耕, 漸漸將此技術規格標準化, 最終形成產業標準.

 

SFF-8472

第一份有關 DDM 的標準為 SFF-8472 : Management Interface for SFP+, 讀者可在公司首頁的 Resource / MSA 頁面下載最新版本. 我們就以此規範說明 DDM 的內容. SFF-8472 定義 SFP / SFP+ / SFP28 系列的模組自身訊息介面, 訊息內容大致涵蓋了三個面向,

  1. 基本身分識別區
  2. 供應商自訂用途區
  3. DDM 資料區

本文專注於 DDM 資料區段的說明. 將分別說明 DDM 如何以 Digital 方式實現 Diagnostic 以及 Monitoring.

 

監控 Monitoring

SFP+ 的管理介面包含了五項自我監控包含了模組溫度, 模組電壓, 雷射工作電流, 雷射輸出功率以及檢光器接收光功率.

模組溫度 Temperature

提供光纖模組的溫度回覆給系統端. 光纖收發模組經由監測自身的溫度, 經過校正存放於指定寄存器, 單位為 °C. 交換機端可經由讀取寄存器得知模組本身的溫度. 規範容許的誤差為 ±3°C. 真正影響模組壽命的主要是雷射的壽命, 也就是說, 應當監測雷射本身的溫度. 然而規範中並未定義溫度的測量點, 而且實際上監測到雷射自身的溫度有其困難點. 靠 IC 所提供的溫度監測功能, 無法與雷射本身溫度進行校正. 產業的習慣轉為校正為模組表面外殼溫度, 以此為標準則可與交換機的 Port 溫度相對應, 較具實用性.

模組電壓 Volatge

提供光纖模組的電壓回覆給系統端. 光纖收發模組監測自交換機所供應給自身的電壓, 經過校正存放於指定寄存器, 單位為 Volt. 交換機端可經由讀取寄存器得知模組本身的供應電壓. 規範容許的誤差為 ±3%. 由於電源供應電路沿路都會產生壓降, 因此需要定義一個監控電壓基準點. 否則連接器前後的電壓, 濾波電路前後的電壓, 驅動 IC 的電壓, 監測 IC 的電壓, 都會有差值. 一般會已進入連接器前的電壓作為基準點校正為監控讀值供交換機讀取.

雷射工作電流 Laser Bias

提供光纖模組的雷射偏壓電流回覆給系統端. 光纖收發模組監控驅動雷射的偏壓電流, 經過校正存放於指定寄存器, 單位為 mA. 交換機端可經由讀取寄存器得知模組本身雷射的偏壓電流. 規範容許的誤差為 ±10%. 半導體雷射的運作, 充分展現在電流轉換為雷射光的效率, 特別是臨界電流, 以及轉換斜率效率. 這兩點又受雷射的工作溫度以及雷射本身的老化狀態極大的影響. 因此, 偏壓電流對於雷射是一個很有用的指標, 可以充分了解雷射本身的工作健康狀態. 經驗豐富的網管人員可以判斷出, 特定模組是否即將壽終正寢, 提前預備維護用替代光纖模組.

雷射輸出光功率 TX Power

提供光纖模組的雷射輸出光功率回覆給系統端. 光纖收發模組監控本身雷射的發射光功率, 經過校正存放於指定寄存器, 單位為 μW. 交換機端可經由讀取寄存器得知模組本身雷射的發射光功率. 規範容許的誤差為 ±3dB. 這是一個判斷互連失效原因的有效指標. 兩台交換機之間的互連, 必須要雙向的發射都有合規的光強度, 以及雙向的接收光強度都可讓後端電路足以回復成可靠的電子信號. 因此判讀光纖收發模組本身的發光強度是否正常, 可作為一基本的判斷參考.

檢光器接收光功率 RX Power

提供光纖模組的檢光器接收光功率回覆給系統端. 光纖收發模組監控本身檢光器的接收光功率, 經過校正存放於指定寄存器, 單位為 μW. 交換機端可經由讀取寄存器得知模組本身檢光器的接收光功率. 規範容許的誤差為 ±3dB. 這個監測內容與前一個 TX Power 一起評判互連失效的可能原因. 若 TX Power 發光正常, 另一端的 RX Power 收光卻不正常, 我們可以懷疑光纖接錯了, 或是光纖連結有異常. 只有在雙向的 TX Power, RX Power 都在合理範圍, 互連才可能正常建立.

 

診斷 Diagnostic

只有為數不多的網管人員, 能夠真的理解監控所得到的數值處於合理範圍與否, 而且不同產品, 不同供應商的合理範圍可能差異極大. 因此需要有一個簡便易於判斷的方式, 方便交換機對網管人員提出預警, 而不是網管人員整天盯著看光纖模組狀態如何. SFF-8472 針對前述五項監控內容, 各自提供了四筆規格設定值. 分別是,

低點警報 Low Alarm光纖模組已經超出規格下限, 無法擔保功能運作
低點預警 Low Warning光纖模組已經超出警示下限, 但仍可運作
高點預警 High Warning光纖模組已經超出警示上限, 但仍可運作
高點警報 High Alarm光纖模組已經超出規格上限, 無法擔保功能運作

就如同在監測指標上標示了 Alarm 以及 Warning 區段. 以溫度計舉例, 相當於溫度計標示了綠色正常工作區, 黃色預警區, 以及紅色超規格區, 不再能保證光纖模組正常工作, 示意如下

交換機讀取了光纖收發模組的寄存器後可以得出各對應的 Monitor 以及 Diagnostic 內容.

我們以 Cisco 的內容為例. 可以看到 RX Power 為 N/A, 無有效內容, 遭 Cisco 判定為 low-alarm – – , 其餘四款監控數值皆在安全工作區. 基於此, 網管人員即可以在不具備光纖收發模組專業概念下, 對其管理的網路系統進行可靠的維護管理.

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *