- Advertisement -
首頁 技術頻道 資料中心內部介面大提速 PCIe Gen4測試步步為營

資料中心內部介面大提速 PCIe Gen4測試步步為營

- Advertisement -

在資料中心內部,各種設備/裝置使用Ethernet100G/200G/400GbE作為外部連結介面,PCIe則是被廣泛用作內部數據傳輸的介面。PCIe主要做為電腦系統內部的通用傳輸介面。剛開始PCIe Gen1傳輸速率為2.5GTps,可相容PCI介面,隨著傳輸需求的發展PCIe Gen2的速度為5GTps,PCIe Gen3的速度為8GTps;目前PCI SIG最新的規格PCIe Gen4速率提升到16GTps。此外,PCIe Gen5傳輸速率預計提升到32GTps,PCI-SIG正在制定相關的規格。

PCIe Gen4傳輸速率高達16GTps,不僅僅是使用在一般的電腦裝置中,更是被廣泛地運用到各種設備的內部傳輸介面,例如傳輸設備、伺服器、儲存裝置等。

傳輸速率越高,訊號的傳輸衰減越大,使得從訊號發射端(Tx)到接收端(Rx)傳輸過程所產生的衰減也跟著增加,過大的衰減將導致訊號劣化,使得接收端無法做訊號判別接收。也因此,PCIe Gen4的Tx和Rx端均使用了等化器(Equalization),以補償高速訊號傳輸的衰減,接收端的誤碼率(BER)測試驗證是必要的。

Link EQ為Gen3/Gen4測試新需求

PCIe裝置在連接時,會進行LinkEQ溝通,將TRx EQ做最佳化設定,如此一來也使得Tx和Rx間的Link Equalization(Link EQ)成為PCIe Gen3/Gen4 TxRx新測試需求。接收端測試設備誤碼儀(BERTs)這時候須具備Protocol溝通能力,在執行TRx LinkEQ測試時,扮演與待測物溝通的角色,讓待測物與儀器進行溝通設定好最佳TRx EQ後,進行後續誤碼(BER)驗證(圖1)。

圖1 Anritsu MP1900A PCIe Rx測試架構

隨著各種傳輸介面如TBT3、USB、PCIe傳輸速率越來越快,接收測試變成是必須的驗證項目。工程師須藉由誤碼儀提供協會規範的Stress訊號來進行接收端品質驗證。而Rx LinkEQ壓力測試在PCIe Gen3後變成是Certification必要項目。在整個測試流程中包含的訊號校正(Calibration),Link Training與BER測試。

PCIe裝置主要分為兩種類型:System(或Root Complex),如作為主設備的CPU和主機板;以及作為連接到主設備的附加裝置AIC(Add-in Cards)。在測試時需要注意待測物的類型,因為System和AIC裝置的一致性測試和校準的測試纜線連接方式是不同的(圖2)。

圖2 System&AIC Calibration/Rx test架構

執行校正時,首先須確認當CBB和CLB和ISI板以及電纜連接時,在8GHz時損耗為27至30dB,藉由4port VNA測量總損耗,並且從ISI板中選擇最佳損耗對。校正的時候,須先確認BERTs輸出訊號的振幅與Prepshoot與Emphasis設定的準確度與設定值。接下來進行RJ(Random Jitter)與SJ(Sinusoidal Jitter)校正。第二步驟依據待測物種類,接上測試治具,進行DM(Differential Mode Interference)與眼高(EH)/眼寬(EW)校正。最後校正訊號眼圖EH/EW須校正到15mV/18.75ps。

完成測試訊號校正後,便可將誤碼儀接上待測物,依據PCIe待測物類型不同,測量系統依據上圖所示進行連接,開始進行Rx壓力測試。PCIe裝置具有稱為鏈路訓練狀態機(Link Training and Status State Machine, LTSSM)。在Rx壓力測試中,設備狀態必須從起始的The Initial Detect狀態轉換為Loopback狀態(圖3)。

圖3 鏈路訓練狀態機LTSSM

有兩種方法可以轉換到Loopback狀態:從DetectPollingConfiguration到Loopback,以及從DetectPollingConfiguration通過L0Recovery到Loopback。

第一種方法中,DetectPollingConfiguration到Loopback,在DUT和誤碼儀之間建立Gen1(2.5GTps)鏈路後,狀態立即轉換為16GTps鏈路。此時的Preset值使用先前DUT和測量儀器所確定的固定值。在第二種方法中,鏈路在Gen1 2.5GTps建立初始鏈路後,轉換為Gen3 8GTps,最後轉換到Gen4 16GTps。此時,可通過指定DUT的最佳Preset值來建立最佳Loopback條件,以實現DUT和測量儀器之間的相容性。Recovery路徑方法中的鏈接訓練稱為LEQ測試(鏈接均衡測試)。

誤碼儀上的PCIe Link Training具備Protocol溝通能力,用於快速調試PCIe待測物轉換到Loopback狀態,做後續BER測量。切換誤碼儀在「Link Training」頁面,然後重置(Reset)待測物,接下來單擊「Link Start」按鈕,即可開始鏈接訓練(Link Training),如圖4。

圖4 LTSSM log Examples

在鏈接訓練主要是控制待測物進入Loopback Mode,工程師才可以進行後續的電器特性量測。但若是鏈接訓練失敗後,要如何利用儀器來確認原因或是進行除錯?如果待測物無法進入Loopback狀態,工程師則可藉由檢查鏈路訓練狀態機(LTSSM)log,檢查鏈接訓練狀態是在哪個階段異常並除錯。在誤碼儀上,工程師可以藉由LTSSM State狀態列來快速確認待測物是否已經進入Loopback Mode(圖5)。

圖5 LTSSM State狀態資訊

LTSSM log除錯有訣竅

當待測物順利進入Loopback狀態後,工程師便可進行PCIe Rx接收端的誤碼率(BER)或是抖動容限(Jitter Tolerance)驗證。但若是待測物無法進入Loopback Mode,工程師需要確認LTSSM log進行除錯,可能會有下面幾個狀態。

當待測物鏈接速度停在2.5GTps,且重複執行DETECT和POLLING。在這種情況下,檢查測量系統連接是否正確,特別注意高頻測試纜線正極和負極中沒有接錯和測試通道是否正確,另外需確認DUT的電源電壓是否正確。確認完後,由於DUT內部LTSSM可能處於異常狀態,請關閉和打開電源並按下CBB上的重置「Reset」按鈕,進行重新驗證。

有時,在鏈接速度從2.5GTps轉換為8GTps或16GTps後,速度在RECOVERY_EQUALIZATION_PHASE1狀態下又重複返回到2.5GTps。在RECOVERY_EQUALIZATION_PHASE1處鏈接速度發生變化後,在DUT和測量儀器之間會進行協商來選取最佳Preset值。如果此協商失敗,則鏈接返回起始狀態。因此,工程師可以斷開ISI通道與測量系統的連接後,先行確認鏈路是否成功,或者通過變更Preset值來檢查。對於PCIe Gen4,建議使用Preset-5、6、8或9作為最佳值進行驗證。

當在執行鏈接訓練(Link Training)時,更改參數時也沒辦法控制待測物進入Loopback Mode,工程師最好檢查每個鏈接訓練狀態的轉換時間,在狀態轉換時,響應方必須在固定時間內返迴響應,如果在固定時間內沒有收到來自對方的響應,則等待響應的一方會辨識超時並重新開始協商。

依據不同設備的狀態,有可能發生指定的固定時間結束的情況下,提前發出超時評估。例如,當處於某個鏈結訓練轉換階段時,指定等待時間為24毫秒,即使連結夥伴裝置的響應等待時間還沒有到,某些裝置也可能發出超時評估。可以將這些設備視為比夥伴裝置的響應提早建立鏈接。

但是,即使在24毫秒內回覆,對方夥伴也不能正常鏈接,因為響應時間差異會被評估為超時,當出現這些狀態時,待測物會被判斷為與其他裝置相容性不佳。此時工程師須利用誤碼儀在每個狀態下的固定響應時間後發出觸發訊號,以幫助確認待測物的鏈結訓練時序(圖6)。

圖6 LTSSM Trigger

本文介紹了PCIe Gen4 Rx壓力測試和故障排除方法,這些是當前PCIe Workshop使用誤碼儀進行故障排除的一些方式。在新的測試需求上面,不單純進行實體層BER或是抖動容限測試,Link EQ的Protocol溝通是否能正常執行,則會是未來的新挑戰。

(本文作者為安立知業務暨技術支援部門專案副理)

相關文章

- Advertisement -
- Advertisement -

最新文章

- Advertisement -

熱門文章

- Advertisement -

編輯推薦

- Advertisement -