- Advertisement -
首頁 技術頻道 ACAP助攻醫療超音波 合成孔徑/平面波成像效率增

ACAP助攻醫療超音波 合成孔徑/平面波成像效率增

- Advertisement -

本文介紹了如何運用先進成像方法,實現更優異的成像畫質、速度和準確性。平面波(PW)和合成孔徑(SA)成像是本文主要介紹的兩種方法,它們為心壁運動、血流和心臟外科手術等難以管理的特定診斷和外科手術帶來可觀的訊框率和準確性提升。

醫療需求推升技術更迭

不斷攀升的醫療成本正在成為醫院、診所和服務供應商的沉重負擔,因為他們需要確保為患者提供高品質的服務,同時更有力地控制成本。提高臨床治療中的患者流量是一種有望借助運算技術發展控制成本的途徑。與此同時,放射科醫生也強烈要求大幅提高醫療超音波、CT掃描器和其他類似設備等醫療成像設備的影像輸出畫質。

發揮人工智慧(AI)及其分支機器學習(ML)的作用,並將使用深度神經網路的ML方案用於輔助診斷和效率的提升,也是頗有前景的方法。這樣就能依靠新型晶片元件大幅增強的運算功能與演算法進步來改善畫質、組織識別、分類以及器官分割準確率,進而簡化臨床工作流程。

在各種臨床處理過程中,醫療診斷成像是發揮這種先進的運算技術的主要過程之一,因為聲波技術侵入較輕微且不涉及輻射。此外,與CT和MRI等其他方式相比,它的使用更普遍、成本更低、速度更快且尺寸更小。儘管過去數年裡已取得重大進步,但雖透過使用更快速的平行運算和AI演算法,診斷品質、準確度和速度仍有較大的提升空間。

本文針對醫療超音波設備製造商(OEM)介紹如何提高成像畫質、速度和準確性;與此同時,本文還介紹如何與深度學習演算法結合使用,並借助產品改善。對於本文的目標受眾(如開發醫療超音波成像系統的架構師和科學家),本文也介紹開發生產力的工作流程。

在過去二十年裡,兩種用於獲取和處理醫療超音波影像的新銳方法被研發出來—合成孔徑成像方法和平面波成像方法。這兩種方法與當前的順序慢速超音波成像方法截然不同,因為後者每次只能採集一行影像。新方法則可使用超音波穿透整個成像區域,因此一次發射就能重建完整的影像。成像速度達到每秒數千訊框。與這樣的訊框率同時實現的,還有全新的成像可能性,如更強的聚焦和穿透、向量流成像、功能超音波、超高解析度成像、高速心臟成像與量化等,同時可提升十倍的定量測量精度。

快速成像方案產生了比傳統成像高出幾百倍的處理需求,因此到目前為止阻礙了這些先進成像方法的實現。本文介紹了處理元件和新開發環境如何即時輕鬆實現這些先進的成像方法。如賽靈思(Xilinx)Versal自我調整運算加速平台(ACAP)元件與Alveo資料中心加速卡可部署在工作站或伺服器上,是實現SA和PW方法的硬體選擇。

與傳統的順序超音波成像相比,SA和PW成像方法具備一系列的優勢。主要在於採集的資料集完整,而且聚焦可在處理中合成,而非在採集過程中完成。因此,在發送和接收過程中都可以動態聚焦資料,獲得成像區域上的理想解析度,而傳統成像只能在發送焦點上實現最佳聚焦。這種功能被證明能提高體內成像畫質並增強穿透深度。

由於採集的資料集完整,這些成像方法也開啟追溯處理的廣泛應用。持續完整的資料獲取對成像也有很大幫助,其有利於不間斷地全向追蹤運動中的結構和血液。這樣能將速度估算精度提高十倍,還能估算速度向量;而長時間的觀察也有助於在腦功能成像中檢測較低流速。此外,資料流敏感度也提高,因此能檢測較低流速;而高訊框率則有助於檢測組織彈性和進行剪切波成像。

這些成像方法已與超音波造影劑結合使用,透過追蹤氣泡穿過最小血管的運動執行,以獲較高的超音波解析度,進而能夠區分尺寸小至10微米的結構。

因此,使用SA和PW超音波成像方法有助於開發全新的超音波應用,為提高運動估算的解析度、對比度和準確性鋪路。然而,成功實現即時應用依然被需進行的大量運算限制,但現在透過使用本文介紹的可編程設計元件及開發平台,該問題已迎刃而解。

一窺超音波成像採集流水線

採用壓電式轉換器的超音波系統將電傳輸脈衝轉換成超音波脈衝,並從電子訊號中接收超音波回波脈衝。這種轉換器採用大量壓電元件(32個到192個),可以根據所需的不同研究提供不同的形式和功能。最常用的B模式規格掃描線配置包括:(a)線性、(b)曲線、(c)梯形、(d)扇形和(e)放射狀。參見圖1。

圖1 常用B模式格式的掃描線安排

轉換器有以下選擇:線性陣列,能在更深層面實現身體和器官的表面區域成像;曲線和梯形形狀,用於腹部器官和產科掃描;扇形形狀,用於心臟成像(通常透過肋骨之間的狹窄聲學視窗進入);放射狀,用於血管內成像。

在繪製二維(2D)影像時,接收到的回波幅度與亮度(B模式)和回波穿過組織深度的時間有關。B模式使用多行成像,影像中每行用一個脈衝-回波序列產生,最終為被診斷的器官生成最終的解剖截面圖。有鑑於具體超音波轉換器的多個參數,可將超音波處理描述為一個多步驟序列,根據選定模態的功能,構成資料處理的單或多個並行流水線。

流水線示例如下所述:生成調製超音波脈衝,頻率取決於探頭類型、治療方法和成像模態類型。或是可激發轉換器的電以傳輸調製波,激發可包括發送器上的波束成形,進而選擇性發射聲波(Selective-in-sonification)、生成虛擬源,以及生成特定波前(球面波、平面波等)。

而轉換器亦可接收超音波觸及器官返回的回波,並轉換成電子訊號(RF資料),同時用時間增益補償均一化遠近回波,以便進行統一處理。同時,可針對接收訊號進行數位化處理,以透過波束成形,將接收到的訊號聚焦在特定深度,並使用來自多個單元的資料重建掃描線。

至於非線性(對數)壓縮級將回波動態範圍與人感知動態範圍進行匹配,也可透過插值創建表示物理尺寸的影像。此外,用於完成下列功能的其他數位訊號處理層級包括:

·減輕雜訊

·消除像差

·降低干擾

·消除掃描線偏移

·降低散斑

·提高解析度

·增大測量距離

·銳化邊緣

·減少偽影

SA/PW成像原理解析

在傳統的超音波成像中,首先將發射聚焦的超音波場域,然後用探頭的全部單元接收來自組織的散射訊號;接著使用影像中點到接收單元的幾何距離確定接收聚焦。將其表達成深度的函數即可實現動態化,進而確定最佳接收聚焦。然而,發送焦點被限制成單獨的發送焦點,影像只能在該深度上實現最佳聚焦。

這種局限性在SA成像和PW成像中得以緩解,此時成像透過發射一系列球面波或平面波來完成,如圖2所示。

圖2 SA成像(左)與PW成像(右)圖解

在圖2中,第一列所示是發射的球面波或平面波;第二列所示為每次發射產生的波束成形低解析度影像;最後一列是將所有低解析度影像按相位求和得到的高解析度影像。

接收聚焦方法與常規的成像方法相同,但發送聚焦是透過結合多次發射得到的資料進行合成。這就使發送聚焦具有動態性,能夠獲得穿過影像深度的最佳聚焦,進而強化整個影像的對比度和解析度。聚焦的具體做法是運算從發送來源出發,穿過成像點再返回接收單元的幾何距離。接著,再從接收到的轉換器訊號選取資料,針對樣本數值進行插值後求和。這個求和操作也稱為相複合,尤其是在PW成像中。除了發送來源到成像點間的距離略有差別以外,SA成像和PW成像的距離計算相同。因此,兩種成像方法可使用相同的處理架構。

次要優勢在於發射次數與成像行數無關。傳統方法必須完成200次發射才能採集完整的高解析度影像,而SA成像和PW成像需要完成的發射次數要少得多。一般情況下,1到8次發射即可完成成像流、執行10到30次就能完成較佳的B模式成像,因此可提供較高的訊框率,進而產生前述提到的諸多優勢。具體如圖3所示,該圖表示一定發射次數下,成像對比度與以波長為單位的成像深度之間的關係。若數量越小越好,因為這說明圍繞主峰的旁瓣數量少;而增加發射次數能夠增大對比度,但12次發射後不再進一步提升。在本示例中,這決定了對比度和訊框率之間的最佳權衡取捨。此外,4到8次發射也能提供良好的對比度,足供要求較低的成像流使用,因而有助於提高訊框率。

圖3 使用以λ/2為間距的192元線性陣列探頭,一定發射次數下成像對比度與以波長為單位的成像深度之間的關係

兩種成像方法只需要少量發射就能在整個興趣區域內持續成像,是成像流的選擇之一。此外,上述成像方法還能在各方向上持續追蹤移動物件,專為估算主動脈中的血流、檢測組織的運動與彈性,以及實現較低速流檢測而開發。這是因為有連續資料可用,同時透過使用更先進的濾波器來分離流和組織,得到的影像不僅具有更高的動態範圍,且對低速流的靈敏度也有所提高。

影像實現獨立運算

在SA/PW系統中持續完成的波束成形操作次數由下列公式決定:

其中Nl是影像行數,Ne是接收元數,f0是轉換器中心頻率。採樣以探頭中心頻率的四倍頻率進行,透過強化奈奎斯特採樣,實現線性成像。因數k是用於成像的時間分數。為大幅提高訊框率,k值大約在0.8到0.9之間;但如果為降低處理需求而使用較低訊框率,也可以選取非常小的值。

典型取值如Nl=200、Ne=192、k=0.8和f0=5kHz,每秒完成614千兆次運算。一般情況下,完成一次波束成形運算包括運算聚焦延遲、變跡值,最後對樣本值進行插值,並將其與來自轉換器其他單元的數值相加。總體上,每次波束成形運算需要完成30到100次運算,全即時SA成像和PW成像每秒可完成太次運算。與常規系統相比的不同之處在於,完整影像是一次性重建,而不是每次脈衝發射繪製一行,而且出於這個原因,此類系統中的運算量也提高Nl倍。主要優勢在於影像中的各點都能獨立運算,因此,處理在本質上擁有並行性,適用於FPGA實現方案。

受處理資源的限制,PW成像和SA成像直到最近才得到採用。現在由於Versal ACAP等新興嵌入式處理平台的推出,即時實現此類技術才變得切實可行。

插值為影響成像產生關鍵

獨立單元往往以λ/4的速率進行採樣,這符合奈奎斯特(Nyquist)定律,但不足以實現極低延遲。插值是一種補償缺失點的簡便方法。插值器的品質是減輕「虛擬」樣本產生負面影響的關鍵因素。此外,插值器也是對運算能力要求極高的一項功能。在圖4中,部分插值器使用它們的PSF等等值線圖進行比較,等值線間距離為6dB,直至-60dB。合成孔徑使用FieldII模擬器對3.5MHz線性陣列128元探頭進行模擬,採用λ/4採樣,每128單元作為一個發射器。

圖4 用於128元線性陣列探頭插值方案的點擴散函數

圖4所示為插值效果。左上圖所示為在樣本之間使用線性插值時的點擴散函數。右上角所示的是採樣頻率提高10倍與線性插值相結合時的interp函數。左下角是採用樣條插值的情況,右下角則是使用了分段三次Hermite樣條插值多項式pchip。只為樣條函數和interp函數獲取合適的旁瓣,這體現插值對高品質成像的重要性。

合成孔徑/平面波成像使用軟體面臨挑戰

SA成像和PW成像面臨的根本挑戰在於,如何就每秒產生的資料量與特定處理成像流水線中的可用算力進行平衡。超音波成像系統可劃分為前端(FE)、影像成像器(IF)和後端(BE)。FE負責管理轉換器、發送脈衝生成(TX)、接收類比訊號(RX)和TX/RX相位開關矩陣(SM)的硬體方面。影像成像器負責波束成形,有時該功能也被分配到FE。BE負責增強影像,將其從聲學掃描網格轉換為顯示網格,然後進行渲染和顯示。近期,IF和BE通常直接使用原始資料在軟體中進行結合。這種方法需要多條一般使用PCIe的高速傳輸通道,用來將原始資料傳輸到搭載高性能CPU和GPU的工作站。由於多條傳輸通道、緩衝存放區原始資料、向CPU快取和GPU板載記憶體傳輸資料等原因,從FE向BE傳輸大量資料會造成額外的時間延遲。對於擁有128條通道的高階系統來說,在40MHz RF取樣速率下運行,且每樣本以12位元進行編碼,並以1540m/s聲速,在7.7cm深進行軸向成像,每個TX脈衝事件產生的原始資料大小是2,212MB。

如果要實現更高解析度,使用快速成像以每秒15,400次的頻次重複脈衝,產生的資料傳輸量為18.8GB/s。就算是PCIe Gen3x16這樣可提供約12GB/s傳輸速率的整合模組,也無法滿足BE所需的傳輸速率。BE必須將原始資料的儲存速度和傳送速率提高數倍,才能將資料提供給CPU進行控制,同時提供給GPU進行演算法處理。由此引發的時間延遲程度也會限制即時性能。這就需要高速傳輸巨量資料,並在可能的情況下儘早處理資料,以減輕資料負擔。

ACAP促SA/PW成像性能提升

超音波系統本身較適合採用異構運算架構。FE是高度模擬的,如圖5所示。Versal ACAP則用於模擬前端(AFE)控制和資料(RF資料)儲存。

圖5 FE簡化原理圖

Versal ACAP可提供LVDS,負責接收來自AFE的輸入資料,為資料泵和資料獲取提供正確的時鐘與設置,管理發送器的啟動與TX和RX之間的開關。所有這些階段都需要在主類比硬體與Versal ACAP中的可編程設計邏輯之間進行高強度交互作用。這並非易事,但ACAP是解決它的良好選擇。超音波流水線的剩餘部分則用於處理採集的RF資料,而圖6則專注於波束成形流水線。

圖6 用於SA成像和PW成像的波束形成流水線

波束成形是高度並行的演算法。在波束成形器內形成影像的每一步都可以描述成一個資料流程操作,其中分階段處理RF資料,每個階段隨後流入到下一階段。在運算架構中,資料流程由節點構成,形成按佇列連接的圖形。資料流程模型提供流水線並行性,圖形表示的是應用流或程式流,節點表示對資料應用的函數。

圖6所示的是波束成形,方框表示處理階段(操作),線條表示連接器,其中兩個灰色塊表示迴圈("for_loop")。

資料流程能將資料細分,進而將運算流程劃分為並行流,如圖7所示,進而大幅提升性能。

圖7 資料流程圖的橫向劃分(迴圈展開)

ACAP架構實現SA/PW成像資料流程

在傳統微處理器上實現超音波模態資料流程會產生與並行性和資料輸送量有關的問題。350fps下「B-模式」需要大約6.08 Gmult/s的延遲和變跡值運算量。樣本插值需要的運算量在12.17Gmults/s,波束成形器需要的運算量大約在3,028Gmult/s。它類似於僅有30fps的「流模式」,所有運算都透過單精確度浮點運算完成。

一般來說,這樣的運算量難以在嵌入式平台上實現,至少需要高性能桌上型電腦或是電腦叢集。在表1中,便將CPU的理論峰值性能與上述要求進行比較。

此外,在從DDR記憶體(DRAM)向處理器傳輸大型資料叢集(如本應用所示)時,大量資料超過快取極限,導致與其他核心干擾相關的額外限制因素,理論上來說,性能下降幅度最高可達10倍。參見圖8。

圖8 使用快取的傳統多核心架構

如果驗證過諸如SA和PW等運算密集型問題的基本演算法本質,則有一個更好的選擇。SA和PW波束成形適合用線性代數運算來表示。掃描線可以由一個向量、一組帶矩陣的掃描線、一組帶矩陣或立方體的轉換器掃描線,或一組帶立方體向量的發射集表示,具體參見圖9。這類表示屬於張量,如同深度神經網路使用的類型。

圖9 SA與PW波束形成的張量表示

若使用具備下列重要特性的架構,能夠高效運算張量、內積、外積、向量-矩陣相乘、矩陣-矩陣相乘、濾波器、卷積和離散傅里葉變換:

·以棋盤格(拼圖模組)結構組織的同構處理器單元集合

·一套用於連接處理器單元的開關網格;該開關網格是用資料路徑連接及可編程設計開關構成的規則結構

·用於編排資料流程的控制器

·演算法的局部開發,即資料移動通常限制在相鄰處理單元範圍內

·使用流水線技術實現處理器單元的高利用率

如Versal ACAP採用使用拼圖模組的AI引擎架構,能夠滿足上述要求。拼圖模組中的處理單元採用單指令多資料(SIMD)和超長指令字(VLIW)架構。參見圖10。

圖10 AI引擎陣列

AI引擎整合一個標量單元、一個向量單元、兩個負載單元、一個儲存單元和一個記憶體介面。標量單元則整合一個32位標量RISC、一個32×32位標量乘法器,同時可支援正弦/餘弦、平方根、平方根倒數等非線性函數。向量單位整合:512位元向量定點/整數單元和單精確度浮點向量單元,均支援多個向量通道上的併發運算。每個AI引擎內建專用的單埠16KB程式記憶體。

每個AI引擎方塊圖內建32KB資料記憶體,其劃分為八個單埠組,允許每個時鐘週期最多八個並行記憶體訪問事務。

此外,資料記憶體還內建DMA邏輯,可支援輸入到本機存放區器的傳入流,從本機存放器向外輸出的傳出流,以及本機存放區器中的緩衝流。透過支援二維跨越式存取,任何AI引擎都能存取各方向上相鄰AI引擎方塊圖中的資料記憶體,進而允許單個AI引擎存取高達128KB的資料記憶體,每週期存取四個記憶體模組,頻寬超過1太位元組/秒。參見圖11。

圖11 AI引擎方塊圖

從運算角度,每個AI引擎方塊圖都具備乘法-累加處理能力,如圖12所示。

圖12 以週期計的乘法-累加性能

「B-模式」的性能要求估計在3,200 Gmult/s左右;因此根據圖12,在1GHz下,每個方塊圖能夠每週期執行8MAC,因此需要3,200/8=400個方塊圖。

從宏觀上看,AI引擎能夠實現SA和PW中資料流程演算法所需的所有不同結構。作為參考,在圖13中,除了AI引擎以外,Versal ACAP整合的特性還包括一個標量引擎、自我調整引擎(可編程設計邏輯)、智慧引擎(由AI引擎和DSP引擎共同構成)以及一個可編程網路單晶片(NoC)。

圖13 Versal ACAP原理圖

雙核心Cortex-A72 64位元處理器用於託管作業系統(如Linux)以及執行與控制超音波處理有關的任務。該處理器為連接、編排和更新提供所需的一切功能,還為超音波採集所需的數位訊號處理提供豐富的基礎設施。

自我調整部分(可編程設計邏輯)負責一切與採集有關的功能,其中包括控制AFE、發送器,解調來自轉換器的I/Q訊號。此外,它還能為特定任務加速並對已採集資料從記憶體到AI引擎的傳輸進行管理。

如Versal ACAP的可編程設計NoC是一種完全整合的高速全獨占式縱橫開關,用於管理SA成像和PW成像所需的高頻寬。NoC的作用在於實現對全高全寬PL的無縫記憶體映射存取,以便連接元件上需要使用大量資料的區域。它能夠:

·針對DRAM實現共用設備存取

·在PL之間建立連接

·對AI引擎陣列進行記憶體映射存取,以便進行追溯和調試

·在PS、PL和AI引擎陣列之間建立連接

·在PS和DDR記憶體之間建立連接

程式設計用於SA/PW成像AI引擎

AI引擎程式由使用C++編寫的資料流程圖規格構成。該規格可以使用專用編譯器編譯並執行。資料流程圖由節點和邊緣構成,其中節點表示運算核心函數,邊緣表示資料連接。

資料流程圖的核心在資料流程(無限長的類型值序列)上運行。這些資料流程可以被分解為單獨的方塊圖,而這些方塊圖由核心進行處理。核心消耗輸入資料方塊圖並產出輸出資料方塊圖。此外,核心還可以逐樣本地存取資料流程。

AI引擎核心是一個指向VLIW向量和標量處理器的C/C++程式。

包括記憶體通訊和串流通訊在內,存在多種可能的通訊配置,它們都是SA成像和PW成像的必要構建方塊圖。參見圖14。

圖14 AI引擎通訊結構

消耗輸入資料方塊圖的核心被稱為輸入視窗,產出輸出資料方塊圖的核心被稱為輸出視窗。二者由AIE編譯器根據資料流程圖連接自動完成推斷。

核心接收類型資料的輸入流或輸出流作為參考。PS可用於動態載入、監測和控制在AI引擎陣列上執行的資料流程圖。AI引擎架構和編譯器彼此配合,提供程式設計模型。兩個流連接能夠以透明方式共用同一物理通道,前提是它們的總通道占用率未達到100%。除了在AI引擎的處理器單元上運行以外,核心也能指定核心在PL上運行。圖15所示的是SA成像和PW成像的概念圖。A區方塊圖將PL連接到B區的PL核心方塊圖,後者又流到C區的核心,進行延遲運算。一套核心隨後並行啟動並交替執行,交替的核心數決定並行程度和加速程度。隨後,波束成形核心產生實體其他內部核心,用於D區方塊圖所示的內部運算。E區核心將波束成形資料流程到DDR記憶體。

圖15 SA和PW波束形成器的完整資料流程圖結構

合成孔徑成像與平面波成像技術可以使用Versal ACAP與AI引擎以及相關的軟體框架實現,為此類先進的超音波模態提供單晶片實現方案。對於先進的超音波系統,則可以使用單片以上的Versal ACAP,借助128個轉換器實現高達2,000訊框/秒的良好性能。

(本文由賽靈思Xilinx提供)

相關文章

- Advertisement -
- Advertisement -

最新文章

- Advertisement -

熱門文章

- Advertisement -

編輯推薦

- Advertisement -