增強人工智慧效能的測試解決方案

我們提供最廣泛的解決方案來測試人工智慧基礎設施

人工智慧開發和部署的端到端支持

二十多年來,Teledyne LeCroy 在資料中心人工智慧技術的可靠運作方面發揮了關鍵作用。我們的測試解決方案用於整個生態系統,以實現高效能運算和分析、支援高效移動和存取資料的網路以及作為雲端中熱儲存和冷儲存骨幹的儲存設備。為此,我們為超大規模環境中使用的 PCI Express、CXL、NVMe、千兆位元乙太網路和 SAS 等技術的領先解決方案提供給設計和測試工程師(從早期採用者到系統整合商)。

    人工智慧 - 互連

    計算

    人工智慧應用程式需要資料中心的高效能運算來以高吞吐量和低延遲分析大量數據,從而推動現代電腦和以數據為中心的架構。
    人工智慧 - 網路

    網絡應用

    在機架、資料中心和園區內移動大量資料加速了對更快、更有效率網路技術的追求。
    人工智慧-儲存

    儲存應用

    對儲存容量不斷增長的需求以及對隨時隨地存取資料的追求推動了雲端和混合儲存解決方案以及儲存介面技術的發展。

    計算 - 互連、處理、資料流和記憶體管理

    人工智慧變革力量的核心是使這一切成為可能的運算和處理要求。 AI 工作負載推動資料中心高效能運算 (HPC) 的轉型,每秒可進行數兆次運算,從而以驚人的速度和準確性實現影像辨識、自然語言理解和趨勢預測。並行處理系統使人工智慧能夠有效率地執行多任務,反映了人腦的複雜性。

    代表 PCIe / CXL 的 AI 大腦的彩色影像
    管理記憶和人工智慧的頭部的彩色影像

    Teledyne LeCroy Summit 分析儀、訓練器、幹擾器、插入器和測試系統可協助建置和優化使用 PCIe 支援人工智慧的最快、最新的系統。這些設備和運算系統使用高速介面將 GPU 和客製化矽晶片等 AI 加速器連接到中央處理單元 (CPU)。其不斷發展確保人工智慧系統始終處於技術前沿,準備好應對未來數據驅動世界的挑戰。

    • 可擴展性:隨著每一代新產品的出現,PCIe 的頻寬都會增加一倍,以滿足人工智慧應用不斷增長的需求。最新的 PCIe 6.0 規範提供每引腳 64 GT/s 的資料傳輸速率,確保 AI 系統能夠處理日益複雜的任務。
    • 多功能性:PCIe 可用於各種外形尺寸,從用於深度學習系統的大型晶片到可擴展以處理需要數百 petaFLOPS 處理能力的廣泛神經網路的小型空間加速器。
    • 能源效率:較新的 PCIe 版本引入了低功耗狀態,有助於提高 AI 系統的能源效率。這對於可持續且具有成本效益的人工智慧營運至關重要。
    • 互聯性:PCIe 促進人工智慧基礎架構內運算、加速器、網路和儲存設備的互連,從而實現具有更低功耗和最大覆蓋範圍的高效資料中心解決方案。

    CXL 在塑造人工智慧領域具有重大前景,而 Teledyne LeCroy 解決方案是測試和優化當今 CXL 系統的唯一方法。記憶體效率、延遲減少和效能均透過支援 CXL 測試和合規性的 Teledyne LeCroy 解決方案實現 - 所有這些對於保持低延遲和高吞吐量至關重要。這對於需要快速存取大型資料集的頻寬密集型人工智慧工作負載尤其重要。

    • 內存容量擴展:CXL 允許將大型記憶體池連接到多個處理器或加速器。這對於處理大量資料集的 AI/HPC 應用程式至關重要。
    • 降低延遲:CXL 的低延遲設計可確保資料在計算元素之間快速傳輸。 AI/ML 工作負載受益於最短的等待時間。
    • 互通性:CXL 促進供應商中立的兼容性,允許不同的加速器和記憶體模組無縫地協同工作。
    • 增強記憶體頻寬:CXL 顯著提高了記憶體頻寬,確保資料密集型工作負載存取資料時沒有瓶頸。

    網路 - 高速乙太網路、資料吞吐量、結構和網絡

    最近的大型語言模型(例如 GPT-$)需要數億甚至更多的參數,這些參數是透過可擴展網路從不同來源提供的。為此,高速網路和網路技術必須支援針對這些新工作負載進行最佳化的低延遲和高效能資訊傳輸。

    與人工智慧基礎設施的有線連接
    用於人工智慧後端測試的程式化全球網絡

    千兆位元乙太網路以 1 Gbps(千兆位元每秒)運行,提供快速的資料傳輸速率。這種速度對於處理人工智慧工作負載中的大型資料集至關重要。太比特乙太網路以 1 Tbps(太比特每秒)的速度運行,有助於大量資料集的無縫交換。它支援物聯網 (IoT)、人工智慧 (AI) 和大數據分析等新興技術。

    標題頁圖片 - 如何測試針對人工智慧最佳化的資料中心交換器 - 白皮書 如何測試針對人工智慧最佳化的資料中心交換器 - 白皮書
    • 即時回應:低延遲對於人工智慧系統至關重要。千兆乙太網路可最大限度地減少延遲,確保 GPU、CPU 和儲存裝置等元件之間的及時互動。
    • 即時決策:太比特乙太網路可實現即時人工智慧驅動的決策。其高頻寬保證了AI節點之間的高效通訊。
    • 無損網絡:傳統乙太網路在擁塞時可能會丟包,影響AI模型的準確性。然而,新興技術承諾「無損」傳輸,即使在重負載下也能確保資料完整性
    • 可擴展性:隨著人工智慧模型變得越來越複雜,可擴展的基礎設施變得至關重要。千兆位元乙太網路允許透過連接額外的伺服器和裝置進行無縫擴展。太比特乙太網路適應其指數級成長,確保高效的連接和資料交換

    Teldyne LeCroy XENA 產品使該公司能夠優化其 AI 後端網路結構並使其面向未來,以處理大量時間關鍵型流量。用於人工智慧工作負載的資料中心架構通常採用脊葉結構,透過具有 2 至 3 Gbps 連接埠速度的低延遲 L400/L800 網路基礎設施連接數千個人工智慧加速器和儲存解決方案。基於融合乙太網路的 RDMA (RoCE) 是儲存資料傳輸協定的一個有前途的選擇。

    標題頁圖片 - 如何測試針對人工智慧最佳化的資料中心交換器 - 白皮書 如何測試針對人工智慧最佳化的資料中心交換器 - 白皮書
    • 數據中心橋接 (DCB):促進 RDMA 資料包(無損流量)與常規盡力而為流量(有損流量)的高吞吐量、低延遲和零丟包傳輸。
    • 優先流量控制 (PFC):當緩衝區已滿超過某個閾值時,透過提示發送方暫時暫停發送資料包來防止資料包遺失。
    • 擁堵通知(中國):RoCEv1 和 RoCEv2 在網路設備之間實現擁塞信令,可用於減少無損網路中的擁塞擴散,並減少延遲並提高突發容忍度。
    • 增強型流量選擇 (ETS):支援為每個服務等級 (CoS) 分配最小保證頻寬。

    儲存 - SSD、資料中心、資料管理

    AI 儲存解決方案必須快速適應 AI/ML 工作負載的擴充要求。應在不中斷正在進行的操作的情況下支援儲存容量和效能的可擴充性,並防止過度配置和利用率不足。所有這些,同時支援結構化和非結構化資料。儲存基礎架構的核心是與固態硬碟、旋轉媒體和高頻寬記憶體元件一起使用的 NVMe、SAS、CXL 等技術。

    AI 和 Oakgate SSD 設備測試
    管理記憶和人工智慧的頭部的彩色影像
    AI 頭和 SAS 盒的彩色影像

    人工智慧和機器學習 (ML) 的出現只會增強對全面固態儲存設備 (SSD) 測試的迫切需求。由於人工智慧工作負載的高運算要求,預計人工智慧將增加資料中心對 SSD 的需求。人工智慧應用程式產生和處理大量數據,需要具有高速數據存取和處理能力的儲存解決方案。

    • 更快的資料存取和處理速度:對於處理人工智慧任務中使用的大型資料集和複雜演算法至關重要。 AI應用通常涉及頻繁的讀寫操作,因此SSD在性能和耐用性方面比傳統HDD更適合。這種需求可能會推動 SSD 技術和其他高效能儲存解決方案的創新。
    • 專業且多樣化的工作負載:可能會需要專門針對人工智慧應用程式的要求量身定制的儲存解決方案。這可能包括針對深度學習演算法、即時分析或大規模資料處理進行最佳化的儲存系統。
    • 最佳化儲存系統:提高效率、可靠性和性能。這涉及使用機器學習演算法來預測儲存使用模式、自動化資料分層或改進資料壓縮技術。

    Teledyne LeCroy OakGate 解決方案為新興的 CXL(計算快速連結)記憶體設備提供測試功能,這些設備有望徹底改變資料中心,尤其是人工智慧和機器學習工作負載。使用 CXL 的 AI 平台需要 CPU 和 GPU、FPGA 和 TPU 等加速器之間進行高速、一致的記憶體訪問,CXL 記憶體設備將顯著提高資料傳輸速度、減少延遲並提高整體系統效能。

    • 功能和性能驗證測試:確保新的 CXL 設備在推出市場時符合標準。
    • 品質和合規性測試:這意味著人工智慧模型的訓練和推理時間更快,最終導致資料中心的機器學習操作更有效率、更強大。
    • 訓練和推理時間:測試人工智慧系統,以實現資料中心中更有效率、更強大的機器學習操作,並增加不同處理單元之間的一致性記憶體訪問,從而促進更複雜和精密的人工智慧演算法和工作流程。

    測試串行連接 SCSI (SAS) 對於支援人工智慧應用至關重要,特別是在資料儲存和檢索方面。透過確保 SAS 系統經過徹底測試和合規,AI 應用程式可以受益於可靠、高速和可擴展的資料儲存解決方案,這是有效 AI 操作的基礎。

    • 高速數據傳輸:SAS 提供高速資料傳輸速率,這對於需要快速存取大型資料集的 AI 應用程式至關重要。這確保了人工智慧模型可以被有效地訓練和部署。
    • 可靠性和冗餘:SAS 系統以其可靠性和冗餘特性而聞名。這對於人工智慧來說非常重要,因為它可以確保資料始終可用並防止故障。
    • 可擴展性:SAS 支援可擴展的儲存解決方案,允許 AI 系統在不影響效能的情況下擴展和處理不斷增加的資料量。
    • 相容性:SAS相容於各種儲存設備和接口,適用於不同的AI應用和環境。
    • 規範測試:SAS 合規性測試可確保硬體符合效能和可靠性的業界標準。這對於維護依賴這些儲存解決方案的人工智慧系統的完整性至關重要

    需要協助或資訊?

    我們隨時為您提供協助並回答您可能遇到的任何問題。我們期待您的回音