Những điểm quan trọng
- Tốc độ thông lượng chưa từng có trong một nút duy nhất:R7725xd duy trì hơn 300 GB / s băng thông nội bộ và 160 GB / s trên NVMe-oF RDMA, cạnh tranh với các cụm lưu trữ đa nút bên trong khung 2U.
- Kiến trúc Gen5 thực sự, không có công tắc, không có Fan-Out:Tất cả các ổ SSD 24 Micron 9550 PRO đều nhận được các làn đường x4 PCIe Gen5 chuyên dụng trực tiếp từ phức hợp CPU, cho phép mở rộng tốc độ dòng mà không có tranh cãi.
- Được hỗ trợ bởi AMD EPYC 9005 Series:Bộ vi xử lý AMD EPYC 9575F kép cung cấp số làn đường, băng thông bộ nhớ và cấu trúc NUMA cần thiết cho I / O đồng hành cao bền vững.
- Được thiết kế cho AI, Analytics và khối lượng công việc nặng điểm kiểm tra:Hệ thống loại bỏ các nút thắt I / O ngăn chặn các đường ống GPU hiện đại, cho phép chuyển dữ liệu liên tục, băng thông cao.
- AIO mở khóa sự song song đầy đủ:PEAK: Bộ phần mềm của AIO giữ cho cấu trúc hàng đợi bão hòa dưới tải, cung cấp hiệu suất doanh nghiệp ở tỷ lệ đô la / GB hấp dẫn.
Phần lưu trữ của iDRAC 10 trình bày tổng quan đầy đủ về tất cả các ổ đĩa vật lý được cài đặt trong R7725xd. Bảng tóm tắt hiển thị một số lượng cao của tất cả các ổ đĩa được kết nối,đi kèm với một biểu đồ hình bánh trực quan minh họa các trạng thái ổ đĩaTrong cấu hình này, 24 ổ SSD NVMe đang hoạt động và báo cáo sẵn sàng, với hai thiết bị khởi động bổ sung có mặt trong hệ thống, tách biệt với ngân hàng NVMe phía trước chính.
Ở bên phải, bảng điều khiển Tóm tắt đĩa chia chúng thành đĩa vật lý và bất kỳ đĩa ảo nào liên quan.,tất cả các ổ đĩa được báo cáo là không RAID và có thể được địa chỉ riêng lẻ, phù hợp với thiết kế của hệ thống cho các nhóm NVMe lớn và nền tảng SDS.
Dưới tóm tắt trạng thái, khu vực Các sự kiện lưu trữ mới đăng nhập liệt kê nhật ký chèn cho mỗi SSD PCIe, được tổ chức theo vịnh và khe cắm.Ghi chép này xác nhận phát hiện đúng trên tất cả các ổ đĩa và giúp xác định bất kỳ vấn đề với chỗ ngồiĐối với các triển khai lớn, các nhật ký này hữu ích khi theo dõi việc cung cấp ổ đĩa hoặc xác minh rằng dung lượng đã được lấp đầy như mong đợi.
Ảnh chụp màn hình cuối cùng cho thấy dạng xem thiết bị NVMe chi tiết trong iDRAC10. Mỗi ổ NVMe được cài đặt trong hệ thống được liệt kê với trạng thái, dung lượng và vị trí vịnh của nó.Chọn một ổ đĩa cá nhân mở ra một sự phân chia hoàn toàn các đặc điểm của nó.
Trong ví dụ này, bảng thông tin ổ đĩa hiển thị chuỗi mô hình đầy đủ, giao thức thiết bị, yếu tố hình thức và cài đặt PCIe được đàm phán.Các thiết bị NVMe đang chạy ở tốc độ liên kết 32 GT / s với một kết nối x4 đàm phán, xác nhận rằng các ổ đĩa đang hoạt động với băng thông đầy đủ trên hệ thống PCIe Gen5 của hệ thống.giúp các quản trị viên theo dõi sức khỏe và kỳ vọng vòng đời lái xe.
Báo cáo ổ đĩa chi tiết này có giá trị trong các cấu hình NVMe mật độ cao, nơi chiều rộng liên kết, tốc độ đàm phán và sức khỏe phương tiện trực tiếp ảnh hưởng đến hành vi tải công việc và hiệu suất lưu trữ.
Nhìn chung, giao diện iDRAC 10 cung cấp một cái nhìn rõ ràng, tập trung vào phần cứng về kiến trúc lưu trữ NVMe R7725xd, cho phép xác nhận dễ dàng tình trạng liên kết, trạng thái ổ đĩa,và toàn vẹn hệ thống trong một cái nhìn.
Dell PowerEdge R7725xd Hiệu suất
Trước khi thử nghiệm, hệ thống của chúng tôi được cấu hình với một tải cân bằng nhưng hiệu suất cao.và kết hợp với 24 DDR5 DIMM 32GB hoạt động ở tốc độ 6400 MT/sĐể lưu trữ, khung gầm được lấp đầy đầy với 24 ổ SSD Micron 9550 PRO U.2 NVMe 15.36TB, mỗi ổ được kết nối thông qua một liên kết PCIe Gen5 x4 chuyên dụng.và các ổ đĩa Micron 9550 PRO cung cấp tốc độ đọc liên tục lên đến 14,000 MB / s và tốc độ ghi liên tục lên đến 10,000 MB / s. Mạng được xử lý bởi bốn bộ điều hợp Broadcom BCM57608 cung cấp kết hợp tám cổng 200Gb,cùng với một BCM57412 OCP NIC cung cấp hai cổng 10 gigabit bổ sung.
Thông số kỹ thuật hệ thống thử nghiệm
- CPU:Bộ vi xử lý tần số cao 64 lõi 2x AMD EPYC 9575F
- Bộ nhớ:24x 32GB DDR5 @ 6400MT/s
- Lưu trữ:24x 15.36TB ổ đĩa Micron 9550 PRO U.2 (được kết nối ở 4x làn đường của PCIe Gen5 mỗi); hỗ trợ tối đa 128TB ổ đĩa ngày nay với dung lượng cao hơn trên đường chân trời
- Mạng:4x Broadcom BCM57608 2x200G NIC, 1x BCM57412 2x10Gb OCP NIC
- Chuyển đổi:Dell PowerSwitch Z9664
Chỉ số so sánh hiệu suất FIO
Để đo hiệu suất lưu trữ của PowerEdge R7725xd, chúng tôi đã sử dụng các số liệu tiêu chuẩn công nghiệp và công cụ FIO.
- 4K ngẫu nhiên 1M
- 4K liên tục 1M
FIO ️ Địa phương ️ băng thông
Khi kiểm tra truy cập cục bộ vào 24 ổ đĩa PCIe Gen5 NVMe bên trong Dell PowerEdge R7725xd,hệ thống cho thấy chính xác những gì bạn mong đợi từ một nền tảng mà mỗi ổ đĩa được kết nối với CPU bằng cách sử dụng một liên kết PCIe Gen5 làn đầy đủ x4Không có lớp mạng liên quan, đây là thông lượng nội bộ thuần túy của bố cục lưu trữ Gen5 của Dell và băng thông PCIe của nền tảng AMD EPYC hoạt động mà không bị hạn chế.
Đọc liên tục bắt đầu ở tốc độ 184 GB / s với các khối 4K và mở rộng nhanh chóng khi kích thước khối tăng.đó là một dấu hiệu mạnh mẽ cho thấy hệ thống có thể tổng hợp tất cả các làn 24 × 4 Gen5 thành băng thông đọc bền vững mà không có bất kỳ nút thắt ở giai đoạn điều khiển nào.
Việc ghi theo trình tự theo một đường cong khác nhưng vẫn ở trong phạm vi dự kiến.Điều này phù hợp với hành vi ghi của các ổ SSD Micron 9550 PRO và chi phí trên vốn có của NVMe viết song song cao trên rất nhiều thiết bị độc lập.
Hiệu suất đọc ngẫu nhiên là một điểm nổi bật khác. Hệ thống đạt tốc độ gần 300 GB / s ở kích thước khối nhỏ nhất, giảm nhẹ ở tầm trung,và sau đó phục hồi đến 200s trên và 300s thấp hơn ở kích thước khối lớn hơnTại 1M, đọc ngẫu nhiên đạt tối đa 318 GB / s, chứng minh khả năng của nền tảng để phân phối các hoạt động hỗn hợp đồng đều trên tất cả 24 ổ đĩa.
Việc ghi ngẫu nhiên đến với tốc độ thấp hơn, điển hình cho các nhiệm vụ phân bổ siêu dữ liệu và ghi phân bổ phân tán trên một tập hợp NVMe rộng.Kết quả vẫn ở trong phạm vi 140 đến 160 GB / s trong hầu hết các thử nghiệm và thu hẹp xuống dưới 100 GB / s ở 1 M.
FIO ️ địa phương ️ IOPS
Khi kiểm tra phía IOPS, R7725xd cho thấy hiệu suất khối nhỏ mạnh mẽ,với tốc độ yêu cầu đạt được hàng chục triệu trước khi kích thước khối lớn hơn chuyển tải công việc về phía hồ sơ băng thông.
Ở 4K, đọc đạt 44,9 triệu IOPS và viết đạt 36,3 triệu.chứng minh khả năng của hệ thống để phân phối hiệu quả khối lượng công việc xếp hàng cao trên tất cả các ổ đĩaCác giá trị này tự nhiên thu hẹp khi kích thước khối tăng, nhưng sự tiến triển vẫn ổn định qua các phạm vi 8K, 16K và 32K.
Với các khối 16K và 32K, đọc được ở mức 17,4 triệu và 8,35 triệu IOPS, với các bài đọc ngẫu nhiên phù hợp với 16,5 triệu và 8,15 triệu.theo dõi thấp hơn nhưng vẫn ổn định trên cả hai mô hình truy cập theo thứ tự và ngẫu nhiên.
Khi chúng ta chuyển sang 64K trở lên, các quá trình thử nghiệm chuyển từ IOPS thuần túy sang kịch bản băng thông nhiều hơn. IOPS rơi vào phạm vi thấp hàng triệu và cuối cùng vào hàng trăm ngàn.Ở kích thước khối 1M, đọc IOPS đất khoảng 300K, viết ở khoảng 174K, và các hoạt động ngẫu nhiên kết thúc trong cùng một khu phố.
Nhìn chung, kết quả IOPS địa phương cho thấy rõ khả năng của hệ thống để duy trì khối lượng công việc với độ sâu hàng đợi rất cao trên các khối nhỏ,với quy mô dự đoán khi chuyển giao tăng và băng thông trở thành yếu tố thống trị.
Tại sao Dell PowerEdge R7725xd phù hợp với khối lượng công việc này
PEAK: AIO được thiết kế cho các môi trường đòi hỏi truy cập cực kỳ nhanh, độ trễ thấp vào các tập dữ liệu lớn, thường cho đào tạo AI, đường ống suy luận, mô hình hóa tài chính và phân tích thời gian thực.Nền tảng phát triển mạnh trên lưu trữ NVMe dày đặc, băng thông PCIe cân bằng và độ trễ dự đoán ở quy mô.phần cứng cơ bản phải cung cấp thông lượng bền vững trong khi duy trì hiệu suất nhất quán và lặp lại dưới tải trọng nặng đồng thời.
Đây là nơi Dell PowerEdge R7725xd tự nhiên liên kết với PEAK: AIO. Kiến trúc của hệ thống được thiết kế để tối đa hóa tài nguyên PCIe Gen5, phơi bày toàn bộ băng thông của 24 U gắn phía trước.2 khoang NVMe trực tiếp đến các CPU, mà không dựa vào các bộ điều khiển RAID truyền thống. Dạng bố cục này cung cấp cho PEAK: AIO cấu hình song song và độ trễ mà nó mong đợi từ các đường ống dữ liệu dựa trên NVMe hiện đại.Cấu hình hệ thống chia các ổ SSD NVMe thành hai nhóm RAID0.
Trong kịch bản thử nghiệm, chúng tôi đã sử dụng hai hệ thống khách hàng được kết nối với R7725xd, mỗi thiết bị với Broadcom BCM57608 2x 200G NICs.đẩy R7725xd vào một cấu hình hiệu suất cao thực tế phản ánh những gì PEAKMức độ băng thông mạng này cho chúng tôi không gian để nhấn mạnh đầy đủ hệ thống con NVMe, topology PCIe,và CPU kết nối với nhau mà không có nút thắt ở lớp NIC.
Kết quả là một nền tảng phù hợp hiệu quả với khối lượng công việc PEAK: AIO. R7725xd cung cấp dung lượng NVMe dày đặc, thông lượng PCIe Gen5, bộ xử lý AMD EPYC 9005 kép để song song,và khả năng mạng để duy trì nhiều khách hàng ăn dữ liệu ở hàng trăm gigabits mỗi khách hàngTất cả các đặc điểm này là nền tảng để đạt được kỳ vọng hiệu suất của PEAK:AIO.
PEAK:AIO ️ NVMe-of RDMA ️ băng thông
Xem xét kết quả băng thông NVMe-oF RDMA trên PowerEdge R7725xd với PEAK: AIO, xu hướng tổng thể chính xác là những gì chúng tôi mong đợi từ một hệ thống có nhiều băng thông PCIe và mạng như vậy.Khi kích thước khối tăng lên, thông lượng tăng nhanh chóng cho đến khi nó ổn định gần giới hạn thực tế của nền tảng.
Ở kích thước khối nhỏ, hiệu suất bắt đầu ở khoảng giữa 20GB / s cho cả đọc và ghi, điều này là bình thường bởi vì chuyển giao 4K và 8K đẩy đường IOPS khó hơn nhiều so với đường thông lượng.Một khi chúng ta vào khối 16K và 32K, đường ống mở ra. đọc nhảy lên khoảng 154 GB / s ở 32K và tiếp tục leo lên phạm vi 160 GB / s, đó là ngay nơi chúng tôi mong đợi một thiết lập khách hàng kép trên bốn 200 Gb / s liên kết đến đất.
AIO làm một công việc tốt trong việc giữ cho hàng lệnh được cung cấp,Vì vậy, băng thông đọc ngẫu nhiên về cơ bản theo dõi băng thông đọc tuần tự tất cả các cách lên, ổn định ở khoảng 159 đến 161 GB / s từ 32K đến 1M. Điều này cho thấy rằng ngăn xếp lưu trữ không bị tắc nghẽn trong các mô hình truy cập hỗn hợp,và topology PCIe R7725xd ̇s đang phân phối tải trọng đồng đều trên 24 ổ NVMe Gen5.
Hiệu suất ghi theo đường cong tương tự, mặc dù nó đứng đầu thấp hơn một chút so với đọc.ngâm xuống khoảng 117 GB / s ở 128K nhưng phục hồi khi kích thước khối tăng. Viết ngẫu nhiên cư xử khác nhau và phẳng ra gần 110-117 GB / s, đó là bình thường cho khối lượng công việc xếp hàng hỗn hợp giới thiệu chi phí phụ thêm.
Điểm quan trọng từ phần này là R7725xd không gặp khó khăn trong việc duy trì băng thông cực cao trên NVMe-oF, ngay cả khi nhiều khách hàng đẩy hệ thống đến giới hạn của nó.Một khi kích thước khối đạt 32K hoặc cao hơn, máy chủ liên tục bão hòa mạng và băng thông lưu trữ có sẵn.làm cho những kết quả này một xác nhận mạnh mẽ về khả năng mở rộng nền tảng trong điều kiện thực tế.
PEAK AIO - NVMe-of RDMA
Về phía IOPS, PowerEdge R7725xd cho thấy hiệu suất khối nhỏ mạnh mẽ, mặc dù ban đầu chúng tôi quan sát số lượng thấp hơn dự kiến;vấn đề này dự kiến sẽ được giải quyết với hỗ trợ trình điều khiển mạng được cải thiện trong tương laiNgay cả khi có điều đó, xu hướng mở rộng tổng thể xuất hiện chính xác như NVMe-of RDMA thường cư xử khi kích thước khối tăng.
Ở kích thước khối nhỏ nhất, hệ thống có thể cung cấp hơn 6 triệu IOPS trên cả khối lượng công việc tuần tự và ngẫu nhiên.và viết ngẫu nhiên tất cả ngồi trong khoảng tương tự ở 4K và 8K, cho thấy các khách hàng đầu cuối, cơ sở hạ tầng PCIe và các ổ đĩa NVMe không gặp khó khăn trong việc theo kịp tốc độ yêu cầu.
Khi kích thước khối tăng lên, sự sụt giảm dự kiến trong IOPS bắt đầu. ở 32K, đọc đất xung quanh 4,7 triệu IOPS, trong khi viết theo dõi hơi phía sau ở khoảng 4,4 triệu. ngẫu nhiên viết có hit lớn nhất ở đây,giảm xuống khoảng 3,3 triệu IOPS, phù hợp với chi phí xếp hàng bổ sung và CPU được giới thiệu bởi các mô hình truy cập hỗn hợp.
Di chuyển vào các khối lớn, IOPS tiếp tục thu hẹp theo một cách tuyến tính dự đoán.và IOPS tự nhiên giảm vào giữa hàng trăm ngànỞ kích thước khối 1M, tất cả khối lượng công việc hội tụ với 140K-153K IOPS, phù hợp với số lượng băng thông mà chúng tôi đã thấy trong phần trước.
Hiệu suất lưu trữ GPUDirect
Một trong những thử nghiệm chúng tôi thực hiện trên R7725xd là thử nghiệm Magnum IO GPUDirect Storage (GDS).GDS là một tính năng được phát triển bởi NVIDIA cho phép GPU bỏ qua CPU khi truy cập dữ liệu được lưu trữ trên ổ đĩa NVMe hoặc các thiết bị lưu trữ tốc độ cao khácThay vì định tuyến dữ liệu qua CPU và bộ nhớ hệ thống, GDS cho phép giao tiếp trực tiếp giữa GPU và thiết bị lưu trữ, làm giảm đáng kể độ trễ và cải thiện thông lượng dữ liệu.
GPUDirect Storage hoạt động như thế nào
Theo truyền thống, khi GPU xử lý dữ liệu được lưu trữ trên ổ NVMe, dữ liệu phải đi qua CPU và bộ nhớ hệ thống trước khi đến GPU.khi CPU trở thành một người trung gian, thêm độ trễ và tiêu thụ các tài nguyên hệ thống có giá trị. GPUDirect Storage loại bỏ sự không hiệu quả này bằng cách cho phép GPU truy cập dữ liệu trực tiếp từ thiết bị lưu trữ thông qua bus PCIe.Con đường trực tiếp này làm giảm chuyển động dữ liệu trên cao, cho phép chuyển dữ liệu nhanh hơn và hiệu quả hơn.
Các khối lượng công việc AI, đặc biệt là những người liên quan đến học tập sâu là rất dữ liệu thâm dụng.và bất kỳ sự chậm trễ trong chuyển dữ liệu có thể dẫn đến GPU chưa được sử dụng và thời gian đào tạo dài hơn. GPUDirect Storage giải quyết thách thức này bằng cách đảm bảo rằng dữ liệu được phân phối đến GPU càng nhanh càng tốt, giảm thiểu thời gian không hoạt động và tối đa hóa hiệu quả tính toán.
Ngoài ra, GDS đặc biệt có lợi cho các khối lượng công việc liên quan đến lưu trữ các tập dữ liệu lớn, chẳng hạn như xử lý video, xử lý ngôn ngữ tự nhiên hoặc suy luận thời gian thực.Bằng cách giảm sự phụ thuộc vào CPU, GDS tăng tốc chuyển động dữ liệu và giải phóng tài nguyên CPU cho các nhiệm vụ khác, nâng cao hiệu suất hệ thống tổng thể hơn nữa.
Ngoài băng thông thô, GPUDirect với NVMe-oF (TCP / RDMA) cũng cung cấp I / O độ trễ cực thấp. Điều này đảm bảo GPU không bao giờ bị thiếu dữ liệu, làm cho hệ thống lý tưởng cho suy luận AI thời gian thực,ống dẫn phân tích, và phát lại video.
GDSIO đọc theo thứ tự
Khi kiểm tra PEAK: AIO với một khách hàng sử dụng GDSIO, thông lượng đọc hiển thị một mô hình mở rộng rõ ràng khi cả kích thước khối và số lượng thread tăng.Khách hàng duy nhất này được kết nối thông qua hai liên kết 400G, giới hạn tổng công suất của nó đến 90 GB / s.
Ở kích thước khối nhỏ nhất và số lượng thread thấp, hiệu suất khiêm tốn, với đọc 4K bắt đầu từ khoảng 189 MiB / s ở một thread.hệ thống phản ứng ngay lập tức, đẩy 691MiB/s ở bốn chuỗi và phá vỡ trong phạm vi nhiều GiB/s khi chúng ta bước vào khối lớn hơn.
Kích thước khối tầm trung cho thấy độ nhạy mạnh nhất đối với số lượng thread. ở 32K, thông lượng tăng từ 1,3 GiB / s ở một thread duy nhất đến gần 20 GiB / s với 64 thread,chỉ có một sự thu nhỏ nhẹ ngoài đóMột mô hình tương tự xuất hiện ở 64K và 128K, nơi hệ thống chuyển từ GiB/s một chữ số thấp ở sự song song thấp đến hơn 30 GiB/s khi khối lượng công việc tăng.
Một khi chúng ta đạt đến kích thước khối lớn hơn, thông lượng bắt đầu ổn định khi hệ thống tiếp cận trần hiệu suất của nó cho một khách hàng duy nhất.hiệu suất tăng từ 11GiB / s ở một sợi đến khoảng 88GiB / s ở số sợi cao. Các chuyển đổi 5 MiB và 10 MiB cho thấy cùng một cao nguyên, đạt đỉnh khoảng 89 ≈ 90 GiB / s bất kể thử nghiệm đang chạy ở 64, 128 hoặc 256 luồng.
GDSIO Viết theo thứ tự
Về phía ghi, hành vi mở rộng quy mô theo một mô hình tương tự như đọc, nhưng với hiệu suất thấp hơn một chút trên hầu hết các kích thước khối, được mong đợi cho khối lượng công việc ghi liên tục.Ở kích thước khối nhỏ nhất, thông lượng bắt đầu từ 165 MiB / s cho một chuỗi ở 4K và tăng đều đặn khi sự song song tăng lên.
Kích thước khối tầm trung cho thấy lợi nhuận mạnh hơn khi số lượng thread tăng. Ở 32K, thông lượng bắt đầu ở mức dưới 1 GiB / s và tăng lên hơn 21 GiB / s ở mức thread cao hơn.Các phạm vi 64K và 128K tiếp tục xu hướng, di chuyển từ GiB/s thấp một chữ số đến giữa 30 GiB/s và 50 GiB/s khi khối lượng công việc trở nên song song hơn.
Chuyển lớn hơn là khi hệ thống định cư trong trần thông lượng ghi tự nhiên của nó. Ở 1 MiB, hiệu suất leo lên từ 13,3GiB / s ở một chuỗi duy nhất xuống dưới 90GiB / s ở số lượng chuỗi cao.Các bài kiểm tra 5 MiB và 10 MiB theo mô hình tương tự, với kết quả đạt đỉnh khoảng 90 GiB/s bất kể hệ thống đang chạy ở tốc độ 64, 128 hoặc 256.
Định nghĩa lại hiệu suất trong thời đại Gen5
Sandy Yang - Giám đốc chiến lược toàn cầu
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Trang web: www.qianxingdata.com/www.storagesserver.com
Tập trung kinh doanh:
Phân phối sản phẩm ICT / tích hợp hệ thống & dịch vụ / giải pháp cơ sở hạ tầng
Với hơn 20 năm kinh nghiệm phân phối CNTT, chúng tôi hợp tác với các thương hiệu hàng đầu toàn cầu để cung cấp các sản phẩm đáng tin cậy và dịch vụ chuyên nghiệp.
Sử dụng công nghệ để xây dựng một thế giới thông minh Nhà cung cấp dịch vụ sản phẩm ICT đáng tin cậy của bạn!
Người liên hệ: Ms. Sandy Yang
Tel: 13426366826



