Bài học chính
- Thông lượng chưa từng có trong một nút đơn:R7725xd duy trì băng thông nội bộ trên 300 GB/giây và 160 GB/giây qua NVMe-oF RDMA, sánh ngang với các cụm lưu trữ nhiều nút bên trong khung máy 2U.
- Kiến trúc Gen5 đích thực, không có công tắc, không có quạt ra:Tất cả các ổ SSD 24 Micron 9550 PRO đều nhận được các làn x4 PCIe Gen5 chuyên dụng trực tiếp từ tổ hợp CPU, cho phép mở rộng tốc độ dòng mà không bị tranh chấp.
- Được cung cấp bởi dòng AMD EPYC 9005:Bộ xử lý AMD EPYC 9575F kép cung cấp số làn, băng thông bộ nhớ và cấu trúc liên kết NUMA cần thiết để duy trì I/O đồng thời cao.
- Được thiết kế cho khối lượng công việc nặng về AI, Phân tích và Điểm kiểm tra:Hệ thống loại bỏ các tắc nghẽn I/O làm cản trở các đường dẫn GPU hiện đại, cho phép phân phối dữ liệu băng thông cao, liên tục.
- PEAK:AIO mở khóa tính song song hoàn toàn:PEAK: Ngăn xếp phần mềm của AIO giữ cho cấu trúc hàng đợi bão hòa khi tải, mang lại hiệu suất cho doanh nghiệp ở tỷ lệ đô la trên mỗi GB hấp dẫn.
Phần lưu trữ của iDRAC 10 trình bày tổng quan đầy đủ về tất cả các đĩa vật lý được cài đặt trong R7725xd. Bảng tóm tắt hiển thị số lượng cấp cao của tất cả các ổ đĩa được kết nối, kèm theo biểu đồ hình tròn trực quan minh họa trạng thái ổ đĩa. Trong cấu hình này, 24 ổ SSD NVMe đang hoạt động và báo cáo ở trạng thái sẵn sàng, cùng với hai thiết bị khởi động bổ sung có trong hệ thống, tách biệt khỏi dãy NVMe chính phía trước.
Ở bên phải, bảng Tóm tắt Đĩa chia chúng thành các đĩa vật lý và mọi đĩa ảo liên quan. Do R7725xd sử dụng kiến trúc NVMe trực tiếp mà không có bộ điều khiển RAID truyền thống nên tất cả các ổ đĩa đều được báo cáo là Không phải RAID và có thể định địa chỉ riêng lẻ, phù hợp với thiết kế của hệ thống dành cho các nhóm NVMe lớn và nền tảng SDS.
Bên dưới phần tóm tắt trạng thái, khu vực Sự kiện lưu trữ được ghi gần đây liệt kê nhật ký chèn cho từng ổ SSD PCIe, được sắp xếp theo khoang và khe cắm. Bản ghi này xác nhận khả năng phát hiện chính xác trên tất cả các khoang ổ đĩa và giúp xác định mọi vấn đề về chỗ ngồi, hệ thống cáp hoặc hoạt động trao đổi nóng. Đối với các hoạt động triển khai quy mô lớn, những nhật ký này rất hữu ích khi theo dõi việc cung cấp ổ đĩa hoặc xác minh rằng dung lượng đã được cung cấp như mong đợi.
Ảnh chụp màn hình cuối cùng hiển thị chế độ xem chi tiết của thiết bị NVMe trong iDRAC10. Mỗi ổ NVMe được cài đặt trong hệ thống đều được liệt kê trạng thái, dung lượng và vị trí ổ đĩa. Việc chọn một ổ đĩa riêng lẻ sẽ mở ra bản phân tích đầy đủ về các đặc điểm của nó.
Trong ví dụ này, bảng thông tin ổ đĩa hiển thị chuỗi model đầy đủ, giao thức thiết bị, hệ số dạng và cài đặt PCIe đã thương lượng. Các thiết bị NVMe đang chạy ở tốc độ liên kết 32 GT/s với kết nối x4 đã thương lượng, xác nhận rằng các ổ đĩa đang hoạt động ở toàn bộ băng thông trên bảng nối đa năng PCIe Gen5 của hệ thống. Phần thông tin cũng báo cáo tỷ lệ phần trăm độ bền, trạng thái dự phòng sẵn có và loại giao thức, giúp quản trị viên theo dõi tình trạng ổ đĩa và kỳ vọng về vòng đời.
Báo cáo ổ đĩa chi tiết này rất có giá trị trong các cấu hình NVMe mật độ cao trong đó độ rộng liên kết, tốc độ thương lượng và tình trạng phương tiện ảnh hưởng trực tiếp đến hành vi khối lượng công việc và hiệu suất lưu trữ.
Nhìn chung, giao diện iDRAC 10 cung cấp cái nhìn rõ ràng, tập trung vào phần cứng về kiến trúc lưu trữ NVMe của R7725xd, cho phép xác thực dễ dàng tình trạng liên kết, trạng thái ổ đĩa và tính toàn vẹn của hệ thống trong nháy mắt.
Hiệu suất Dell PowerEdge R7725xd
Trước khi thử nghiệm, hệ thống của chúng tôi đã được định cấu hình với tải trọng cân bằng nhưng hiệu suất cao. Hệ thống này được trang bị hai bộ xử lý AMD EPYC 9575F, mỗi bộ xử lý có 64 lõi tần số cao và kết hợp với 24 DIMM DDR5 32GB hoạt động ở tốc độ 6400 MT/s. Để lưu trữ, khung máy được trang bị đầy đủ 24 ổ SSD Micron 9550 PRO U.2 NVMe 15,36TB, mỗi ổ được kết nối thông qua liên kết PCIe Gen5 x4 chuyên dụng. Điều này cung cấp tổng dung lượng thô là 368,64 TB và ổ Micron 9550 PRO cung cấp tốc độ đọc tuần tự lên tới 14.000 MB/s và tốc độ ghi tuần tự lên tới 10.000 MB/s. Mạng được xử lý bởi bốn bộ điều hợp Broadcom BCM57608 cung cấp tổng cộng tám cổng 200Gb, cùng với một NIC BCM57412 OCP cung cấp thêm hai cổng 10 gigabit.
Thông số kỹ thuật hệ thống thử nghiệm
- CPU:2x Bộ xử lý tần số cao 64 nhân AMD EPYC 9575F
- Ký ức:24x 32GB DDR5 @ 6400MT/s
- Kho:24x 15,36TB Micron 9550 PRO U.2 (được kết nối ở 4 làn PCIe Gen5 mỗi ổ); hỗ trợ ổ đĩa lên tới 128TB ngày nay với dung lượng cao hơn trong tương lai
- Mạng:4x Broadcom BCM57608 2x200G NIC, 1x BCM57412 2x10Gb OCP NIC
- Công tắc:Dell PowerSwitch Z9664
Điểm chuẩn hiệu suất FIO
Để đo hiệu suất lưu trữ của PowerEdge R7725xd, chúng tôi đã sử dụng các số liệu tiêu chuẩn ngành và công cụ FIO. Trong phần này, chúng tôi tập trung vào các điểm chuẩn FIO sau:
- Ngẫu nhiên 4K – 1M
- Tuần tự 4K – 1M
FIO – Cục bộ – Băng thông
Khi kiểm tra quyền truy cập cục bộ vào 24 ổ PCIe Gen5 NVMe bên trong Dell PowerEdge R7725xd, hệ thống hiển thị chính xác những gì bạn mong đợi từ một nền tảng nơi mọi ổ đĩa được kết nối với CPU bằng liên kết PCIe Gen5 làn x4 đầy đủ. Không có lớp mạng nào liên quan, đây là thông lượng nội bộ thuần túy của bố cục lưu trữ Gen5 của Dell và băng thông PCIe của nền tảng AMD EPYC hoạt động không hạn chế.
Quá trình đọc tuần tự bắt đầu ở tốc độ 184 GB/giây với các khối 4K và mở rộng quy mô nhanh chóng khi kích thước khối tăng lên. Từ 512K đến 1M, máy chủ duy trì tốc độ ổn định từ 312 đến 314 GB/s, đây là dấu hiệu rõ ràng cho thấy hệ thống có thể tổng hợp tất cả các làn 24 × 4 Gen5 thành băng thông đọc ổn định mà không gặp bất kỳ tắc nghẽn ở giai đoạn điều khiển nào.
Ghi tuần tự theo một đường cong khác nhưng vẫn giữ vững trong phạm vi dự kiến. Bắt đầu từ 149 GB/s, kết quả tăng dần đến giữa những năm 100 và đạt 182 GB/s ở mức 1 triệu. Điều này phù hợp với hoạt động ghi của ổ SSD Micron 9550 PRO và chi phí vốn có của việc ghi NVMe song song cao trên rất nhiều thiết bị độc lập.
Hiệu suất đọc ngẫu nhiên là một điểm nổi bật khác. Hệ thống đạt tốc độ gần 300 GB/s ở các kích thước khối nhỏ nhất, giảm nhẹ ở mức trung bình và sau đó phục hồi về mức 200 trên và 300 thấp ở các kích thước khối lớn hơn. Ở tốc độ 1M, tốc độ đọc ngẫu nhiên đạt tối đa 318 GB/giây, thể hiện khả năng của nền tảng trong việc phân phối đồng đều các hoạt động hỗn hợp trên tất cả 24 ổ đĩa.
Tốc độ ghi ngẫu nhiên có tốc độ thấp hơn, đặc trưng cho các tác vụ siêu dữ liệu phân tán và phân bổ ghi trên một tập hợp NVMe rộng. Kết quả vẫn nằm trong khoảng 140 đến 160 GB/s trong hầu hết các thử nghiệm và giảm dần xuống chỉ dưới 100 GB/s ở tốc độ 1 M.
FIO – Địa phương – IOPS
Khi kiểm tra phía IOPS, R7725xd thể hiện hiệu suất khối nhỏ mạnh mẽ, với tốc độ yêu cầu đạt tới hàng chục triệu trước khi kích thước khối lớn hơn chuyển khối lượng công việc sang cấu hình dựa trên băng thông.
Ở 4K, số lượt đọc đạt 44,9 triệu IOPS và số lượt ghi là 36,3 triệu. Đọc ngẫu nhiên thậm chí còn đạt đến mức cao hơn ở mức 71,4 triệu IOPS, thể hiện khả năng của hệ thống trong việc phân phối hiệu quả khối lượng công việc có hàng đợi cao trên tất cả các ổ đĩa. Các giá trị này giảm dần một cách tự nhiên khi kích thước khối tăng lên, nhưng mức tăng dần vẫn nhất quán trong các phạm vi 8K, 16K và 32K.
Theo khối 16K và 32K, số lượt đọc đạt 17,4 triệu và 8,35 triệu IOPS, với số lần đọc ngẫu nhiên khớp chặt chẽ ở mức 16,5 triệu và 8,15 triệu. Việc ghi tuân theo mẫu dự kiến, theo dõi mức thấp hơn nhưng vẫn ổn định trên cả mẫu truy cập tuần tự và ngẫu nhiên.
Khi chúng tôi chuyển sang 64K trở lên, thử nghiệm sẽ chuyển từ IOPS thuần túy sang kịch bản có giới hạn băng thông hơn. IOPS rơi vào phạm vi hàng triệu thấp và cuối cùng lên tới hàng trăm nghìn. Ở kích thước khối 1M, đọc vùng đất IOPS khoảng 300K, ghi ở khoảng 174K và các hoạt động ngẫu nhiên kết thúc trong cùng một vùng lân cận.
Nhìn chung, kết quả IOPS cục bộ cho thấy rõ ràng khả năng của hệ thống trong việc duy trì khối lượng công việc có độ sâu hàng đợi rất cao trên các khối nhỏ, với khả năng mở rộng có thể dự đoán được khi lượng truyền tải tăng lên và băng thông trở thành yếu tố chi phối.
PEAK:AIO: Tại sao Dell PowerEdge R7725xd phù hợp với khối lượng công việc này
PEAK:AIO được thiết kế cho các môi trường yêu cầu quyền truy cập cực nhanh, độ trễ thấp vào các tập dữ liệu lớn, thường dành cho đào tạo AI, quy trình suy luận, lập mô hình tài chính và phân tích thời gian thực. Nền tảng này phát triển mạnh nhờ bộ lưu trữ NVMe dày đặc, băng thông PCIe cân bằng và độ trễ có thể dự đoán được trên quy mô lớn. Để đáp ứng các yêu cầu này, phần cứng cơ bản phải cung cấp thông lượng ổn định trong khi vẫn duy trì hiệu suất ổn định và có thể lặp lại dưới tải nặng đồng thời.
Đây là lúc Dell PowerEdge R7725xd phù hợp một cách tự nhiên với PEAK:AIO. Kiến trúc của hệ thống được thiết kế để tối đa hóa tài nguyên PCIe Gen5, cung cấp toàn bộ băng thông của 24 khay U.2 NVMe gắn phía trước trực tiếp cho CPU mà không cần dựa vào bộ điều khiển RAID truyền thống. Bố cục này mang lại cho PEAK:AIO cấu hình song song và độ trễ mà nó mong đợi từ các đường dẫn dữ liệu dựa trên NVMe hiện đại. Cấu hình hệ thống chia ổ SSD NVMe thành hai nhóm RAID0.
Trong kịch bản thử nghiệm, chúng tôi đã sử dụng hai hệ thống máy khách được kết nối với R7725xd, mỗi hệ thống được trang bị NIC Broadcom BCM57608 2x 200G. Điều đó tạo ra tổng cộng bốn đường lên 200G cấp dữ liệu cho mỗi máy khách, đẩy R7725xd vào một cấu hình hiệu suất cao thực tế phản ánh những gì triển khai PEAK:AIO thấy trong sản xuất. Mức băng thông mạng này đã giúp chúng tôi có đủ không gian để tận dụng tối đa hệ thống con NVMe, cấu trúc liên kết PCIe và các kết nối CPU mà không bị tắc nghẽn ở lớp NIC.
Kết quả là một nền tảng phù hợp hiệu quả với khối lượng công việc PEAK:AIO. R7725xd cung cấp dung lượng NVMe dày đặc, thông lượng PCIe Gen5, bộ xử lý AMD EPYC 9005 kép để xử lý song song và khả năng kết nối mạng để duy trì quá trình nhập dữ liệu của nhiều khách hàng ở tốc độ hàng trăm gigabit trên mỗi khách hàng. Tất cả những đặc điểm này là nền tảng để đạt được kỳ vọng về hiệu suất của PEAK:AIO.
ĐỈNH:AIO – NVMe-oF RDMA – Băng thông
Kiểm tra kết quả băng thông NVMe-oF RDMA trên PowerEdge R7725xd với PEAK:AIO, xu hướng chung chính xác là những gì chúng tôi mong đợi từ một hệ thống có nhiều băng thông mạng và PCIe như thế này. Khi kích thước khối tăng lên, thông lượng tăng lên nhanh chóng cho đến khi nó chững lại gần giới hạn thực tế của nền tảng.
Ở kích thước khối nhỏ, hiệu suất bắt đầu ở khoảng giữa 20GB/giây cho cả đọc và ghi, điều này là bình thường vì quá trình truyền 4K và 8K đẩy đường dẫn IOPS khó hơn nhiều so với đường dẫn thông lượng. Khi chúng tôi đi vào khối 16K và 32K, đường dẫn sẽ mở ra. Tốc độ đọc tăng lên khoảng 154 GB/s ở tốc độ 32K và tiếp tục tăng lên phạm vi 160 GB/s, đúng mức mà chúng tôi mong đợi một thiết lập máy khách kép trên bốn liên kết 200 Gb/s sẽ đến đích.
Hiệu suất đọc ngẫu nhiên phản chiếu tuần tự gần như hoàn hảo. PEAK:AIO thực hiện rất tốt việc cung cấp các hàng đợi lệnh, do đó, băng thông đọc ngẫu nhiên về cơ bản sẽ theo dõi băng thông đọc tuần tự cho đến hết mức, đạt tốc độ khoảng 159 đến 161 GB/giây từ 32K đến 1M. Điều này cho thấy ngăn xếp lưu trữ không bị tắc nghẽn theo các kiểu truy cập hỗn hợp và cấu trúc liên kết PCIe của R7725xd đang phân phối tải đồng đều trên 24 ổ Gen5 NVMe.
Hiệu suất ghi tuân theo một đường cong tương tự, mặc dù nó có đỉnh thấp hơn một chút so với hiệu suất đọc. Tốc độ ghi tuần tự duy trì trong phạm vi 140 đến 148 GB/s thông qua các khối có kích thước trung bình, giảm xuống khoảng 117 GB/s ở 128K nhưng sẽ phục hồi khi kích thước khối tăng lên. Ghi ngẫu nhiên hoạt động khác và đạt tốc độ gần 110-117 GB/s, điều này là bình thường đối với khối lượng công việc hàng đợi hỗn hợp có thêm chi phí bổ sung.
Điểm đáng chú ý trong phần này là R7725xd không gặp khó khăn gì khi duy trì băng thông cực cao qua NVMe-oF, ngay cả khi có nhiều khách hàng đẩy hệ thống đến giới hạn của nó. Khi kích thước khối đạt 32K trở lên, máy chủ sẽ luôn bão hòa băng thông lưu trữ và mạng sẵn có. Đây chính xác là loại hiệu suất mà PEAK:AIO được thiết kế để trích xuất, khiến những kết quả này trở thành sự xác thực mạnh mẽ về khả năng mở rộng quy mô của nền tảng trong các điều kiện thực tế.
AIO ĐỈNH – NVMe-oF RDMA IOPS
Về phía IOPS, PowerEdge R7725xd thể hiện hiệu suất khối nhỏ mạnh mẽ, mặc dù ban đầu chúng tôi quan sát thấy những con số thấp hơn mong đợi; vấn đề này dự kiến sẽ được giải quyết với sự hỗ trợ trình điều khiển mạng được cải thiện trong tương lai. Ngay cả khi sử dụng điều đó, xu hướng mở rộng quy mô tổng thể vẫn xuất hiện chính xác như NVMe-oF RDMA thường hoạt động khi kích thước khối tăng lên.
Ở kích thước khối nhỏ nhất, hệ thống có thể phân phối hơn 6 triệu IOPS trên cả khối lượng công việc tuần tự và ngẫu nhiên. Tất cả đọc, ghi, đọc ngẫu nhiên và ghi ngẫu nhiên đều nằm trong cùng một phạm vi ở 4K và 8K, cho thấy rằng các máy khách ngoại vi, cơ sở hạ tầng PCIe và bản thân ổ NVMe không gặp khó khăn gì trong việc theo kịp tốc độ yêu cầu.
Khi kích thước khối tăng lên, IOPS dự kiến sẽ bắt đầu giảm. Ở mức 32K, đọc đất khoảng 4,7 triệu IOPS, trong khi ghi chậm hơn một chút với khoảng 4,4 triệu. Việc ghi ngẫu nhiên gây ảnh hưởng lớn nhất ở đây, giảm xuống khoảng 3,3 triệu IOPS, phù hợp với hàng đợi bổ sung và chi phí CPU do các mẫu truy cập hỗn hợp đưa ra.
Di chuyển vào các khối lớn, IOPS tiếp tục giảm dần theo kiểu tuyến tính có thể dự đoán được. Vào thời điểm chúng tôi đạt được mức truyền 256K và 512K, thông lượng trở thành số liệu thống trị và IOPS tự nhiên giảm xuống khoảng giữa hàng trăm nghìn. Ở kích thước khối 1M, tất cả khối lượng công việc đều hội tụ về 140K-153K IOPS, phù hợp với số lượng băng thông mà chúng ta đã thấy trong phần trước.
GPUHiệu suất lưu trữ trực tiếp
Một trong những thử nghiệm chúng tôi thực hiện trên R7725xd là thử nghiệm Magnum IO GPUDirect Storage (GDS). GDS là một tính năng được NVIDIA phát triển, cho phép GPU bỏ qua CPU khi truy cập dữ liệu được lưu trữ trên ổ NVMe hoặc các thiết bị lưu trữ tốc độ cao khác. Thay vì định tuyến dữ liệu qua CPU và bộ nhớ hệ thống, GDS cho phép giao tiếp trực tiếp giữa GPU và thiết bị lưu trữ, giảm đáng kể độ trễ và cải thiện thông lượng dữ liệu.
Cách thức hoạt động của bộ lưu trữ GPUDirect
Theo truyền thống, khi GPU xử lý dữ liệu được lưu trữ trên ổ NVMe, trước tiên dữ liệu phải di chuyển qua CPU và bộ nhớ hệ thống trước khi đến GPU. Quá trình này tạo ra các nút thắt cổ chai, khi CPU trở thành người trung gian, tăng thêm độ trễ và tiêu tốn tài nguyên hệ thống có giá trị. GPUDirect Storage loại bỏ sự kém hiệu quả này bằng cách cho phép GPU truy cập dữ liệu trực tiếp từ thiết bị lưu trữ thông qua bus PCIe. Đường dẫn trực tiếp này giúp giảm chi phí di chuyển dữ liệu, cho phép truyền dữ liệu nhanh hơn và hiệu quả hơn.
Khối lượng công việc AI, đặc biệt là những khối lượng công việc liên quan đến deep learning, đòi hỏi nhiều dữ liệu. Việc đào tạo các mạng thần kinh lớn đòi hỏi phải xử lý hàng terabyte dữ liệu và bất kỳ sự chậm trễ nào trong việc truyền dữ liệu đều có thể dẫn đến việc GPU không được sử dụng đúng mức và thời gian đào tạo dài hơn. GPUDirect Storage giải quyết thách thức này bằng cách đảm bảo dữ liệu được phân phối tới GPU nhanh nhất có thể, giảm thiểu thời gian nhàn rỗi và tối đa hóa hiệu quả tính toán.
Ngoài ra, GDS đặc biệt có lợi cho khối lượng công việc liên quan đến việc truyền trực tuyến các bộ dữ liệu lớn, chẳng hạn như xử lý video, xử lý ngôn ngữ tự nhiên hoặc suy luận theo thời gian thực. Bằng cách giảm sự phụ thuộc vào CPU, GDS tăng tốc chuyển động dữ liệu và giải phóng tài nguyên CPU cho các tác vụ khác, nâng cao hơn nữa hiệu suất tổng thể của hệ thống.
Ngoài băng thông thô, GPUDirect với NVMe-oF (TCP/RDMA) còn cung cấp I/O có độ trễ cực thấp. Điều này đảm bảo GPU không bao giờ thiếu dữ liệu, khiến hệ thống trở nên lý tưởng cho hoạt động suy luận AI theo thời gian thực, quy trình phân tích và phát lại video.
GDSIO Đọc tuần tự
Khi kiểm tra PEAK:AIO với một khách hàng sử dụng GDSIO, thông lượng đọc thể hiện mô hình chia tỷ lệ rõ ràng khi cả kích thước khối và số lượng luồng đều tăng. Máy khách này được kết nối thông qua hai liên kết 400G, giới hạn tổng tiềm năng của nó ở mức 90 GB/s.
Ở kích thước khối nhỏ nhất và số lượng luồng thấp, hiệu suất rất khiêm tốn, với tốc độ đọc 4K bắt đầu khoảng 189 MiB/s tại một luồng. Ngay khi chúng tôi tăng tính song song của luồng, hệ thống sẽ phản hồi ngay lập tức, đẩy 691MiB/s ở bốn luồng và chuyển sang phạm vi nhiều GiB/s khi chúng tôi bước vào các khối lớn hơn.
Kích thước khối tầm trung cho thấy độ nhạy mạnh nhất đối với số lượng luồng. Ở 32K, thông lượng tăng từ 1,3 GiB/s ở một luồng đơn lên gần 20 GiB/s với 64 luồng, chỉ giảm nhẹ hơn mức đó một chút. Mô hình tương tự xuất hiện ở 64K và 128K, trong đó hệ thống chuyển từ GiB/s có một chữ số thấp ở độ song song thấp sang trên 30 GiB/s khi khối lượng công việc tăng dần.
Khi chúng tôi đạt đến kích thước khối lớn hơn, thông lượng bắt đầu chững lại khi hệ thống đạt đến mức trần hiệu suất cho một khách hàng. Ở 1 MiB, hiệu suất tăng từ 11GiB/s ở một luồng lên khoảng 88GiB/s ở số lượng luồng cao. Lần chuyển 5 MiB và 10 MiB cho thấy cùng một mức ổn định, đạt tốc độ cao nhất khoảng 89–90GiB/s bất kể thử nghiệm đang chạy ở 64, 128 hay 256 luồng.
GDSIO Viết tuần tự
Về phía ghi, hành vi chia tỷ lệ tuân theo mô hình tương tự như đọc, nhưng có hiệu suất thấp hơn một chút trên hầu hết các kích thước khối, điều này được mong đợi đối với khối lượng công việc ghi tuần tự. Ở kích thước khối nhỏ nhất, thông lượng bắt đầu ở mức 165 MiB/s cho một luồng ở 4K và tăng đều khi độ song song tăng. Ở bốn luồng, tốc độ này tăng lên chỉ hơn 619MiB/s trước khi vượt qua 1GiB/s ở tám luồng.
Kích thước khối tầm trung cho thấy mức tăng mạnh hơn khi số lượng luồng tăng lên. Ở 32K, thông lượng bắt đầu ở mức chỉ dưới 1 GiB/s và tăng lên hơn 21 GiB/s ở các cấp luồng cao hơn. Phạm vi 64K và 128K tiếp tục xu hướng, chuyển từ GiB/s có một chữ số thấp sang giữa 30 GiB/s và 50 GiB/s khi khối lượng công việc trở nên song song hơn.
Số lần chuyển lớn hơn là khi hệ thống ổn định ở mức trần thông lượng ghi tự nhiên. Ở 1 MiB, hiệu suất tăng từ 13,3GiB/s ở một luồng đơn lên dưới 90GiB/s ở số lượng luồng cao. Các thử nghiệm 5 MiB và 10 MiB tuân theo một mẫu tương tự, với kết quả đạt đỉnh khoảng 90 GiB/s bất kể hệ thống đang chạy ở 64, 128 hay 256 luồng.
Xác định lại hiệu suất trong kỷ nguyên Gen5
Người liên hệ: Ms. Sandy Yang
Tel: 13426366826



