Hai đặc điểm xác định nổi bật cho NVIDIA DGX Spark: 128GB bộ nhớ thống nhất trong một đơn vị máy tính để bàn $ 4.000, và một mạng lưới cấp trung tâm dữ liệu 200Gb tích hợp.Các vải tốc độ cao khác biệt nó từ các trạm làm việc thông thường, cho phép nhóm đa nút một lần độc quyền cho các máy chủ được gắn trên giá đỡ.và các biến thể HP Spark trong các cụm 200GbE hai nút trên các mô hình và khối lượng công việc khác nhauNó cũng phân tích song song đường ống (PP), một phương pháp phân chia thay thế vượt trội so với song song tensor mặc định của NVIDIA (TP).
200Gb Network Fabric
Mỗi Spark được trang bị hai lồng QSFP56 được ghép nối với một ConnectX-7 SmartNIC tích hợp.với một cổng đủ cho băng thông đầy đủ; cổng thứ hai cung cấp tính linh hoạt về topology. Ba cấu hình phổ biến có sẵn: liên kết Spark-to-Spark 200Gb trực tiếp, topology vòng không chuyển qua cổng kép 100Gb,và nhóm lai với truy cập lưu trữ tốc độ cao NVMe-oF. NVIDIA bán máy tính để bàn đơn đơn vị, xác nhận hai nút cụm, và mới phát hành bốn nút thiết lập.Các cấu hình hai Spark là thực tế nhất cho sản xuất-style suy luận và trọng tâm của bài kiểm tra này.
Lý do cho sự tập hợp Spark
Lợi ích chính là mở rộng dung lượng mô hình: hai Sparks được liên kết có thể chạy các mô hình thông số 120B vượt quá giới hạn bộ nhớ đơn vị.Nền tảng phục vụ như một công cụ giáo dục giá cả phải chăngNVIDIA thiết kế Spark cho người mới bắt đầu học quy trình làm việc AI, với các hướng dẫn chính thức bao gồm triển khai mô hình, điều chỉnh chi tiết và phát triển PyTorch / JAX.Cluster hai nút tiếp tục dạy sự song song đa nút và phân tích nút chai mạng mà không cần phần cứng trung tâm dữ liệu tốn kémĐáng chú ý, Spark không được tối ưu hóa cho suy luận sản xuất. Được hạn chế bởi băng thông bộ nhớ và độ trễ giữa các nút, liên kết 200GbE của nó chậm hơn so với các kết nối PCIe nội bộ.Các cụm lớn hơn bị suy giảm hiệu suất nghiêm trọng, với thông lượng token thấp, giới hạn chúng cho việc sử dụng giáo dục hơn là phục vụ thương mại.
Kiểm tra hiệu suất: PP vs TP
Chọn chiến lược song song
NVIDIA mặc định là TP, chia từng lớp biến áp qua hai GPU với trao đổi dữ liệu thường xuyên.chuyển kích hoạt chỉ một lần giữa các nútĐối với các mô hình lớn với kích thước lô lớn, PP vượt trội hơn TP; TP chỉ xuất sắc trong các kịch bản chat chậm đơn.
Các thử nghiệm trên GPT-OSS-120B xác nhận khoảng cách này. Ở kích thước lô 128, PP đạt 554,69 tok / s (2,20 lần nhanh hơn TP) trong khối lượng công việc cân bằng, 310,63 tok / s so với 164,99 tok / s trong các nhiệm vụ chở trước.Chỉ dẫn TP ở số lượng lô 1Đối với các mô hình nhỏ như Llama-3.1-8B, TP thống trị hầu hết các kích thước lô do tính toán lớp nhẹ, với PP vượt qua TP chỉ ở sự đồng thời cao.
Kết quả so sánh đa mô hình (PP=2)
Dòng GPT-OSS
Đối với GPT-OSS-120B, HP đã vượt qua tốc độ thông lượng cao nhất trong khối lượng công việc cân bằng (504.88 tok/s) và chập trước (441.63 tok/s); GIGABYTE dẫn đầu các thử nghiệm giải mã nặng (494.37 tok/s).Dell thống trị cân bằng (976.77 tok/s) và kịch bản prefill-heavy (852.39 tok/s), trong khi GIGABYTE dẫn đầu các nhiệm vụ giải mã (945.55 tok/s).
Llama 3.1 8B biến thể
Trong độ chính xác BF16, Dell dẫn đầu cân bằng (689.53 tok / s) và giải mã nặng (581.43 tok / s) khối lượng công việc; GIGABYTE đã giành chiến thắng trong các thử nghiệm nặng trước khi điền (539.27 tok / s).GIGABYTE dẫn cân bằng (1458Đối với FP8, Dell duy trì dẫn đường hẹp trong các kịch bản cân bằng (1105.42 tok / s) và giải mã (862.33 tok / s).
Mô hình Mistral & Qwen
Mistral Small 3.1 24B có khoảng trống tối thiểu: GIGABYTE đạt đỉnh 255.09 tok / s trong khối lượng công việc cân bằng. Đối với Qwen3 Coder 30B (A3B Base), GIGABYTE dẫn đầu các nhiệm vụ trước khi lấp đầy (1862.40 tok / s);Dell xuất sắc trong các kịch bản giải mãTrong số lượng hóa FB8, GIGABYTE đứng đầu thông lượng tiền lấp nặng (3088.62 tok / s), trong khi Dell dẫn đầu các nhiệm vụ giải mã (705.77 tok / s).
Tóm tắt sản lượng đỉnh của hệ thống lửa kép
|
Mô hình
|
Kịch bản (BS ¢ 64)
|
Dell Peak Output
|
GIGABYTE Output đỉnh
|
Điểm xuất đỉnh HP
|
|---|---|---|---|---|
|
GPT-OSS-120B
|
ISL/OSL bằng nhau
|
463.97 tok/s
|
497.26 tok/s
|
504.88 tok/s
|
|
GPT-OSS-120B
|
Prefill nặng
|
419.56 tok/s
|
417.34 tok/s
|
441.63 tok/s
|
|
GPT-OSS-120B
|
Mã hóa nặng
|
451.18 tok/s
|
494.37 tok/s
|
474.85 tok/s
|
|
GPT-OSS-20B
|
ISL/OSL bằng nhau
|
976.77 tok/s
|
952.31 tok/s
|
915.72 tok/s
|
|
GPT-OSS-20B
|
Prefill nặng
|
852.39 tok/s
|
802.37 tok/s
|
757.05 tok/s
|
|
GPT-OSS-20B
|
Mã hóa nặng
|
938.65 tok/s
|
945.55 tok/s
|
865.78 tok/s
|
|
Llama-3.1-8B-Instruct
|
ISL/OSL bằng nhau
|
689.53 tok/s
|
687.48 tok/s
|
618.87 tok/s
|
|
Llama-3.1-8B-Instruct
|
Prefill nặng
|
515.45 tok/s
|
539.27 tok/s
|
463.39 tok/s
|
|
Llama-3.1-8B-Instruct
|
Mã hóa nặng
|
581.43 tok/s
|
576.91 tok/s
|
531.07 tok/s
|
|
Llama-3.1-8B-FP4
|
ISL/OSL bằng nhau
|
1427.39 tok/s
|
1458.86 tok/s
|
1413.51 tok/s
|
|
Llama-3.1-8B-FP4
|
Prefill nặng
|
884.22 tok/s
|
954.23 tok/s
|
843.57 tok/s
|
|
Llama-3.1-8B-FP4
|
Mã hóa nặng
|
1008.98 tok/s
|
1007.23 tok/s
|
943.73 tok/s
|
|
Llama-3.1-8B-FP8
|
ISL/OSL bằng nhau
|
1105.42 tok/s
|
1089.85 tok/s
|
1076.68 tok/s
|
|
Llama-3.1-8B-FP8
|
Prefill nặng
|
759.50 tok/s
|
827.40 tok/s
|
725.51 tok/s
|
|
Llama-3.1-8B-FP8
|
Mã hóa nặng
|
862.33 tok/s
|
855.81 tok/s
|
800.78 tok/s
|
|
Mistral-Small-3.1-24B
|
ISL/OSL bằng nhau
|
249.77 tok/s
|
255.09 tok/s
|
239.09 tok/s
|
|
Mistral-Small-3.1-24B
|
Prefill nặng
|
216.01 tok/s
|
214.38 tok/s
|
197.92 tok/s
|
|
Mistral-Small-3.1-24B
|
Mã hóa nặng
|
238.44 tok/s
|
237.97 tok/s
|
221.41 tok/s
|
Kết luận
Các đơn vị Dell, GIGABYTE và HP Spark cung cấp các lỗ hổng hiệu suất không đáng kể, với những dẫn đầu nhỏ cụ thể cho lô.và hỗ trợ sau bán hàng so với sự khác biệt so sánh tầm thườngChiến lược song song có tác động lớn hơn nhiều so với các biến thể OEM: PP vượt trội hơn TP đối với suy luận theo lô, trong khi TP phù hợp với tương tác luồng duy nhất chậm.Đề xuất TP của NVIDIA phù hợp với vị trí của Spark như một thiết bị học tập tương tác hơn là cơ sở hạ tầng sản xuất. Một nhóm Spark hai nút phục vụ như một nền tảng giảng dạy giá cả phải chăng cho AI phân tán. Các thử nghiệm trong tương lai sẽ bao gồm các nhóm lớn hơn và đào tạo mô hình nhỏ từ đầu đến cuối,chờ triển khai chuyển mạch 800Gb trong phòng thí nghiệm.
Công ty công nghệ Bắc Kinh Qianxing Jietong Co., Ltd.
Sandy Yang - Giám đốc chiến lược toàn cầu
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Trang web: www.qianxingdata.com/www.storagesserver.com
Tập trung kinh doanh:
Phân phối sản phẩm ICT / tích hợp hệ thống & dịch vụ / giải pháp cơ sở hạ tầng
Với hơn 20 năm kinh nghiệm phân phối CNTT, chúng tôi hợp tác với các thương hiệu hàng đầu toàn cầu để cung cấp các sản phẩm đáng tin cậy và dịch vụ chuyên nghiệp.
Sử dụng công nghệ để xây dựng một thế giới thông minh Nhà cung cấp dịch vụ sản phẩm ICT đáng tin cậy của bạn!
Sandy Yang - Giám đốc chiến lược toàn cầu
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Trang web: www.qianxingdata.com/www.storagesserver.com
Tập trung kinh doanh:
Phân phối sản phẩm ICT / tích hợp hệ thống & dịch vụ / giải pháp cơ sở hạ tầng
Với hơn 20 năm kinh nghiệm phân phối CNTT, chúng tôi hợp tác với các thương hiệu hàng đầu toàn cầu để cung cấp các sản phẩm đáng tin cậy và dịch vụ chuyên nghiệp.
Sử dụng công nghệ để xây dựng một thế giới thông minh Nhà cung cấp dịch vụ sản phẩm ICT đáng tin cậy của bạn!



