logo
Nhà Các trường hợp

AMD Instinct MI355X đạt được MLPerf Inference v6.0 với hơn 1 triệu token mỗi giây và hỗ trợ ROC mở rộng

Chứng nhận
Trung Quốc Beijing Qianxing Jietong Technology Co., Ltd. Chứng chỉ
Trung Quốc Beijing Qianxing Jietong Technology Co., Ltd. Chứng chỉ
Khách hàng đánh giá
Các nhân viên kinh doanh của Beijing Qianxing Jietong Technology Co., Ltd rất chuyên nghiệp và kiên nhẫn. Họ có thể cung cấp báo giá một cách nhanh chóng. Chất lượng và bao bì của sản phẩm cũng rất tốt. Sự hợp tác của chúng tôi rất suôn sẻ.

—— 《Festfing DV》 LLC

Khi tôi đang tìm kiếm gấp CPU intel và SSD Toshiba, Sandy từ Beijing Qianxing Jietong Technology Co., Ltd đã giúp đỡ tôi rất nhiều và nhanh chóng nhận được sản phẩm tôi cần. Tôi thực sự đánh giá cao cô ấy.

—— Kitty Yen

Sandy của Beijing Qianxing Jietong Technology Co., Ltd là một nhân viên bán hàng rất cẩn thận, người có thể nhắc nhở tôi về lỗi cấu hình kịp thời khi tôi mua máy chủ. Các kỹ sư cũng rất chuyên nghiệp và có thể nhanh chóng hoàn thành quá trình thử nghiệm.

—— Strelkin Mikhail Vladimirovich

Chúng tôi rất hài lòng với trải nghiệm làm việc với Bắc Kinh Qianxing Jietong. Chất lượng sản phẩm tuyệt vời và giao hàng luôn đúng hẹn. Đội ngũ bán hàng của họ chuyên nghiệp, kiên nhẫn và rất hữu ích với tất cả các câu hỏi của chúng tôi. Chúng tôi thực sự đánh giá cao sự hỗ trợ của họ và mong muốn có một mối quan hệ đối tác lâu dài. Rất khuyến khích!

—— Ahmad Navid

Chất lượng: Kinh nghiệm tuyệt vời với nhà cung cấp của tôi. MikroTik RB3011 đã được sử dụng, nhưng nó ở trong tình trạng rất tốt và mọi thứ hoạt động hoàn hảo.và tất cả những lo ngại của tôi đã được giải quyết nhanh chóng- Nhà cung cấp rất đáng tin cậy.

—— Geran Colesio

Tôi trò chuyện trực tuyến bây giờ

AMD Instinct MI355X đạt được MLPerf Inference v6.0 với hơn 1 triệu token mỗi giây và hỗ trợ ROC mở rộng

April 15, 2026
AMD đã công bố kết quả benchmark MLPerf Inference v6.0, định vị GPU Instinct MI355X như một nền tảng suy luận có khả năng mở rộng cao, có thể hỗ trợ các triển khai đơn nút, đa nút và không đồng nhất. Ngoài những cải thiện hiệu suất gia tăng, bản đệ trình còn giới thiệu các khối lượng công việc mới, thể hiện thông lượng quy mô cụm vượt quá 1 triệu token mỗi giây và xác nhận khả năng tái tạo hiệu suất nhất quán trên hệ sinh thái đối tác ngày càng mở rộng.

Kiến trúc CDNA 4 Nhắm đến Suy luận Dung lượng Cao


Instinct MI355X được xây dựng trên kiến trúc CDNA 4 của AMD, tận dụng thiết kế chiplet quy trình kép của TSMC: các die tính toán (XCD) sử dụng quy trình 3nm, trong khi các die I/O sử dụng công nghệ FinFET 6nm. Gói đa chiplet tích hợp 185 tỷ bóng bán dẫn và hỗ trợ các định dạng dữ liệu FP4 và FP6 — rất quan trọng cho suy luận mô hình lớn hiệu quả. Mỗi GPU được trang bị tới 288GB bộ nhớ HBM3E (cung cấp băng thông bộ nhớ 8 TB/giây), cho phép hỗ trợ các mô hình có tới 520 tỷ tham số trên một thiết bị duy nhất. AMD nhấn mạnh rằng sự kết hợp giữa mật độ tính toán và dung lượng bộ nhớ này loại bỏ nhu cầu phân chia mô hình quá mức, một lợi thế quan trọng đối với các khối lượng công việc suy luận quy mô lớn.

Có sẵn trong cấu hình UBB8, nền tảng này cung cấp cả tùy chọn làm mát bằng không khí và làm mát bằng chất lỏng trực tiếp, phù hợp với các yêu cầu triển khai trung tâm dữ liệu đa dạng. Đáng chú ý, MI355X có TBP (Công suất Thiết kế Nhiệt) 1400W với làm mát bằng chất lỏng, mang lại hiệu suất cao hơn so với đối thủ cạnh tranh làm mát bằng không khí, MI350X.

Thông lượng Đa Nút Vượt Quá 1 Triệu Token Mỗi Giây


Một thành tựu nổi bật từ vòng MLPerf v6.0 là thông lượng quy mô cụm của AMD vượt quá 1 triệu token mỗi giây. Sử dụng GPU Instinct MI355X, AMD đã đạt được cột mốc này với Llama 2 70B trong cả hai kịch bản Máy chủ và Ngoại tuyến, cũng như với GPT-OSS-120B ở chế độ Ngoại tuyến.

trường hợp công ty mới nhất về AMD Instinct MI355X đạt được MLPerf Inference v6.0 với hơn 1 triệu token mỗi giây và hỗ trợ ROC mở rộng  0

Đồ họa AMD MLPerf 1 triệu token mỗi giây

Những kết quả này phản ánh sự dịch chuyển ngày càng tăng của ngành công nghiệp theo hướng đánh giá hiệu suất suy luận ở cấp độ cụm, thay vì trên mỗi bộ gia tốc riêng lẻ. Thông lượng tổng hợp và thời gian phục vụ đã trở thành các chỉ số chính để xác định sự sẵn sàng sản xuất trong các triển khai AI quy mô lớn.

AMD cũng thể hiện hiệu quả mở rộng xuất sắc. Đối với Llama 2 70B, cấu hình 11 nút, 87 GPU đã đạt được hơn 1 triệu token mỗi giây trên các kịch bản Ngoại tuyến, Máy chủ và Tương tác, với hiệu quả mở rộng từ 93% đến 98%. Đối với GPT-OSS-120B, cụm 12 nút, 94 GPU đã mang lại thông lượng tương tự với hiệu quả mở rộng hơn 90% — chứng minh hiệu suất được chuyển đổi hiệu quả khi các triển khai mở rộng ra ngoài một hệ thống duy nhất.

Tăng trưởng Thế hệ và Hiệu suất Đơn Nút Cạnh tranh


AMD báo cáo những cải tiến thế hệ đáng kể, với Instinct MI355X mang lại hiệu suất tốt hơn 3,1 lần trên Llama 2 70B Máy chủ so với thế hệ trước Instinct MI325X, đạt 100.282 token mỗi giây. Sự cải thiện này bắt nguồn từ cả những cải tiến kiến trúc CDNA 4 và tối ưu hóa phần mềm ROCm. Điểm số Ngoại tuyến cải thiện 4,4 lần và điểm số Máy chủ cải thiện 4,8 lần so với các vòng MLPerf trước đó, chủ yếu được thúc đẩy bởi lượng tử hóa FP4 — một tính năng chính của MI355X mở khóa thông lượng cao hơn cho các khối lượng công việc AI.

Đồ họa kết quả suy luận AMD so với thế hệ trước

Trong các so sánh đơn nút với các nền tảng NVIDIA, MI355X thể hiện khả năng cạnh tranh mạnh mẽ. Trên Llama 2 70B, nó ngang bằng với NVIDIA B200 về thông lượng Ngoại tuyến, đạt hiệu suất gần tương đương ở chế độ Máy chủ và vượt trội hơn nó ở chế độ Tương tác. So với NVIDIA B300, MI355X mang lại 92% hiệu suất Ngoại tuyến, 93% hiệu suất Máy chủ và vượt trội hơn 4% ở chế độ Tương tác. Đáng chú ý, MI355X còn mang lại hiệu quả chi phí vượt trội, mang lại nhiều hơn 40% token trên mỗi đô la so với NVIDIA B200.

Khả năng Kích hoạt Mô hình Lần đầu Mở rộng Phạm vi Bao phủ


MLPerf Inference v6.0 đã giới thiệu một số khối lượng công việc mới, và AMD đã sử dụng vòng này để thể hiện khả năng kích hoạt mô hình nhanh chóng. GPT-OSS-120B, một mô hình hỗn hợp chuyên gia, đã ra mắt MLPerf với MI355X, đạt được kết quả cạnh tranh so với các hệ thống NVIDIA trong cả hai kịch bản Ngoại tuyến và Máy chủ.

AMD cũng đã đệ trình kết quả cho Wan-2.2 tạo văn bản thành video, đánh dấu sự tham gia của họ vào suy luận đa phương thức và video tạo sinh. Mặc dù bản đệ trình chính thức tập trung vào độ trễ Luồng đơn, nhưng kết quả tương đương với các nền tảng hiện có. Việc tinh chỉnh sau đệ trình đã cải thiện hiệu suất hơn nữa, làm nổi bật không gian để tối ưu hóa khi ngăn xếp phần mềm trưởng thành.

Những bổ sung này nhấn mạnh cam kết của AMD trong việc mở rộng ra ngoài các benchmark LLM truyền thống để hỗ trợ các khối lượng công việc AI mới nổi trên các trường hợp sử dụng đa dạng.

Phần mềm ROCm Cho phép Mở rộng và Suy luận Không đồng nhất


AMD ghi nhận phần lớn hiệu suất và khả năng mở rộng của MI355X cho ngăn xếp phần mềm ROCm của mình. Các cải tiến chính bao gồm thực thi FP4 được tối ưu hóa, giao tiếp GPU-GPU được cải thiện cho suy luận phân tán và hỗ trợ phân phối khối lượng công việc động trên các môi trường không đồng nhất — rất quan trọng cho các triển khai GPU hỗn hợp.

Đồ họa kết quả suy luận AMD MLPerf Instinct MI355X
Một bản đệ trình không đồng nhất mang tính bước ngoặt — được phát triển bởi Dell và MangoBoost — đã sử dụng ba mẫu GPU AMD Instinct: MI300X, MI325X và MI355X. Cấu hình này đạt 141.521 token mỗi giây trên Llama 2 70B Máy chủ và 151.843 token mỗi giây trên Llama 2 70B Ngoại tuyến. Đáng chú ý, nền tảng MI355X được đặt tại phòng thí nghiệm của Dell ở Hoa Kỳ, trong khi các hệ thống MI300X và MI325X ở Hàn Quốc — chứng minh khả năng phối hợp các hệ thống phân tán trên các địa điểm địa lý.

Tăng trưởng Hệ sinh thái và Khả năng Tái tạo


Hệ sinh thái đối tác của AMD đã mở rộng đáng kể trong vòng MLPerf này, với chín công ty đệ trình kết quả trên nhiều thế hệ GPU Instinct. Các nhà cung cấp tham gia bao gồm Cisco, Dell, Giga Computing, HPE, MangoBoost, MiTAC, Oracle, Supermicro và Red Hat — phản ánh sự chấp nhận rộng rãi của các giải pháp suy luận của AMD trong ngành.

Các bản đệ trình của đối tác đã phù hợp chặt chẽ với kết quả nội bộ của AMD, thường trong vòng 4% và trong một số trường hợp trong vòng 1%. Sự nhất quán này xác nhận rằng hiệu suất MI355X có thể tái tạo trên các nền tảng OEM và đám mây, giảm rủi ro triển khai và tăng cường niềm tin vào kết quả hiệu suất trong thế giới thực.

Công ty TNHH Công nghệ Qianxing Jietong Bắc Kinh
Sandy Yang/Giám đốc Chiến lược Toàn cầu
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com
Trọng tâm Kinh doanh:
Phân phối Sản phẩm ICT/Tích hợp Hệ thống & Dịch vụ/Giải pháp Cơ sở hạ tầng
Với hơn 20 năm kinh nghiệm phân phối CNTT, chúng tôi hợp tác với các thương hiệu hàng đầu toàn cầu để cung cấp các sản phẩm đáng tin cậy và dịch vụ chuyên nghiệp.
“Sử dụng Công nghệ để Xây dựng Thế giới Thông minh” Nhà cung cấp Dịch vụ Sản phẩm ICT Đáng tin cậy của Bạn!
Chi tiết liên lạc
Beijing Qianxing Jietong Technology Co., Ltd.

Người liên hệ: Ms. Sandy Yang

Tel: 13426366826

Gửi yêu cầu thông tin của bạn trực tiếp cho chúng tôi (0 / 3000)