| Thông số kỹ thuật NVIDIA L4 | |
|---|---|
| Chương trình 32 | 30.3 teraFLOP |
| TF32 Tensor Core | 60 teraFLOP |
| FP16 Tensor Core | 121 teraFLOP |
| BFLOAT16 Tensor Core | 121 teraFLOP |
| FP8 Tensor Core | 242.5 teraFLOP |
| INT8 Tensor Core | 242.5 TOPs |
| Bộ nhớ GPU | 24GB GDDR6 |
| GPU Memory Bandwidth | 300GB/s |
| Năng lượng thiết kế nhiệt tối đa (TDP) | 72W |
| Hình thức yếu tố | PCIe 1 khe cắm thấp |
| Kết nối | PCIe Gen4 x16 |
| Biểu đồ thông số kỹ thuật | L4 |
Tất nhiên, với giá L4 ở đâu đó gần $2500, A2 có giá khoảng một nửa giá, và T4 cũ (nhưng vẫn khá khả năng) có sẵn với giá dưới $1000 được sử dụng,Câu hỏi rõ ràng là sự khác biệt giữa ba GPU suy luận này là gì?.
| Thông số kỹ thuật NVIDIA L4, A2 và T4 | NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| Chương trình 32 | 30.3 teraFLOP | 4.5 teraFLOP | 8.1 teraFLOP |
| TF32 Tensor Core | 60 teraFLOP | 9 teraFLOP | N/A |
| FP16 Tensor Core | 121 teraFLOP | 18 teraFLOP | N/A |
| BFLOAT16 Tensor Core | 121 teraFLOP | 18 teraFLOP | N/A |
| FP8 Tensor Core | 242.5 teraFLOP | N/A | N/A |
| INT8 Tensor Core | 242.5 TOPs | 36 TOPS | 130 TOPS |
| Bộ nhớ GPU | 24GB GDDR6 | 16GB GDDR6 | 16GB GDDR6 |
| GPU Memory Bandwidth | 300GB/s | 200GB/s | 320+ GB/s |
| Năng lượng thiết kế nhiệt tối đa (TDP) | 72W | 40-60W | 70W |
| Hình thức yếu tố | PCIe 1 khe cắm thấp | ||
| Kết nối | PCIe Gen4 x16 | PCIe Gen4 x8 | PCIe Gen3 x16 |
| Biểu đồ thông số kỹ thuật | L4 | A2 | T4 |
Một điều cần hiểu khi nhìn vào ba thẻ này là chúng không phải chính xác là thế hệ thay thế một-một, điều này giải thích tại sao T4 vẫn còn, nhiều năm sau,một sự lựa chọn phổ biến cho một số trường hợp sử dụng. A2 ra đời như một thay thế cho T4 như một lựa chọn năng lượng thấp và tương thích hơn (x8 so với x16 cơ học).với A2 nằm ở giữa có thể hoặc có thể không được làm mới tại một số điểm trong tương lai.
MLPerf inference 3.1 Hiệu suất
MLPerf là một liên minh của các nhà lãnh đạo AI từ học viện, nghiên cứu và ngành công nghiệp được thành lập để cung cấp các tiêu chuẩn phần cứng và phần mềm AI công bằng và phù hợp.Các điểm chuẩn này được thiết kế để đo hiệu suất của phần cứng máy học, phần mềm và dịch vụ về các nhiệm vụ và kịch bản khác nhau.
Các thử nghiệm của chúng tôi tập trung vào hai chỉ số chuẩn MLPerf cụ thể: Resnet50 và BERT.
- Resnet50: Đây là một mạng thần kinh cong dùng chủ yếu để phân loại hình ảnh. Nó là một chỉ số tốt về việc hệ thống có thể xử lý tốt các nhiệm vụ học sâu liên quan đến xử lý hình ảnh.
- BERT (Bidirectional Encoder Representations from Transformers): Chỉ số này tập trung vào các nhiệm vụ xử lý ngôn ngữ tự nhiên,cung cấp cái nhìn sâu sắc về cách một hệ thống thực hiện trong việc hiểu và xử lý ngôn ngữ của con người.
Cả hai bài kiểm tra này đều rất quan trọng để đánh giá khả năng của phần cứng AI trong các kịch bản thực tế liên quan đến xử lý hình ảnh và ngôn ngữ.
Đánh giá NVIDIA L4 với các tiêu chuẩn này là rất quan trọng trong việc giúp hiểu khả năng của GPU L4 trong các nhiệm vụ AI cụ thể.Nó cũng cung cấp cái nhìn sâu sắc về cách các cấu hình khác nhau (mộtThông tin này rất quan trọng đối với các chuyên gia và tổ chức muốn tối ưu hóa cơ sở hạ tầng AI của họ.
Các mô hình chạy dưới hai chế độ chính: Server và Offline.
- Chế độ ngoại tuyến: Chế độ này đo hiệu suất của hệ thống khi tất cả dữ liệu có sẵn để xử lý đồng thời.khi hệ thống xử lý một tập dữ liệu lớn trong một lôChế độ ngoại tuyến rất quan trọng cho các kịch bản mà độ trễ không phải là mối quan tâm chính, nhưng thông lượng và hiệu quả là.
- Chế độ máy chủ: Ngược lại, chế độ máy chủ đánh giá hiệu suất của hệ thống trong một kịch bản bắt chước môi trường máy chủ thế giới thực, nơi các yêu cầu đến một lần.đo lường tốc độ mà hệ thống có thể đáp ứng từng yêu cầuNó rất cần thiết cho các ứng dụng thời gian thực, chẳng hạn như máy chủ web hoặc ứng dụng tương tác, nơi cần phản hồi ngay lập tức.
1 x NVIDIA L4 Dell PowerEdge XR7620
Là một phần của đánh giá gần đây của chúng tôi về Dell PowerEdge XR7620, được trang bị một NVIDIA L4 duy nhất, chúng tôi đã đưa nó đến cạnh để chạy một số nhiệm vụ, bao gồm MLPerf.
Cấu hình hệ thống thử nghiệm của chúng tôi bao gồm các thành phần sau:
- 2 x Xeon Gold 6426Y ¢ 16-core 2.5GHz
- 1 x NVIDIA L4
- 8 x 16GB DDR5
- 480GB BOSS RAID1
- Ubuntu Server 22.04
- NVIDIA trình điều khiển 535
| Dell PowerEdge XR7620 1x NVIDIA L4 | Điểm số |
|---|---|
| Resnet50 Server | 12,204.40 |
| Resnet50 Offline | 13,010.20 |
| BERT K99 Server | 898.945 |
| BERT K99 | 973.435 |
Hiệu suất trong các kịch bản máy chủ và ngoại tuyến cho Resnet50 và BERT K99 gần như giống nhau, cho thấy L4 duy trì hiệu suất nhất quán trên các mô hình máy chủ khác nhau.
1, 2 & 4 NVIDIA L4 ¢s ¢ Dell PowerEdge T560
Cấu hình đơn vị xem xét của chúng tôi bao gồm các thành phần sau:
- 2 x Intel Xeon Gold 6448Y (32-core / 64-thread mỗi, TDP 225 watt, 2,1-4,1GHz)
- 8 x 1.6TB Solidigm P5520 SSD với thẻ RAID PERC 12
- 1-4x GPU NVIDIA L4
- 8 x 64GB RDIMM
- Ubuntu Server 22.04
- trình điều khiển NVIDIA 535
| Dell PowerEdge T560 1x NVIDIA L4 | Điểm số |
|---|---|
| Resnet50 Server | 12,204.40 |
| Resnet50 Offline | 12,872.10 |
| Bert K99 | 898.945 |
| Bert K99 Offline | 945.146 |
Trong các thử nghiệm của chúng tôi với hai L4 trong Dell T560, chúng tôi đã quan sát thấy sự mở rộng gần như tuyến tính trong hiệu suất cho cả hai điểm chuẩn Resnet50 và BERT K99.Việc mở rộng quy mô này là bằng chứng cho hiệu quả của GPU L4 và khả năng làm việc song song mà không có tổn thất đáng kể do chi phí hoặc không hiệu quả.
| Dell PowerEdge T560 2x NVIDIA L4 | Điểm số |
|---|---|
| Resnet50 Server | 24,407.50 |
| Resnet50 Offline | 25,463.20 |
| BERT K99 Server | 1,801.28 |
| BERT K99 | 1,904.10 |
Việc mở rộng quy mô tuyến tính nhất quán mà chúng tôi chứng kiến với hai GPU NVIDIA L4 mở rộng ấn tượng đến các cấu hình có bốn đơn vị L4. This scaling is particularly noteworthy as maintaining linear performance gains becomes increasingly challenging with each added GPU due to the complexities of parallel processing and resource management.
| Dell PowerEdge T560 4x NVIDIA L4 | Điểm số |
|---|---|
| Resnet50 Server | 48,818.30 |
| Resnet50 Offline | 51,381.70 |
| BERT K99 Server | 3,604.96 |
| BERT K99 | 3,821.46 |
Các kết quả này chỉ dành cho mục đích minh họa, và không phải là kết quả MLPerf chính thức hoặc cạnh tranh.
Ngoài việc xác nhận khả năng mở rộng tuyến tính của NVIDIA L4 GPU, các thử nghiệm của chúng tôi trong phòng thí nghiệm làm sáng tỏ những tác động thực tế của việc triển khai các đơn vị này trong các kịch bản hoạt động khác nhau.Ví dụ:, tính nhất quán trong hiệu suất giữa chế độ máy chủ và ngoại tuyến trên tất cả các cấu hình với GPU L4 cho thấy độ tin cậy và tính linh hoạt của chúng.
Điều này đặc biệt quan trọng đối với các doanh nghiệp và các tổ chức nghiên cứu, nơi các bối cảnh hoạt động khác nhau đáng kể. our observations on the minimal impact of interconnect bottlenecks and the efficiency of GPU synchronization in multi-GPU setups provide valuable insights for those looking to scale their AI infrastructureNhững hiểu biết này vượt ra ngoài chỉ số chuẩn, cung cấp một sự hiểu biết sâu sắc hơn về cách thức phần cứng như vậy có thể được sử dụng tối ưu trong các kịch bản thế giới thực,hướng dẫn các quyết định kiến trúc và chiến lược đầu tư tốt hơn trong cơ sở hạ tầng AI và HPC.
NVIDIA L4 hiệu suất ứng dụng
Chúng tôi so sánh hiệu suất của NVIDIA L4 mới với NVIDIA A2 và NVIDIA T4 trước đó.chúng tôi triển khai cả ba mô hình bên trong một máy chủ trong phòng thí nghiệm của chúng tôi, với Windows Server 2022 và trình điều khiển NVIDIA mới nhất, tận dụng toàn bộ bộ thử nghiệm GPU của chúng tôi.
Các thẻ này đã được thử nghiệm trên Dell Poweredge R760 với cấu hình sau:
- 2 x Intel Xeon Gold 6430 (32 lõi, 2.1GHz)
- Windows Server 2022
- trình điều khiển NVIDIA 538.15
- ECC bị vô hiệu trên tất cả các thẻ để lấy mẫu 1 lần
Khi chúng tôi bắt đầu thử nghiệm hiệu suất giữa nhóm ba GPU doanh nghiệp này, điều quan trọng là phải lưu ý sự khác biệt hiệu suất độc đáo giữa các mô hình A2 và T4 trước đó.Khi A2 được phát hành, nó cung cấp một số cải tiến đáng chú ý như tiêu thụ năng lượng thấp hơn và hoạt động trên khe cắm PCIe Gen4 x8 nhỏ hơn, thay vì khe cắm PCIe Gen3 x16 lớn hơn mà T4 cũ yêu cầu.Ngay từ đầu, nó đã cho phép nó vào nhiều hệ thống hơn., đặc biệt là với dấu chân nhỏ hơn cần thiết.
Blender OptiX 4.0
Blender OptiX là một ứng dụng mô hình 3D mã nguồn mở.Benchmark này được chạy bằng cách sử dụng tiện ích Blender Benchmark CLIĐiểm số là mẫu mỗi phút, cao hơn là tốt hơn.
| Mixer 4.0 (Nhiều hơn là tốt hơn) |
NVIDIA L4 | NVIDIA A2 | Nvidia T4 |
|---|---|---|---|
| GPU Blender CLI Monster | 2,207.765 | 458.692 | 850.076 |
| GPU Blender CLI Junkshop | 1,127.829 | 292.553 | 517.243 |
| GPU Blender CLI | 1,111.753 | 262.387 | 478.786 |
Blackmagic RAW Speed Test
Chúng tôi kiểm tra CPU và GPU với Blackmagic RAW Speed Test kiểm tra tốc độ phát video.Chúng được hiển thị như là kết quả riêng biệt nhưng chúng tôi chỉ tập trung vào các GPU ở đây, vì vậy kết quả CPU bị bỏ qua.
| Blackmagic RAW Speed Test (Nhiều hơn là tốt hơn) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| 8K CUDA | 95 FPS | 38 FPS | 53 FPS |
Cinebench 2024 GPU
Maxon ′s Cinebench 2024 là một điểm chuẩn cho việc hiển thị CPU và GPU sử dụng tất cả các lõi và các luồng CPU.Điểm cao hơn là tốt hơn.
| Cinebench 2024 (Nhiều hơn là tốt hơn) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| GPU | 15,263 | 4,006 | 5,644 |
GPU PI
GPUPI 3.3.3 là một phiên bản của tiện ích so sánh nhẹ được thiết kế để tính toán π (pi) đến hàng tỷ chữ số thập phân bằng cách tăng tốc phần cứng thông qua GPU và CPU.Nó tận dụng sức mạnh tính toán của OpenCL và CUDA bao gồm cả các đơn vị xử lý trung tâm và đồ họaChúng tôi chạy CUDA chỉ trên tất cả 3 GPU và các số ở đây là thời gian tính toán mà không thêm thời gian giảm.
| GPU PI Thời gian tính toán bằng giây (Giảm hơn là tốt hơn) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| GPUPI v3.3 1B | 3.732s | 19.799s | 7.504s |
| GPUPI v3.3 32B | 244.380s | 1,210.801s | 486.231s |
Trong khi các kết quả trước đây chỉ xem xét một lần lặp lại của mỗi thẻ, chúng tôi cũng có cơ hội xem xét một triển khai 5x NVIDIA L4 bên trong Dell PowerEdge T560.
| GPU PI Thời gian tính toán bằng giây (Giảm hơn là tốt hơn) |
Dell PowerEdge T560 (2x Xeon Gold 6448Y) với 5x NVIDIA L4 |
|---|---|
| GPUPI v3.3 1B | 0sec 850ms |
| GPUPI v3.3 32B | 50sec 361ms |
Octanebench
OctaneBench là một tiện ích so sánh cho OctaneRender, một trình hiển thị 3D khác với hỗ trợ RTX tương tự như V-Ray.
| Octane ( cao hơn là tốt hơn) | ||||
| Cảnh | Hạt nhân | NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
| Nội thất | Các kênh thông tin | 15.59 | 4.49 | 6.39 |
| Ánh sáng trực tiếp | 50.85 | 14.32 | 21.76 | |
| Theo dõi đường dẫn | 64.02 | 18.46 | 25.76 | |
| Ý tưởng | Các kênh thông tin | 9.30 | 2.77 | 3.93 |
| Ánh sáng trực tiếp | 39.34 | 11.53 | 16.79 | |
| Theo dõi đường dẫn | 48.24 | 14.21 | 20.32 | |
| ATV | Các kênh thông tin | 24.38 | 6.83 | 9.50 |
| Ánh sáng trực tiếp | 54.86 | 16.05 | 21.98 | |
| Theo dõi đường dẫn | 68.98 | 20.06 | 27.50 | |
| Hộp | Các kênh thông tin | 12.89 | 3.88 | 5.42 |
| Ánh sáng trực tiếp | 48.80 | 14.59 | 21.36 | |
| Theo dõi đường dẫn | 54.56 | 16.51 | 23.85 | |
| Tổng điểm số | 491.83 | 143.71 | 204.56 | |
GPU Geekbench 6
Geekbench 6 là một điểm chuẩn đa nền tảng đo lường hiệu suất tổng thể của hệ thống. Có các tùy chọn thử nghiệm cho cả CPU và GPU. Điểm số cao hơn là tốt hơn.Chúng tôi chỉ xem kết quả của GPU.
Bạn có thể tìm thấy so sánh với bất kỳ hệ thống nào bạn muốn trong trình duyệt Geekbench.
| Geekbench 6.1.0 (Nhiều hơn là tốt hơn) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| GPU Geekbench OpenCL | 156,224 | 35,835 | 83,046 |
Luxmark
LuxMark là một công cụ so sánh đa nền tảng OpenCL từ những người duy trì công cụ hiển thị 3D nguồn mở LuxRender. Công cụ này xem xét hiệu suất GPU trong mô hình 3D, ánh sáng và video.Đối với đánh giá này, chúng tôi sử dụng phiên bản mới nhất, v4alpha0. trong LuxMark, cao hơn là tốt hơn khi nói đến điểm số.
| Luxmark v4.0alpha0 GPU OpenCL (Nhiều hơn là tốt hơn) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| Bàn ghế | 14,328 | 3,759 | 5,893 |
| Bàn ghế ăn | 5,330 | 1,258 | 2,033 |
GROMACS CUDA
Chúng tôi cũng đã biên soạn GROMACS, một phần mềm động lực học phân tử, đặc biệt cho CUDA.thiết yếu để tăng tốc các mô phỏng tính toán.
Quá trình này liên quan đến việc sử dụng nvcc, trình biên dịch CUDA của NVIDIA,cùng với nhiều lần lặp lại của các cờ tối ưu hóa thích hợp để đảm bảo rằng các file nhị phân được điều chỉnh đúng theo kiến trúc của máy chủViệc đưa hỗ trợ CUDA vào biên dịch GROMACS cho phép phần mềm giao diện trực tiếp với phần cứng GPU, có thể cải thiện đáng kể thời gian tính toán cho các mô phỏng phức tạp.
Thử nghiệm: Sự tương tác của protein tùy chỉnh trong Gromacs
Tận dụng một tập tin đầu vào được cung cấp bởi cộng đồng từ Discord đa dạng của chúng tôi, chứa các thông số và cấu trúc phù hợp với một nghiên cứu tương tác protein cụ thể,Chúng tôi bắt đầu mô phỏng động lực học phân tử.Kết quả là đáng chú ý, hệ thống đạt được tốc độ mô phỏng 170,268 nanosecond mỗi ngày.
| GPU | Hệ thống | ns/ngày | Thời gian lõi (s) |
|---|---|---|---|
| NVIDIA A4000 | Whitebox AMD Ryzen 5950x | 84.415 | 163,763 |
| RTX NVIDIA 4070 | Whitebox AMD Ryzen 7950x3d | 131.85 | 209,692.3 |
| 5x NVIDIA L4 | Dell T560 w / 2x Intel Xeon Gold 6448Y | 170.268 | 608,912.7 |
Hơn AI
Sandy Yang - Giám đốc chiến lược toàn cầu
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Trang web: www.qianxingdata.com/www.storagesserver.com
Tập trung kinh doanh:
Phân phối sản phẩm ICT / tích hợp hệ thống & dịch vụ / giải pháp cơ sở hạ tầng
Với hơn 20 năm kinh nghiệm phân phối CNTT, chúng tôi hợp tác với các thương hiệu hàng đầu toàn cầu để cung cấp các sản phẩm đáng tin cậy và dịch vụ chuyên nghiệp.
Sử dụng công nghệ để xây dựng một thế giới thông minh Nhà cung cấp dịch vụ sản phẩm ICT đáng tin cậy của bạn!



