Chạy trên Cơ sở hạ tầng đám mây Oracle (OCI), phần mềm WEKA NeuralMesh và Augmented Memory Grid mang lại thông lượng mã thông báo cao hơn gấp 10 lần, số lượng người dùng đồng thời nhiều hơn gấp 10 lần và số lượng mã thông báo nhiều hơn gấp 7 lần cho mỗi GPU, so với môi trường OCI tiêu chuẩn chỉ dựa vào DRAM cục bộ.
Lưới bộ nhớ tăng cường của WEKA mở rộng bộ nhớ máy chủ GPU cho hoạt động suy luận AI bằng cách tận dụng bộ nhớ ngoài thông qua NeuralMesh, biến các tài nguyên bên ngoài thành Bộ nhớ đệm KV hiệu suất cao. Nó mang lại độ trễ micro giây và băng thông nhiều GB/giây, cung cấp thêm không gian địa chỉ bộ nhớ lên tới petabyte, với khả năng tương thích hoàn toàn với kiến trúc bộ nhớ đệm SX KV của NVIDIA. NeuralMesh là hệ thống tệp AI hiệu suất cao của WEKA. Tất cả các điểm chuẩn đã được xác thực trên cụm H100 kim loại trần OCI 9 nút với cửa sổ ngữ cảnh 100.000 mã thông báo.
Pablo Salem, Giám đốc cấp cao về phát triển phần mềm tại OCI, nhận xét: "Khối lượng công việc AI dành cho doanh nghiệp tiếp tục mở rộng cửa sổ ngữ cảnh và nâng mức sử dụng GPU lên các giới hạn mới. Những điểm chuẩn này chứng minh giải pháp của WEKA loại bỏ tắc nghẽn bộ nhớ GPU trên OCI, cho phép khối lượng công việc suy luận lớn hơn, đòi hỏi khắt khe hơn mà không cần đầu tư thêm phần cứng GPU."
WEKA lưu ý rằng nhu cầu suy luận ngày càng tăng sẽ làm tăng thêm sự thiếu hiệu quả của cơ sở hạ tầng AI. Việc xóa bộ nhớ đệm KV thường xuyên tạo ra chi phí ẩn làm lãng phí chu kỳ GPU, tăng độ trễ, ảnh hưởng đến trải nghiệm người dùng và tăng chi phí vận hành trên mỗi mã thông báo. Đối với khối lượng công việc AI tác nhân và ngữ cảnh dài với hơn 100.000 mã thông báo đầu vào, chi phí như vậy sẽ gây tổn hại nghiêm trọng đến tính kinh tế đơn vị của việc triển khai AI sản xuất.
Điểm chuẩn được xây dựng trên 9 nút, 72 GPU H100, cửa sổ ngữ cảnh 100.000 mã thông báo và hàng nghìn người dùng đồng thời, với khoảng cách hiệu suất rõ ràng được hiển thị bên dưới:
-
Dung lượng người dùng đồng thời: WEKA đã hỗ trợ hơn 5.000 người dùng đồng thời, so với chỉ 600 người trên các thiết lập chỉ có DRAM. Nó ngăn ngừa lỗi bão hòa bộ đệm bằng cách mở rộng bộ đệm hoạt động từ 8,64 TiB DRAM lên bộ lưu trữ flash 287 TiB NVMe, tối đa hóa ROI trên phần cứng GPU hiện có mà không cần mua thêm GPU.
-
Thông lượng mã thông báo: Ngăn xếp WEKA đạt khoảng 2 triệu mã thông báo mỗi giây, nhanh hơn 10 lần so với mức cơ bản dưới 200.000 mã thông báo/giây của các hệ thống chỉ có DRAM.
-
Tổng khối lượng xử lý mã thông báo: Trong thử nghiệm kéo dài một giờ với 2.400 người dùng đồng thời, WEKA đã xử lý 5 tỷ mã thông báo, trong khi thiết lập chỉ DRAM chỉ xử lý 700 triệu mã thông báo.
Đối với quy trình làm việc AI tác nhân, DRAM không đủ sẽ kích hoạt quá trình tính toán lại GPU liên tục sau khi bão hòa bộ nhớ đệm, tăng chi phí trên mỗi mã thông báo và giảm ROI. Với số lượng mã thông báo gấp 7 lần được xử lý trên mỗi GPU, WEKA cắt giảm đáng kể chi phí mã thông báo tổng thể cho các dịch vụ AI sản xuất.
Đối với các dịch vụ AI thời gian thực bao gồm tìm kiếm, tóm tắt, hỗ trợ mã và tác nhân đa lượt, thông lượng mã thông báo xác định giới hạn dịch vụ đối với năng lực người dùng, tốc độ phản hồi và tiềm năng doanh thu cơ sở hạ tầng. Cải thiện thông lượng gấp 10 lần sẽ giải phóng hoàn toàn sức mạnh tính toán GPU gốc trong cụm OCI.
Tóm lại, phần mềm mở rộng bộ nhớ của WEKA giúp nền tảng đám mây phục vụ nhiều người dùng hơn, xử lý nhiều token hơn và cắt giảm chi phí vận hành một cách hiệu quả.
Liran Zvibel, Giám đốc điều hành của WEKA, cho biết: "Hiệu suất suy luận bị tắc nghẽn do bộ nhớ hiệu quả GPU có sẵn. Những kết quả này chứng minh rằng chỉ nâng cấp phần cứng không thể khắc phục các vấn đề kinh tế về mã thông báo AI. Hạn chế thực sự là hiệu suất GPU hạn chế tường bộ nhớ lâu dài. Giải pháp của WEKA trên OCI tăng cường đáng kể khả năng xử lý mã thông báo với tổng chi phí sở hữu được tối ưu hóa."
OCI đã công bố đầy đủ phương pháp đánh giá, cấu hình hệ thống và kết quả kiểm tra đầy đủ trên blog Khoa học Dữ liệu & AI chính thức của mình.
NeuralMesh với Lưới bộ nhớ tăng cường hiện đã có sẵn rộng rãi cho khách hàng của WEKA và được liệt kê trên Oracle Marketplace, với OCI đóng vai trò là đối tác ra mắt đám mây độc quyền. Các doanh nghiệp chạy suy luận ngữ cảnh dài trên OCI có thể triển khai kiến trúc đã được xác thực đầy đủ và sẵn sàng sản xuất này ngay lập tức.
Công ty TNHH Công nghệ Qianxing Jietong Bắc Kinh
Sandy Yang/Giám đốc chiến lược toàn cầu
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Trang web: www.qianxingdata.com/www.storagesserver.com
Trọng tâm kinh doanh:
Phân phối sản phẩm CNTT/Tích hợp hệ thống & Dịch vụ/Giải pháp cơ sở hạ tầng
Với hơn 20 năm kinh nghiệm phân phối CNTT, chúng tôi hợp tác với các thương hiệu hàng đầu thế giới để cung cấp các sản phẩm đáng tin cậy và dịch vụ chuyên nghiệp.
“Sử dụng công nghệ để xây dựng một thế giới thông minh”Nhà cung cấp dịch vụ sản phẩm CNTT đáng tin cậy của bạn!