WEKA đã công bố tích hợp nền tảng NeuralMesh của mình với kiến trúc tham chiếu NVIDIA STX, thiết lập Lưới bộ nhớ tăng cường (Augmented Memory Grid) của họ như một khối xây dựng quan trọng cho cơ sở hạ tầng AI thế hệ tiếp theo. Giải pháp kết hợp giải quyết một trong những nút thắt cổ chai quan trọng nhất trong môi trường suy luận quy mô lớn: các ràng buộc về bộ nhớ ảnh hưởng trực tiếp đến hiệu suất, tổng chi phí sở hữu và khả năng mở rộng.
Hoạt động thông qua NeuralMesh, Lưới bộ nhớ tăng cường của WEKA mở rộng bộ nhớ GPU bằng cách ngoại hóa và lưu trữ các bộ nhớ đệm khóa-giá trị (key-value caches). Khi triển khai với NVIDIA STX, kiến trúc này cung cấp khả năng lưu trữ bộ nhớ ngữ cảnh thông lượng cao cho các tác vụ AI có tính chất đại diện (agentic AI), hỗ trợ suy luận ngữ cảnh dài trên các phiên, công cụ và quy trình làm việc đầu cuối. Theo công ty, các cấu hình kết hợp hệ thống NVIDIA Vera Rubin NVL72, bộ xử lý DPU BlueField-4 và Ethernet Spectrum-X có thể tăng thông lượng token bộ nhớ ngữ cảnh lên 4-10 lần. Nền tảng này cũng được dự kiến sẽ cung cấp thông lượng đọc ít nhất 320 GB/s và ghi 150 GB/s, tăng gấp đôi hiệu suất của các kiến trúc lưu trữ AI truyền thống.
Cơ sở hạ tầng bộ nhớ trở thành nút thắt cổ chai cho suy luận
WEKA tập trung sự tích hợp này vào thách thức ngày càng tăng của bức tường bộ nhớ (memory wall) trong các triển khai AI hiện đại. Trong các quy trình suy luận hiện nay, bộ nhớ GPU băng thông cao bị giới hạn buộc phải loại bỏ bộ nhớ đệm KV thường xuyên, dẫn đến việc tính toán lại lặp đi lặp lại và hiệu quả hoạt động bị suy giảm. Khi độ đồng thời của hệ thống tăng lên, những sự kém hiệu quả này nhân lên, làm tăng chi phí cơ sở hạ tầng và giảm khả năng dự đoán hiệu suất.
Công ty quảng bá cơ sở hạ tầng bộ nhớ đệm KV dùng chung như một giải pháp. Bằng cách bảo tồn ngữ cảnh bền vững trên nhiều người dùng và phiên, bộ nhớ đệm dùng chung loại bỏ xử lý dư thừa và ổn định thông lượng token. NVIDIA STX cung cấp kiến trúc tham chiếu đã được xác thực cho mô hình này, trong khi WEKA cung cấp lớp mở rộng bộ nhớ và lưu trữ.
Kiến trúc NeuralMesh và Lưới bộ nhớ tăng cường
NeuralMesh hoạt động như nền tảng lưu trữ phân tán của WEKA, được xây dựng để tích hợp liền mạch trên toàn bộ ngăn xếp NVIDIA STX. Nó cung cấp các dịch vụ dữ liệu hiệu suất cao được tối ưu hóa cho các tác vụ AI, trong khi Lưới bộ nhớ tăng cường đóng vai trò là lớp mở rộng bộ nhớ chuyên dụng hợp nhất bộ nhớ đệm KV bên ngoài bộ nhớ GPU.
Thiết kế này cho phép môi trường suy luận duy trì các phiên ngữ cảnh dài mà không làm quá tải tài nguyên GPU. Bằng cách giữ lại trạng thái bộ nhớ đệm và cho phép tái sử dụng trên nhiều tác vụ, nền tảng duy trì mức sử dụng cao và hiệu suất ổn định khi các triển khai mở rộng.
WEKA lưu ý rằng Lưới bộ nhớ tăng cường, lần đầu tiên được giới thiệu tại GTC 2025 và hiện đã có sẵn, đã được xác thực trên các nền tảng CPU NVIDIA Grace kết hợp với DPU BlueField. Kiến trúc này mang lại những cải thiện đáng kể về hiệu quả suy luận, bao gồm thời gian đến token đầu tiên nhanh hơn đáng kể, thông lượng token trên mỗi GPU cao hơn và hiệu suất ổn định dưới độ đồng thời tăng lên. Việc chuyển đường dẫn dữ liệu sang BlueField-4 cũng giảm tải cho CPU và giảm bớt các nút thắt cổ chai I/O.
Hiệu suất và Tăng hiệu quả
Trong môi trường giống như sản xuất, nền tảng được thiết kế để nâng cao khả năng phản hồi và hiệu quả cơ sở hạ tầng. WEKA tuyên bố rằng Lưới bộ nhớ tăng cường có thể giảm thời gian đến token đầu tiên từ 4-20 lần, đồng thời tăng sản lượng token trên mỗi GPU lên tới 6,5 lần. Những cải tiến này bắt nguồn từ tỷ lệ truy cập bộ nhớ đệm KV cao hơn và ít chu kỳ tính toán lại hơn, cho phép hệ thống duy trì hiệu suất khi kích thước ngữ cảnh và số lượng người dùng mở rộng.
Firmus, một nhà cung cấp cơ sở hạ tầng AI, được nêu bật là một trong những người dùng đầu tiên tận dụng NeuralMesh với cơ sở hạ tầng dựa trên NVIDIA. Công ty báo cáo thông lượng token được cải thiện và độ trễ thấp hơn ở quy mô lớn, với những cải tiến đến từ việc sử dụng GPU hiện có hiệu quả hơn thay vì triển khai phần cứng bổ sung.
Ý nghĩa đối với Thiết kế Cơ sở hạ tầng AI
Sự tích hợp này nhấn mạnh một sự thay đổi trong thiết kế hệ thống AI, nơi các chiến lược bộ nhớ và lưu trữ ngày càng xác định hiệu suất tổng thể và hiệu quả chi phí. Khi các tác vụ AI có tính chất đại diện mở rộng và cửa sổ ngữ cảnh rộng hơn, các phương pháp chỉ sử dụng DRAM trở nên không bền vững do chi phí tính toán lại tăng lên và GPU bị sử dụng không hết công suất.
WEKA định vị bộ nhớ đệm KV dùng chung, bền vững như một khả năng nền tảng cho các nhà máy AI. Các tổ chức áp dụng mô hình này có thể đạt được mức sử dụng GPU cao hơn, tiêu thụ năng lượng thấp hơn cho mỗi tác vụ suy luận và khả năng mở rộng có thể dự đoán được. Ngược lại, các môi trường chỉ dựa vào bộ nhớ GPU cục bộ có khả năng đối mặt với chi phí hoạt động tăng lên và lợi nhuận giảm dần khi khối lượng công việc tăng lên.
Công ty TNHH Công nghệ Bắc Kinh Tiền Hành Kết Thông
Sandy Yang/Giám đốc Chiến lược Toàn cầu
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com
Trọng tâm Kinh doanh:
Phân phối Sản phẩm ICT/Tích hợp Hệ thống & Dịch vụ/Giải pháp Cơ sở hạ tầng
Với hơn 20 năm kinh nghiệm phân phối CNTT, chúng tôi hợp tác với các thương hiệu hàng đầu toàn cầu để cung cấp các sản phẩm đáng tin cậy và dịch vụ chuyên nghiệp.
“Sử dụng Công nghệ để Xây dựng Thế giới Thông minh” Nhà cung cấp Dịch vụ Sản phẩm ICT Đáng tin cậy của Bạn!
Sandy Yang/Giám đốc Chiến lược Toàn cầu
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com
Trọng tâm Kinh doanh:
Phân phối Sản phẩm ICT/Tích hợp Hệ thống & Dịch vụ/Giải pháp Cơ sở hạ tầng
Với hơn 20 năm kinh nghiệm phân phối CNTT, chúng tôi hợp tác với các thương hiệu hàng đầu toàn cầu để cung cấp các sản phẩm đáng tin cậy và dịch vụ chuyên nghiệp.
“Sử dụng Công nghệ để Xây dựng Thế giới Thông minh” Nhà cung cấp Dịch vụ Sản phẩm ICT Đáng tin cậy của Bạn!



