logo
Nhà Tin tức

tin tức công ty về Phần mềm WEKA tăng tốc độ suy luận AI theo ngữ cảnh dài trên đám mây công cộng của Oracle

Chứng nhận
Trung Quốc Beijing Qianxing Jietong Technology Co., Ltd. Chứng chỉ
Trung Quốc Beijing Qianxing Jietong Technology Co., Ltd. Chứng chỉ
Khách hàng đánh giá
Các nhân viên kinh doanh của Beijing Qianxing Jietong Technology Co., Ltd rất chuyên nghiệp và kiên nhẫn. Họ có thể cung cấp báo giá một cách nhanh chóng. Chất lượng và bao bì của sản phẩm cũng rất tốt. Sự hợp tác của chúng tôi rất suôn sẻ.

—— 《Festfing DV》 LLC

Khi tôi đang tìm kiếm gấp CPU intel và SSD Toshiba, Sandy từ Beijing Qianxing Jietong Technology Co., Ltd đã giúp đỡ tôi rất nhiều và nhanh chóng nhận được sản phẩm tôi cần. Tôi thực sự đánh giá cao cô ấy.

—— Kitty Yen

Sandy của Beijing Qianxing Jietong Technology Co., Ltd là một nhân viên bán hàng rất cẩn thận, người có thể nhắc nhở tôi về lỗi cấu hình kịp thời khi tôi mua máy chủ. Các kỹ sư cũng rất chuyên nghiệp và có thể nhanh chóng hoàn thành quá trình thử nghiệm.

—— Strelkin Mikhail Vladimirovich

Chúng tôi rất hài lòng với trải nghiệm làm việc với Bắc Kinh Qianxing Jietong. Chất lượng sản phẩm tuyệt vời và giao hàng luôn đúng hẹn. Đội ngũ bán hàng của họ chuyên nghiệp, kiên nhẫn và rất hữu ích với tất cả các câu hỏi của chúng tôi. Chúng tôi thực sự đánh giá cao sự hỗ trợ của họ và mong muốn có một mối quan hệ đối tác lâu dài. Rất khuyến khích!

—— Ahmad Navid

Chất lượng: Kinh nghiệm tuyệt vời với nhà cung cấp của tôi. MikroTik RB3011 đã được sử dụng, nhưng nó ở trong tình trạng rất tốt và mọi thứ hoạt động hoàn hảo.và tất cả những lo ngại của tôi đã được giải quyết nhanh chóng- Nhà cung cấp rất đáng tin cậy.

—— Geran Colesio

Tôi trò chuyện trực tuyến bây giờ
Công ty Tin tức
Phần mềm WEKA tăng tốc độ suy luận AI theo ngữ cảnh dài trên đám mây công cộng của Oracle

Chạy trên Cơ sở hạ tầng đám mây Oracle (OCI), phần mềm WEKA NeuralMesh và Augmented Memory Grid mang lại thông lượng mã thông báo cao hơn gấp 10 lần, số lượng người dùng đồng thời nhiều hơn gấp 10 lần và số lượng mã thông báo nhiều hơn gấp 7 lần cho mỗi GPU, so với môi trường OCI tiêu chuẩn chỉ dựa vào DRAM cục bộ.

tin tức mới nhất của công ty về Phần mềm WEKA tăng tốc độ suy luận AI theo ngữ cảnh dài trên đám mây công cộng của Oracle  0

Lưới bộ nhớ tăng cường của WEKA mở rộng bộ nhớ máy chủ GPU cho hoạt động suy luận AI bằng cách tận dụng bộ nhớ ngoài thông qua NeuralMesh, biến các tài nguyên bên ngoài thành Bộ nhớ đệm KV hiệu suất cao. Nó mang lại độ trễ micro giây và băng thông nhiều GB/giây, cung cấp thêm không gian địa chỉ bộ nhớ lên tới petabyte, với khả năng tương thích hoàn toàn với kiến ​​trúc bộ nhớ đệm SX KV của NVIDIA. NeuralMesh là hệ thống tệp AI hiệu suất cao của WEKA. Tất cả các điểm chuẩn đã được xác thực trên cụm H100 kim loại trần OCI 9 nút với cửa sổ ngữ cảnh 100.000 mã thông báo.

Pablo Salem, Giám đốc cấp cao về phát triển phần mềm tại OCI, nhận xét: "Khối lượng công việc AI dành cho doanh nghiệp tiếp tục mở rộng cửa sổ ngữ cảnh và nâng mức sử dụng GPU lên các giới hạn mới. Những điểm chuẩn này chứng minh giải pháp của WEKA loại bỏ tắc nghẽn bộ nhớ GPU trên OCI, cho phép khối lượng công việc suy luận lớn hơn, đòi hỏi khắt khe hơn mà không cần đầu tư thêm phần cứng GPU."

WEKA lưu ý rằng nhu cầu suy luận ngày càng tăng sẽ làm tăng thêm sự thiếu hiệu quả của cơ sở hạ tầng AI. Việc xóa bộ nhớ đệm KV thường xuyên tạo ra chi phí ẩn làm lãng phí chu kỳ GPU, tăng độ trễ, ảnh hưởng đến trải nghiệm người dùng và tăng chi phí vận hành trên mỗi mã thông báo. Đối với khối lượng công việc AI tác nhân và ngữ cảnh dài với hơn 100.000 mã thông báo đầu vào, chi phí như vậy sẽ gây tổn hại nghiêm trọng đến tính kinh tế đơn vị của việc triển khai AI sản xuất.

Điểm chuẩn được xây dựng trên 9 nút, 72 GPU H100, cửa sổ ngữ cảnh 100.000 mã thông báo và hàng nghìn người dùng đồng thời, với khoảng cách hiệu suất rõ ràng được hiển thị bên dưới:
  • Dung lượng người dùng đồng thời: WEKA đã hỗ trợ hơn 5.000 người dùng đồng thời, so với chỉ 600 người trên các thiết lập chỉ có DRAM. Nó ngăn ngừa lỗi bão hòa bộ đệm bằng cách mở rộng bộ đệm hoạt động từ 8,64 TiB DRAM lên bộ lưu trữ flash 287 TiB NVMe, tối đa hóa ROI trên phần cứng GPU hiện có mà không cần mua thêm GPU.
  • Thông lượng mã thông báo: Ngăn xếp WEKA đạt khoảng 2 triệu mã thông báo mỗi giây, nhanh hơn 10 lần so với mức cơ bản dưới 200.000 mã thông báo/giây của các hệ thống chỉ có DRAM.
  • Tổng khối lượng xử lý mã thông báo: Trong thử nghiệm kéo dài một giờ với 2.400 người dùng đồng thời, WEKA đã xử lý 5 tỷ mã thông báo, trong khi thiết lập chỉ DRAM chỉ xử lý 700 triệu mã thông báo.
Đối với quy trình làm việc AI tác nhân, DRAM không đủ sẽ kích hoạt quá trình tính toán lại GPU liên tục sau khi bão hòa bộ nhớ đệm, tăng chi phí trên mỗi mã thông báo và giảm ROI. Với số lượng mã thông báo gấp 7 lần được xử lý trên mỗi GPU, WEKA cắt giảm đáng kể chi phí mã thông báo tổng thể cho các dịch vụ AI sản xuất.

Đối với các dịch vụ AI thời gian thực bao gồm tìm kiếm, tóm tắt, hỗ trợ mã và tác nhân đa lượt, thông lượng mã thông báo xác định giới hạn dịch vụ đối với năng lực người dùng, tốc độ phản hồi và tiềm năng doanh thu cơ sở hạ tầng. Cải thiện thông lượng gấp 10 lần sẽ giải phóng hoàn toàn sức mạnh tính toán GPU gốc trong cụm OCI.

Tóm lại, phần mềm mở rộng bộ nhớ của WEKA giúp nền tảng đám mây phục vụ nhiều người dùng hơn, xử lý nhiều token hơn và cắt giảm chi phí vận hành một cách hiệu quả.

Liran Zvibel, Giám đốc điều hành của WEKA, cho biết: "Hiệu suất suy luận bị tắc nghẽn do bộ nhớ hiệu quả GPU có sẵn. Những kết quả này chứng minh rằng chỉ nâng cấp phần cứng không thể khắc phục các vấn đề kinh tế về mã thông báo AI. Hạn chế thực sự là hiệu suất GPU hạn chế tường bộ nhớ lâu dài. Giải pháp của WEKA trên OCI tăng cường đáng kể khả năng xử lý mã thông báo với tổng chi phí sở hữu được tối ưu hóa."

OCI đã công bố đầy đủ phương pháp đánh giá, cấu hình hệ thống và kết quả kiểm tra đầy đủ trên blog Khoa học Dữ liệu & AI chính thức của mình.

NeuralMesh với Lưới bộ nhớ tăng cường hiện đã có sẵn rộng rãi cho khách hàng của WEKA và được liệt kê trên Oracle Marketplace, với OCI đóng vai trò là đối tác ra mắt đám mây độc quyền. Các doanh nghiệp chạy suy luận ngữ cảnh dài trên OCI có thể triển khai kiến ​​trúc đã được xác thực đầy đủ và sẵn sàng sản xuất này ngay lập tức.

Công ty TNHH Công nghệ Qianxing Jietong Bắc Kinh
Sandy Yang/Giám đốc chiến lược toàn cầu
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Trang web: www.qianxingdata.com/www.storagesserver.com
Trọng tâm kinh doanh:
Phân phối sản phẩm CNTT/Tích hợp hệ thống & Dịch vụ/Giải pháp cơ sở hạ tầng
Với hơn 20 năm kinh nghiệm phân phối CNTT, chúng tôi hợp tác với các thương hiệu hàng đầu thế giới để cung cấp các sản phẩm đáng tin cậy và dịch vụ chuyên nghiệp.
“Sử dụng công nghệ để xây dựng một thế giới thông minh”Nhà cung cấp dịch vụ sản phẩm CNTT đáng tin cậy của bạn!
Pub Thời gian : 2026-06-12 10:54:05 >> danh mục tin tức
Chi tiết liên lạc
Beijing Qianxing Jietong Technology Co., Ltd.

Người liên hệ: Ms. Sandy Yang

Tel: 13426366826

Gửi yêu cầu thông tin của bạn trực tiếp cho chúng tôi (0 / 3000)