logo
Nhà Tin tức

tin tức công ty về Lightbits và ScaleFlux trình diễn tăng tốc KV Cache gấp 100 đến 280 lần

Chứng nhận
Trung Quốc Beijing Qianxing Jietong Technology Co., Ltd. Chứng chỉ
Trung Quốc Beijing Qianxing Jietong Technology Co., Ltd. Chứng chỉ
Khách hàng đánh giá
Các nhân viên kinh doanh của Beijing Qianxing Jietong Technology Co., Ltd rất chuyên nghiệp và kiên nhẫn. Họ có thể cung cấp báo giá một cách nhanh chóng. Chất lượng và bao bì của sản phẩm cũng rất tốt. Sự hợp tác của chúng tôi rất suôn sẻ.

—— 《Festfing DV》 LLC

Khi tôi đang tìm kiếm gấp CPU intel và SSD Toshiba, Sandy từ Beijing Qianxing Jietong Technology Co., Ltd đã giúp đỡ tôi rất nhiều và nhanh chóng nhận được sản phẩm tôi cần. Tôi thực sự đánh giá cao cô ấy.

—— Kitty Yen

Sandy của Beijing Qianxing Jietong Technology Co., Ltd là một nhân viên bán hàng rất cẩn thận, người có thể nhắc nhở tôi về lỗi cấu hình kịp thời khi tôi mua máy chủ. Các kỹ sư cũng rất chuyên nghiệp và có thể nhanh chóng hoàn thành quá trình thử nghiệm.

—— Strelkin Mikhail Vladimirovich

Chúng tôi rất hài lòng với trải nghiệm làm việc với Bắc Kinh Qianxing Jietong. Chất lượng sản phẩm tuyệt vời và giao hàng luôn đúng hẹn. Đội ngũ bán hàng của họ chuyên nghiệp, kiên nhẫn và rất hữu ích với tất cả các câu hỏi của chúng tôi. Chúng tôi thực sự đánh giá cao sự hỗ trợ của họ và mong muốn có một mối quan hệ đối tác lâu dài. Rất khuyến khích!

—— Ahmad Navid

Chất lượng: Kinh nghiệm tuyệt vời với nhà cung cấp của tôi. MikroTik RB3011 đã được sử dụng, nhưng nó ở trong tình trạng rất tốt và mọi thứ hoạt động hoàn hảo.và tất cả những lo ngại của tôi đã được giải quyết nhanh chóng- Nhà cung cấp rất đáng tin cậy.

—— Geran Colesio

Tôi trò chuyện trực tuyến bây giờ
Công ty Tin tức
Lightbits và ScaleFlux trình diễn tăng tốc KV Cache gấp 100 đến 280 lần
Lightbits Labs và ScaleFlux đã đạt được một100x đến 280x tăng hiệu suấtcho khối lượng công việc bộ nhớ cache KV bằng cách tận dụng phần mềm bộ nhớ cache LightInferra để đọc dữ liệu từ ổ SSD lưu trữ tính toán ScaleFlux.

Hai công ty đã cung cấp dữ liệu bộ nhớ cache KV cho GPU được triển khai trong môi trường trung tâm dữ liệu FarmGPU, và sẽ giới thiệu bước đột phá này tại hội nghị GTC sắp tới của Nvidia.Một bộ nhớ cache KV lưu trữ các vector token trong bộ nhớ băng thông cao của GPU (HBM)Một khi công suất HBM đã cạn kiệt, các khối dữ liệu KV cache phải được tính lại - một quá trình tốn thời gian và làm suy giảm tốc độ đào tạo và suy luận của AI.Sự chậm lại này trở nên đặc biệt rõ rệt khi khối lượng công việc AI tăng lên, dẫn đến sự gia tăng mạnh trong số lượng token được sử dụng để tạo ra vector.

Phần mềm bộ nhớ cache KV hợp lý mở rộng lớp bộ nhớ cache ra bên ngoài: đầu tiên đến CPU x86 và DRAM của nó trên máy chủ GPU, sau đó đến các ổ NVMe cục bộ trong cùng một hệ thống x86, và tiếp tục đến các ổ SSD NVMe bên ngoài.Sự mở rộng bậc này loại bỏ nhu cầu tính toán lại các vector tokenTrong khi các SSD NVMe tự nhiên có độ trễ truy cập cao hơn so với HBM hoặc DRAM, việc lấy các vector token được tính toán trước nhanh hơn nhiều so với việc tính toán lại hàng chục ngàn của chúng từ đầu.Lightbits và ScaleFlux tuyên bố giải pháp của họ tăng tốc đáng kể truy xuất dữ liệu KV cache từ SSD.

Arthur Rasmusson, Giám đốc Kiến trúc AI tại Lightbits Labs, đã tuyên bố: "Chúng tôi đang chuyển đổi bộ nhớ suy luận từ bộ nhớ cache phản ứng thành một lớp dữ liệu thông minh, được truyền.

Làm thế nào?


Bằng cách lấy trước chỉ dữ liệu quan trọng và cung cấp nó cho GPU qua RDMA tốc độ cao trước khi nó cần thiết, chúng tôi loại bỏ các gian hàng mà truyền thống hạn chế hiệu suất ngữ cảnh dài.Kết quả là Time-to-First-Token (TTFT) thấp hơn, thông lượng ổn định hơn dưới tải thực tế và sử dụng GPU hiệu quả cao hơn đáng kể.

Keith McKay, Giám đốc cấp cao về kiến trúc giải pháp và quan hệ đối tác kỹ thuật tại ScaleFlux, nhận xét:Những gì chúng tôi đang hiển thị tại GTC là một cái nhìn ban đầu về cách đặt dữ liệu thông minh hơn và quản lý trạng thái chú ý liên tục có thể giúp các hệ thống suy luận luôn đáp ứng khi các cửa sổ ngữ cảnh phát triểnĐây là một sự hợp tác mà chúng tôi muốn hình thành cùng với các nhà khai thác thực sự.

Cả Lightbits và ScaleFlux đều nhằm mục đích khuyến khích các nhà khai thác đám mây và cơ sở hạ tầng áp dụng phần mềm và SSD của họ, loại bỏ thời gian không hoạt động GPU tốn kém.

Hãy xem xét đầu tiên đóng góp của ScaleFlux, sau đó chuyển sang lớp phần mềm Lightbits phức tạp hơn.

ScaleFlux cung cấp các ổ SSD NVMe và ổ đĩa lưu trữ tính toán (CSD) được trang bị công nghệ giảm ghi dựa trên phần cứng (WRT).Được hỗ trợ bởi nén tăng tốc phần cứng và quản lý siêu dữ liệu dựa trên SoC, các ổ đĩa này cung cấp dung lượng logic cao gấp bốn lần so với lưu trữ vật lý, trong khi vẫn hoàn toàn minh bạch cho các hệ thống chủ.Công ty là thành viên của Open Flash Platform (OFP), đang làm việc để xác định lại cơ sở hạ tầng dữ liệu AI với mật độ, độ trễ thấp,hệ thống tiết kiệm năng lượng ️ cung cấp mật độ gấp 10 lần lưu trữ AI dựa trên tệp thông thường và chỉ một phần mười mức tiêu thụ năng lượng.

Xây dựng trên các ổ đĩa lưu trữ này, Lightbits thêm việc lấy trước thông minh dữ liệu KV Cachetrước đâyGPU yêu cầu nó, ngăn chặn sự cố do không đủ dung lượng KV hoặc tính toán lại vector token tốn kém.Phần mềm LightInferra của nó sử dụng các thuật toán lưu trữ bộ nhớ cache tối ưu hóa KV Cache để kéo dữ liệu cần thiết vào bộ nhớ GPU ở tốc độ RDMA trước nhu cầu thực tế.

Một lần nữa, làm thế nào?


Phần mềm chạy trên máy chủ x86 được nhúng trong máy chủ GPU và theo dõi các mô hình truy cập các khối dữ liệu KV Cache.nó vận hành một động cơ Sub-Linear Sparse Attention Prefetch (SLSAP) để xác định các khối KV có khả năng cần thiết nhất tiếp theo.

Động cơ này kết hợp phân tích phân tích nhạy với vị trí (LSH) với mô hình tái sử dụng thống kê - phân tích vị trí truy cập lịch sử trong tính toán chú ý - để đánh giá và ưu tiên các khối KV.sau đó chọn những người có khả năng cao nhất được yêu cầu bởi GPU.

Quá trình lựa chọn này tận dụng sự khan hiếm vốn có trong truy cập dữ liệu GPU: hầu hết các token chỉ liên quan đáng kể đến một tập con nhỏ của các token trước đó.giải pháp làm giảm đáng kể khối lượng các vector token phải được streamed trở lại GPU.

Một thuật toán thứ hai tập trung vào các mô hình tái sử dụng: các token gần đây, các token tương tự về ngữ nghĩa,và các mô hình cấu trúc phổ biến trong RAG hoặc kịch bản trò chuyện nhiều lần được sử dụng lại thường xuyên và ưu tiên phù hợp.

LightInferra lấy các khối token này đầu tiên từ DRAM của máy chủ x86, hoặc từ ổ SSD ScaleFlux bên ngoài nếu cần thiết, sau đó tải chúng vào HBM của GPU thông qua các liên kết RDMA.

Lightbits đã so sánh cách tiếp cận này với việc tính toán lại nội dung được lưu trữ từ đầu bằng cách sử dụng khối lượng công việc mô hình ngôn ngữ lớn, đo lường cải tiến Time-to-First-Token (TTFT).Các số liệu gia tốc 100x đến 280x được báo cáo được bắt nguồn trực tiếp từ kết quả thử nghiệm này.

tin tức mới nhất của công ty về Lightbits và ScaleFlux trình diễn tăng tốc KV Cache gấp 100 đến 280 lần  0

Tất nhiên, chúng tôi sẽ thích nhìn thấy kết quả so sánh điểm chuẩn Lightbits-ScaleFlux KV Cache tăng tốc

Chương trình với KV Cache gia tốc từ DDN, Hammerspace, VAST Dữ liệu, WEKA và những người khác, nhưng họ

không có sẵn.


Có các biểu đồ cho thấy làm thế nào LightInferra-ScaleFlux cải thiện dần dần về tái tạo bộ nhớ cache TTFT

khi kích thước mô hình tăng lên.


tin tức mới nhất của công ty về Lightbits và ScaleFlux trình diễn tăng tốc KV Cache gấp 100 đến 280 lần  1


Tất cả các dữ liệu so sánh liên quan được trình bày trong biểu đồ theo quy mô log, được thiết kế chủ yếu cho các chuyên gia khoa học máy tính, nhưng ngôn ngữ đơn giản làm cho tác động thực tế dễ hiểu hơn nhiều:Kết quả là hiệu suất Time-to-First-Token (TTFT) bền vững khi quy mô bối cảnh từ 100k token đến 1 triệu và hơn.
Như Jonmichael Hands của FarmGPU nói, khi một cuộc trò chuyện 400k token tiếp tục và hệ thống phải tái tạo toàn bộ bộ KV từ đầu,có nghĩa là hai phút chạy GPU với không token được tạo ra. LightInferra thay đổi mô hình kinh tế hoàn toàn - cùng một khối lượng công việc tạo ra token đầu tiên của nó trong vòng chưa đầy nửa giây, biến một lớp sản phẩm không khả thi thành một lớp có lợi nhuận.

Lightbits và ScaleFlux đã thiết kế giải pháp chung này đặc biệt cho các trang trại GPU neocloud thế hệ tiếp theo, nơi các pods GPU lớn chạy hàng trăm hoặc thậm chí hàng ngàn khối lượng công việc mô hình AI đồng thời.Gần như tất cả các khối lượng công việc này sẽ đạt đến giới hạn dung lượng bộ nhớ KV trong bộ nhớ băng thông cao (HBM) của GPU.

Trong các thiết lập truyền thống, các nhóm phải đối mặt với hai lựa chọn tốn kém: từ từ lấy các vector token từ bộ lưu trữ bên ngoài chung,hoặc quá trình tốn nhiều thời gian hơn để tính toán lại các vector từ đầu mà cả hai đều khiến GPU không hoạt động hàng giờ liềnSự kết hợp LightInferra và ScaleFlux loại bỏ hoàn toàn điểm đau của ngành công nghiệp.

Giám đốc điều hành của FarmGPU Jonmichael Hands nói thêm: "Sự lưu trữ mạng nhanh từ Lightbits mở ra vô số trường hợp sử dụng mới cho suy luận ngữ cảnh dài.Bằng cách ghép nối dịch vụ quản lý của chúng tôi với lưu trữ hiệu suất cao Lightbits chạy trên ổ đĩa ScaleFlux NVMe, chúng ta có thể cắt giảm thời gian đầu tiên và tăng sử dụng GPU, giảm đáng kể tổng chi phí sở hữu (TCO) cho khối lượng công việc suy luận.

Công ty công nghệ Bắc Kinh Qianxing Jietong Co., Ltd.
Sandy Yang - Giám đốc chiến lược toàn cầu
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Trang web:www.qianxingdata.com/www.storagesserver.com

Tập trung kinh doanh:
Phân phối sản phẩm ICT / tích hợp hệ thống & dịch vụ / giải pháp cơ sở hạ tầng
Với hơn 20 năm kinh nghiệm phân phối CNTT, chúng tôi hợp tác với các thương hiệu hàng đầu toàn cầu để cung cấp các sản phẩm đáng tin cậy và dịch vụ chuyên nghiệp.
Sử dụng công nghệ để xây dựng một thế giới thông minh Nhà cung cấp dịch vụ sản phẩm ICT đáng tin cậy của bạn!
Pub Thời gian : 2026-03-18 11:34:46 >> danh mục tin tức
Chi tiết liên lạc
Beijing Qianxing Jietong Technology Co., Ltd.

Người liên hệ: Ms. Sandy Yang

Tel: 13426366826

Gửi yêu cầu thông tin của bạn trực tiếp cho chúng tôi (0 / 3000)