Việc kiểm tra là điều cần thiết cho việc đào tạo mô hình AI, vì nó đảm bảo khả năng phục hồi, hiệu quả hoạt động và khả năng tiếp tục hoặc tinh chỉnh đào tạo từ các trạng thái được lưu.các yêu cầu của khối lượng công việc AI hiện đại, đặc trưng bởi các mô hình ngày càng phức tạp và bộ dữ liệu đào tạo mở rộng, đang đẩy các hệ thống lưu trữ đến giới hạn tuyệt đối của họ.
Vai trò của các điểm kiểm tra trong luồng công việc AI
Chế độ kiểm tra trong đào tạo AI là một quá trình quan trọng liên quan đến việc lưu toàn bộ trạng thái của mô hình theo thời gian trong chu kỳ đào tạo.trạng thái tối ưu hóaBằng cách tạo ra một bức ảnh toàn diện về quá trình đào tạo ở các khoảng thời gian cụ thể,điểm kiểm tra đảm bảo sự liên tục đào tạo và cho phép phục hồi trong trường hợp bị gián đoạn.
Các điểm kiểm tra thường được ghi lại ở các khoảng thời gian dựa trên lặp lại (ví dụ, mỗi ngàn bước đào tạo). Modern large language model (LLM) training— which can span weeks or even months and consume massive computational resources—relies heavily on these checkpoints as a safety net against potential failuresVí dụ, đào tạo mô hình lớp GPT-4 có thể tạo ra các điểm kiểm tra từ vài trăm gigabytes đến nhiều terabyte, tùy thuộc vào kích thước mô hình và cấu hình đào tạo.
Quá trình đào tạo được tạo ra bởi DALL-E
Mục đích chính của điểm kiểm tra vượt ra ngoài chức năng dự phòng đơn thuần. Nó phục vụ như một cơ chế quan trọng để đào tạo khả năng phục hồi,cho phép đào tạo tiếp tục từ trạng thái lưu cuối cùng thay vì khởi động lại từ đầu trong trường hợp hệ thống bị lỗiNgoài ra, các điểm kiểm tra rất có giá trị cho phân tích mô hình:Chúng cho phép các nhà nghiên cứu kiểm tra sự phát triển của mô hình ở các giai đoạn đào tạo khác nhau và có khả năng quay trở lại các trạng thái trước nếu phát hiện sự suy giảm hiệu suất.
Từ góc độ lưu trữ, các mẫu ghi trong khi kiểm tra điểm đặc biệt đáng chú ý. Khi một điểm kiểm tra được kích hoạt, hệ thống phải ghi một lượng lớn dữ liệu theo một kiểu bùng nổ.Điều này tạo ra một hồ sơ I / O riêng biệt: thời gian hoạt động lưu trữ tương đối thấp trong các tính toán đào tạo, tiếp theo là các hoạt động ghi dữ liệu cường độ cao, băng thông cao trong quá trình kiểm tra.Các hoạt động ghi này thường là thứ tự và có thể được hưởng lợi đáng kể từ các hệ thống lưu trữ được tối ưu hóa cho ghi thứ tự băng thông cao.
Các chiến lược song song khác nhau trong đào tạo phân tán có thể có tác động đáng kể đến hành vi kiểm tra.Các chiến lược này ảnh hưởng đến khi điểm kiểm tra xảy ra trong quá trình đào tạo và phần nào của mô hình được lưuTrong các thiết lập đào tạo phân tán hiện đại, nhiều GPU có thể đồng thời ghi các phần khác nhau của cùng một lớp, tạo ra các mẫu I / O phức tạp.Khả năng ghi song song này là chìa khóa cho hiệu quả nhưng đòi hỏi sự phối hợp cẩn thận và hệ thống lưu trữ mạnh mẽ có thể xử lý các hoạt động ghi đồng thời trong khi duy trì tính nhất quán dữ liệuBất kỳ nút thắt nào trong quá trình này có thể dẫn đến sự chậm trễ đào tạo rộng rãi.
Điểm kiểm tra chậm có thể tạo ra các nút thắt đào tạo đáng kể, vì toàn bộ quá trình đào tạo phải tạm dừng trong khi điểm kiểm tra được ghi vào lưu trữ.nếu kiểm tra mất 30 phút mỗi vài giờ, điều này có thể dẫn đến nhiều giờ tích lũy thời gian ngừng hoạt động trong suốt thời gian đào tạo.Điều này trực tiếp ảnh hưởng đến hiệu quả đào tạo và tăng chi phí hoạt động, đặc biệt là trong môi trường đám mây, nơi tài nguyên máy tính được tính theo giờ.
Việc kiểm tra nhanh hơn cũng cho phép các nhóm tạo các điểm kiểm tra thường xuyên hơn, giảm thiểu khả năng mất dữ liệu tối đa trong trường hợp thất bại.Điều này cho phép tiếp cận đào tạo mạnh mẽ hơn và cải thiện chu kỳ lặp lại thí nghiệmHơn nữa, thời gian tải điểm kiểm tra nhanh chóng tạo điều kiện cho việc thử nghiệm nhanh hơn với các cấu hình đào tạo và kiến trúc mô hình khác nhau,như các nhà nghiên cứu có thể dễ dàng phục hồi từ các trạng thái trước để kiểm tra các phương pháp tiếp cận thay thế.
Khả năng của hệ thống lưu trữ để xử lý hiệu quả các hoạt động tại các điểm kiểm soát trở thành một yếu tố cốt lõi trong cơ sở hạ tầng đào tạo tổng thể. High-performance storage solutions that can manage both the burst write patterns of checkpointing and the sustained read/write operations of training can significantly reduce the total time and cost of training large language modelsDo đó, the storage subsystem’s performance characteristics—particularly its ability to handle large sequential writes and maintain consistent high bandwidth—are crucial considerations when designing LLM training infrastructure.
Đối với báo cáo này, chúng tôi tìm cách đánh giá hiệu suất SSD cho điểm kiểm tra AI, đánh giá lợi ích của các ổ SSD Gen5 mới nhất khi tốc độ điểm kiểm tra là quan trọng,so với các ổ SSD QLC lớn nhất trên thị trường, có thể lưu trữ một số lượng lớn các điểm kiểm tra nếu điều đó có lợi hơn cho mô hình đang được đào tạo..
Hiệu suất điểm kiểm tra ¢ Kiểm tra so sánh với DLIO
Để đánh giá hiệu suất thực tế của SSD Solidigm trong môi trường đào tạo AI, chúng tôi đã sử dụng công cụ chuẩn Data and Learning Input/Output (DLIO).DLIO được thiết kế đặc biệt để kiểm tra các mẫu I / O trong khối lượng công việc học sâu, cung cấp thông tin chi tiết về cách các hệ thống lưu trữ xử lý các vấn đề kiểm tra, tiêu thụ dữ liệu và đào tạo mô hình.
Sử dụng DLIO, chúng tôi nhằm mục đích đo thông lượng, độ trễ và độ tin cậy của ổ đĩa trong các kịch bản kiểm tra chuyên sâu.Dữ liệu hiệu suất ban đầu chỉ ra rằng phiên bản Solidigm D5-P5336 122TB cung cấp một hồ sơ hiệu suất tương tựChúng tôi cũng bao gồm kết quả từ một D7-PS1010 dựa trên TLC để chứng minh những lợi thế của PCIe Gen5 trong thử nghiệm này. Chúng tôi đã chọn hai ổ đĩa này để giới thiệu cả hai quan điểm về các điểm kiểm tra:một tập trung vào thời gian điểm kiểm tra nhanh nhất có thể, và cái khác về lưu trữ số lượng điểm kiểm tra tối đa trên một SSD duy nhất.
Nền tảng được chọn cho công việc này là Dell PowerEdge R760 chạy Ubuntu 22.04.02 LTS. Chúng tôi đã sử dụng phiên bản chuẩn DLIO 2.0 từ phiên bản phát hành ngày 13 tháng 8 năm 2024.
- 2 x Intel Xeon Gold 6430 (32-Core, 2.1GHz)
- 16 x 64GB DDR5-4400
- SSD Dell BOSS 480GB
- Cáp hàng loạt Gen5 JBOF
- 7.68TB Solidigm D7-PS1010
- 61.44TB Solidigm D5-P5336
Để đảm bảo so sánh của chúng tôi phản ánh các kịch bản thế giới thực, chúng tôi đã dựa vào thử nghiệm của chúng tôi trên kiến trúc mô hình LLAMA 3.1 405B, thực hiện kiểm tra thông qua torch.save() để nắm bắt các tham số mô hình,trạng thái tối ưu hóa, và trạng thái lớp. thiết lập của chúng tôi mô phỏng một hệ thống 8-GPU, thực hiện một chiến lược song song lai lai lai với 4-way tensor song song và 2-way đường ống xử lý song song phân phối trên tám GPU.Cấu hình này dẫn đến kích thước điểm kiểm tra là 1.636 GB, đại diện cho các yêu cầu đào tạo mô hình ngôn ngữ lớn hiện đại.
Quá trình thử nghiệm của chúng tôi cho khối lượng công việc điểm kiểm tra DLIO bao gồm lấp đầy mỗi ổ đĩa đến mức sử dụng tương tự. Đối với Solidigm D5-P5336 61.44TB, mỗi lần vượt qua bao gồm 33 khoảng thời gian điểm kiểm tra,tổng cộng 54TB. Các nhỏ hơn 7,68TB D7-PS1010 thoải mái phù hợp với ba khoảng thời gian kiểm tra điểm, với một tổng số dấu chân của 4,9TB. Một điểm kiểm tra bổ sung có thể phù hợp trong D7-PS1010,mặc dù nó mang lại sử dụng của nó một chút cao hơn chúng tôi muốn.
DLIO checkpoint workload cho ra kết quả thú vị khi chúng tôi so sánh Gen4 QLC dựa trên 61.44TB D5-P5536 với Gen5 TLC dựa trên 7.68TB D7-PS1010.chúng tôi chứng kiến một khoảng cách lớn hơn trong hiệu suất giữa hai mô hình SSDChiếc xe PS1010 nhanh hơn Gen5 đã hoàn thành mỗi điểm kiểm tra trung bình trong 464 giây, so với 623 giây từ Gen4 P5336.khoảng cách thu hẹp xuống còn 579 và 587 giây cho PS1010 và 676 và 680 giây cho P5336.
Đối với các doanh nghiệp muốn có khoảng cách nhỏ nhất có thể trong khoảng thời gian kiểm tra, Gen5 PS1010 dựa trên TLC cung cấp một lợi thế trong thời gian hoàn thành nhanh nhất.Nếu mục tiêu là giữ lại nhiều điểm kiểm soát hiệu quả về chi phíChúng tôi đã đo lường sự khác biệt trong thời gian kiểm tra trung bình dưới 17% giữa cả hai ổ đĩa trong lần vượt qua hai và ba.
GPUDirect Storage Bandwidth
Trong khi DLIO hiển thị hiệu suất flash trong dòng công việc AI, khối lượng công việc hoàn toàn dựa trên ghi cho đến khi điểm kiểm tra được khôi phục.Để vẽ một bức tranh đầy đủ hơn về Solidigm D7-PS1010 và D5-P5336 trong khối lượng công việc AI, chúng tôi đã bao gồm các phép đo băng thông đọc bằng cách sử dụng GDSIO.
GPU Direct Storage hoạt động như thế nào
Theo truyền thống, khi GPU xử lý dữ liệu được lưu trữ trên ổ NVMe, dữ liệu phải đi qua CPU và bộ nhớ hệ thống trước khi đến GPU.khi CPU trở thành một người trung gianGPU Direct Storage loại bỏ sự không hiệu quả này bằng cách cho phép GPU truy cập dữ liệu trực tiếp từ thiết bị lưu trữ thông qua bus PCIe.Con đường trực tiếp này làm giảm chi phí chung liên quan đến di chuyển dữ liệu, cho phép chuyển dữ liệu nhanh hơn và hiệu quả hơn.
Các khối lượng công việc AI, đặc biệt là những người liên quan đến học tập sâu là rất dữ liệu thâm dụng.và bất kỳ sự chậm trễ trong chuyển dữ liệu có thể dẫn đến GPU chưa được sử dụng và thời gian đào tạo dài hơn. GPU Direct Storage giải quyết thách thức này bằng cách đảm bảo rằng dữ liệu được chuyển đến GPU càng nhanh càng tốt, giảm thiểu thời gian ngưng hoạt động và tối đa hóa hiệu quả tính toán.
Giống như thử nghiệm DLIO, mục tiêu là hiểu rõ hơn và mô tả sự khác biệt giữa ổ SSD tốc độ cao Gen5 và ổ đĩa QLC dung lượng cao.và mỗi ổ đĩa cung cấp lợi thế riêng biệt, tùy thuộc vào nhu cầu.
Kiểm tra Ma trận cấu hình
Chúng tôi đã kiểm tra hệ thống mọi sự kết hợp của các thông số sau đây với một NVIDIA L4 trong nền tảng thử nghiệm của chúng tôi:
- Kích thước khối: 1M, 128K, 64K, 16K, 8K
- Số dây: 128, 64, 32, 16, 8, 4, 1
- Số công việc: 16
- Kích thước lô: 16
Chúng tôi đã nhìn vào D5-P5336 dựa trên QLC, đạt tốc độ 4.2GiB/s sử dụng kích thước truyền 1M ở độ sâu IO 128.Di chuyển từ 8K lên 1MƯu điểm của độ sâu IO tăng bắt đầu giảm ở 32, nơi khối lượng công việc bắt đầu giảm xuống.
Tiếp theo, chúng ta nhìn vào Gen5 PS-1010, có thể mở rộng lên đến 6.2GiB / s ở kích thước khối 1M và độ sâu IO 128.với khối lượng công việc đặc biệt cho thấy nâng đáng kểMột lĩnh vực cải tiến đáng chú ý đến ở kích thước khối 128K, nơi ở độ sâu IO là 64 và 128, PS1010 cung cấp hai lần băng thông đọc của P5336.
Điều quan trọng cần lưu ý là cả hai SSD đã được thử nghiệm bằng NVIDIA L4. Trong khi Gen4 D5-P5336 ở hoặc gần đầu của nó,GPU NVIDIA mô hình cao hơn như H100 đã chứng minh hiệu suất cao hơn với D7-PS1010Tốc độ của một ổ là yếu tố quyết định cuối cùng cho một số khách hàng, trong khi những người khác ưu tiên mật độ tổng thể.Solidigmcung cấp các giải pháp chocả hai, vớiQLC và TLC SSD.
Kết luận
Khi quy mô và độ phức tạp của đào tạo AI tiếp tục tăng lên, cơ sở hạ tầng lưu trữ cơ bản không chỉ phải theo kịp mà còn thiết lập nhịp độ. Our tests with two distinctly different SSDs highlight the importance of aligning storage solutions with specific training priorities—whether that means minimizing checkpoint latency or maximizing checkpoint density for cost-effective scalability.
Trong đánh giá của chúng tôi, chúng tôi đã thử nghiệm Solidigm D5-P5336 (61.44TB) và D7-PS1010 (7.68TB) trong điều kiện đào tạo AI thực tế,Tận dụng điểm chuẩn DLIO và quy trình làm việc kiểm tra LLM song song laiChúng tôi đã ghi lại các số liệu phản ánh hiệu suất ghi điểm kiểm tra qua nhiều lần chạy thử nghiệm khi ổ đĩa được lấp đầy,nhấn mạnh sự khác biệt về hiệu suất trong thời gian hoàn thành giữa D5-P5336 dựa trên Gen4 QLC và D7-PS1010 dựa trên Gen5 TLC.

Trong khi D7-PS1010 cung cấp điểm kiểm tra nhanh nhất có thể, D5-P5336 đã chứng minh hiệu quả chi phí và lợi thế công suất hấp dẫn, chỉ với một sự đánh đổi hiệu suất khiêm tốn.Chúng tôi tiếp tục kiểm tra GPU Direct Storage (GDS) đọc băng thông sử dụng GDSIO với một GPU NVIDIA L4Các phát hiện của chúng tôi cho thấy Solidigm D5-P5336 cung cấp đến 4,2 GiB / s băng thông đọc với kích thước chuyển giao 1M, trong khi D7-PS1010 cung cấp một nâng đáng kể đến 6,2 GiB / s.Hiệu suất sẽ thậm chí còn ấn tượng hơn khi tận dụng một GPU mạnh hơn, chẳng hạn như NVIDIA L40s hoặc H100 / H200.
Nhìn về phía trước, công suất chưa từng có của Solidigm D5-P5336 122TB SSD sẵn sàng để định hình lại đào tạo và triển khai AI.Những ổ đĩa công suất cao này mở ra mức độ hiệu quả và linh hoạt mới, cho phép các chiến lược đào tạo trước đây là không thể đạt được. lãnh đạo Solidigm trong giải pháp SSD công suất cao cho phép các tổ chức lưu trữ nhiều dữ liệu và điểm kiểm tra trên ít ổ đĩa hơn,trong khi giúp bảo vệ cơ sở hạ tầng của họ chống lại làn sóng phức tạp AI tiếp theo.
Công ty công nghệ Bắc Kinh Qianxing Jietong Co., Ltd.
Sandy Yang - Giám đốc chiến lược toàn cầu
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Trang web: www.qianxingdata.com/www.storagesserver.com
Tập trung kinh doanh:
Phân phối sản phẩm ICT / tích hợp hệ thống & dịch vụ / giải pháp cơ sở hạ tầng
Với hơn 20 năm kinh nghiệm phân phối CNTT, chúng tôi hợp tác với các thương hiệu hàng đầu toàn cầu để cung cấp các sản phẩm đáng tin cậy và dịch vụ chuyên nghiệp.
Sử dụng công nghệ để xây dựng một thế giới thông minh Nhà cung cấp dịch vụ sản phẩm ICT đáng tin cậy của bạn!