Tại sao “học rút gọn” lại trở thành từ đáng sợ nhất đối với các công ty AI (trí tuệ nhân tạo)

Sự thành công của DeepSeek khi học hỏi từ các mô hình AI lớn hơn của Mỹ đặt ra câu hỏi về hàng tỷ đô la được chi cho công nghệ tiên tiến nhất có lãng phí không?

Các gã khổng lồ công nghệ đã chi hàng tỷ đô la với tiền đề rằng dữ liệu và mô hình lớn hơn là tốt hơn trong trí tuệ nhân tạo (TTNT). Bước đột phá của DeepSeek cho thấy mô hình nhỏ hơn (ít tốn kém hơn) cũng có thể tốt như mô hình lớn vậy. 

Việc một công ty Trung Quốc nhảy vọt lên hàng ngũ các nhà sản xuất AI hàng đầu đã làm dấy lên những cuộc thảo luận sôi nổi ở Thung lũng Silicon xung quanh một quy trình mà DeepSeek sử dụng được gọi là "học rút gọn ý chính" (distillation), trong đó một mô hình AI (TTNT) mới học hỏi từ các mô hình AI hiện có bằng cách đặt ra hàng trăm nghìn câu hỏi và phân tích các câu trả lời bằng "lý luận" (reasoning) và học tăng cường (reinforcement learning).

Các công ty AI (TTNT) hàng đầu như OpenAI và Anthropic về cơ bản tự học từ đầu với lượng dữ liệu thô (raw data) khổng lồ—một quá trình thường mất nhiều tháng và hàng chục triệu đô la hoặc hơn. Bằng cách sử dụng kết quả của công việc như vậy, "học rút gọn ý chính" (distillation) có thể tạo ra một mô hình gần như tốt trong vài tuần hoặc thậm chí vài ngày, với chi phí ít hơn đáng kể.