Một bài phân tích vì sao DeepSeek của Trung Quốc lại đang gây chấn động:
Thấy hay hay nên share thôi 😃
1. Trước tiên, một chút bối cảnh: Hiện nay, việc huấn luyện các mô hình AI hàng đầu CỰC KỲ tốn kém. OpenAI, Anthropic, v.v. chi hơn 100 triệu USD chỉ để tính toán. Họ cần các trung tâm dữ liệu khổng lồ với hàng ngàn GPU trị giá 40.000 USD mỗi chiếc. Giống như cần cả một nhà máy điện để vận hành một nhà máy sản xuất.
2. DeepSeek xuất hiện và nói: "LOL, nếu chúng tôi làm việc này với 5 triệu USD thì sao?" Và họ không chỉ nói - họ thực sự đã LÀM được. Các mô hình của họ sánh ngang hoặc vượt qua GPT-4 và Claude trong nhiều nhiệm vụ. Thế giới AI đang (như các bạn trẻ nói) "sốc toàn tập".
3. Làm thế nào? Họ đã suy nghĩ lại mọi thứ từ đầu. AI truyền thống giống như viết mọi con số với 32 chữ số thập phân. DeepSeek thì nói: "nếu chỉ dùng 8 chữ số thì sao? Vẫn đủ chính xác đấy!" Boom - giảm 75% bộ nhớ cần thiết.
4. Tiếp đó là hệ thống "đa token" của họ. AI thông thường đọc như học sinh lớp một: "Con... mèo... ngồi..." DeepSeek đọc cả cụm từ cùng lúc. Nhanh gấp đôi, chính xác 90%. Khi bạn xử lý hàng tỷ từ, điều này rất QUAN TRỌNG.
5. Nhưng đây mới là phần thông minh nhất: Họ xây dựng một "hệ thống chuyên gia". Thay vì một AI khổng lồ cố gắng biết mọi thứ (giống như bắt một người vừa làm bác sĩ, luật sư, vừa làm kỹ sư), họ có các chuyên gia chuyên biệt chỉ hoạt động khi cần.
6. Các mô hình truyền thống? Tất cả 1,8 nghìn tỷ tham số luôn hoạt động. DeepSeek? Tổng cộng 671 tỷ, nhưng chỉ 37 tỷ hoạt động cùng lúc. Giống như có một đội lớn nhưng chỉ gọi đúng chuyên gia cần thiết cho từng nhiệm vụ.
7. Kết quả rất đáng kinh ngạc:
Chi phí huấn luyện: 100 triệu USD → 5 triệu USD
GPU cần thiết: 100.000 → 2.000
Chi phí API: giảm 95%
Có thể chạy trên GPU chơi game thay vì phần cứng trung tâm dữ liệu
8. "Nhưng đợi đã," bạn có thể nói, "chắc phải có điều gì đó không ổn!" Điều bất ngờ là - tất cả đều mã nguồn mở. Bất kỳ ai cũng có thể kiểm tra. Mã nguồn được công khai. Các bài báo kỹ thuật giải thích tất cả. Không phải phép thuật, chỉ là kỹ thuật cực kỳ thông minh.
9. Tại sao điều này quan trọng? Vì nó phá vỡ mô hình "chỉ các công ty công nghệ lớn mới chơi được AI." Bạn không còn cần một trung tâm dữ liệu trị giá hàng tỷ USD nữa. Chỉ cần một vài GPU tốt là đủ.
10. Với Nvidia, điều này thật đáng sợ. Toàn bộ mô hình kinh doanh của họ dựa vào việc bán GPU siêu đắt với biên lợi nhuận 90%. Nếu mọi người đột nhiên có thể làm AI với GPU chơi game thông thường... bạn hiểu vấn đề rồi đấy.
11. Và đây là điểm thú vị: DeepSeek đã làm điều này với đội ngũ dưới 200 người. Trong khi đó, Meta có những đội ngũ với chi phí trả lương thôi cũng vượt ngân sách huấn luyện toàn bộ của DeepSeek... mà các mô hình của họ vẫn không tốt bằng.
12. Đây là câu chuyện kinh điển về sự phá vỡ: Các công ty lâu đời tối ưu hóa quy trình hiện có, còn các công ty phá vỡ suy nghĩ lại cách tiếp cận từ gốc. DeepSeek hỏi: "Nếu chúng ta làm thông minh hơn thay vì ném thêm phần cứng vào thì sao?"
13. Ý nghĩa rất lớn:
Phát triển AI trở nên dễ tiếp cận hơn
Cạnh tranh tăng lên đáng kể
"Hào" bảo vệ của các công ty lớn trông giống như những vũng nước nhỏ
Yêu cầu phần cứng (và chi phí) giảm mạnh
14. Tất nhiên, những gã khổng lồ như OpenAI và Anthropic sẽ không đứng yên. Họ có lẽ đã bắt đầu áp dụng những đổi mới này. Nhưng "thần đèn" hiệu quả đã ra khỏi chai - không còn đường quay lại cách tiếp cận "ném thêm GPU" nữa.
15. Suy nghĩ cuối cùng: Đây có vẻ là một trong những khoảnh khắc mà chúng ta sẽ nhìn lại như một điểm ngoặt. Giống như khi máy tính cá nhân làm máy chủ chính trở nên kém quan trọng, hoặc khi điện toán đám mây thay đổi mọi thứ.
AI sắp trở nên dễ tiếp cận hơn nhiều và rẻ hơn rất nhiều. Câu hỏi không phải là liệu điều này có làm xáo trộn các bên hiện tại hay không, mà là nhanh đến mức nào.
Source: Morgan Brown.