Mixture-of-Experts (MoE) – Kiến trúc “chia việc” thông minh trong AI

 

Mixture-of-Experts, Mixture-of-Experts, AI

 

1. Nguồn gốc của ý tưởng MoE

 

Khái niệm MoE xuất hiện lần đầu năm 1991, qua công trình “Adaptive Mixtures of Local Experts” của Geoffrey Hinton, Robert Jacobs và Michael Jordan. Mục tiêu ban đầu tương tự ensemble learning: thay vì một mô hình “ôm đồm” mọi việc, hãy kết hợp nhiều mô hình nhỏ, mỗi mô hình xử lý một phần của vấn đề.

 

Mixture-of-Experts, Mixture-of-Experts, AI


Ý tưởng này là dạng “chia để trị”: bài toán lớn được tách thành nhiều bài toán con, giao cho đúng người giỏi nhất xử lý. Gating network đóng vai trò “người điều phối”, định tuyến dữ liệu tới đúng expert.

 

Tuy nhiên, trong gần 30 năm sau đó, MoE ít được ứng dụng rộng rãi do hạn chế về phần cứng, dữ liệu và hiệu quả so với các mô hình nơ-ron dense (tất cả tham số đều hoạt động cùng lúc). MoE chỉ thật sự trở lại khi TransformerLLM ra đời. Năm 2017, Google công bố “Outrageously Large Neural Networks”, cho thấy MoE có thể giúp mở rộng mô hình khổng lồ mà vẫn tối ưu tài nguyên.

 

2. Nguyên lý hoạt động

 

Một kiến trúc MoE gồm hai thành phần chính:

 

  • Các Expert – Nhiều mạng nơ-ron nhỏ, mỗi cái chuyên xử lý một nhóm dữ liệu hoặc nhiệm vụ riêng (ví dụ: expert về Python code, expert về viết văn).

 

  • Gating Network (Router) – Mạng nơ-ron nhỏ quyết định token đầu vào nên gửi tới expert nào.

 

Ưu điểm: Tổng số tham số của MoE có thể cực lớn, nhưng khi xử lý, chỉ một vài expert được kích hoạt, nên tốc độ tương đương mô hình nhỏ.

 

💡 Ví dụ thực tế:

 

Mixture-of-Experts, Mixture-of-Experts, AI


Dense model giống như họp toàn bộ ban giám đốc công ty để giải quyết mọi vấn đề, dù nhiều người chẳng liên quan.

 

MoE giống như có thư ký thông minh: vấn đề về tài chính sẽ chỉ mời Giám đốc Tài chính, vấn đề kỹ thuật sẽ chỉ mời Giám đốc Công nghệ.

 

3. MoE trong Transformer

 

Trong Transformer, MoE thường thay thế Feed-Forward Network (FFN) ở một số layer.
Ví dụ: Mixtral 8x7B – mỗi layer MoE có 8 experts, nhưng mỗi token chỉ được xử lý bởi 2 expert được chọn (top-k = 2).

 

4. Cơ chế bên trong một MoE Layer

 

Giả sử ta có vector đầu vào x:

 

Tính điểm (Scores)


Gating Network có ma trận trọng số Wg. Nhân x với Wg → thu được vector logits, mỗi phần tử tương ứng với một expert.

 

scores = x • Wg
 

Softmax


Biến scores thành xác suất chọn expert:

 

G(x) = Softmax(scores)
 

Top-k Routing


Chọn ra k experts có điểm cao nhất (ví dụ k=2).


Điều này cho phép kết hợp nhiều chuyên môn nếu câu hỏi phức tạp.

 

Kết hợp kết quả


Output cuối cùng = tổng đầu ra của các expert được chọn, nhân với trọng số từ G(x).

 

Output(x) = Σ (G(x)i * Ei(x))
 

Trong đó Ei(x) là kết quả expert i xử lý x.

 

5. Kết luận

 

MoE là giải pháp “chia việc” cực hiệu quả, giúp mô hình:

 

  • Mở rộng số tham số mà không tốn tài nguyên như dense model.

 

  • Tăng tốc độ xử lý.

 

  • Giữ khả năng chuyên môn hóa cao.

 

Ngày nay, nhiều LLM hiện đại như GPT, Mixtral, DeepSeek, Google Gemini đều áp dụng MoE để đạt hiệu năng vượt trội, vừa mạnh vừa tiết kiệm.

 HỖ TRỢ TRỰC TUYẾN