Mixture-of-Experts (MoE) – Kiến trúc “chia việc” thông minh trong AI

Tin tức công nghệ 14-8-2025

Mixture-of-Experts, Mixture-of-Experts, AI

1. Nguồn gốc của ý tưởng MoE

Khái niệm MoE xuất hiện lần đầu năm 1991, qua công trình “Adaptive Mixtures of Local Experts” của Geoffrey Hinton, Robert Jacobs và Michael Jordan. Mục tiêu ban đầu tương tự ensemble learning: thay vì một mô hình “ôm đồm” mọi việc, hãy kết hợp nhiều mô hình nhỏ, mỗi mô hình xử lý một phần của vấn đề.

Mixture-of-Experts, Mixture-of-Experts, AI

Ý tưởng này là dạng “chia để trị”: bài toán lớn được tách thành nhiều bài toán con, giao cho đúng người giỏi nhất xử lý. Gating network đóng vai trò “người điều phối”, định tuyến dữ liệu tới đúng expert.

Tuy nhiên, trong gần 30 năm sau đó, MoE ít được ứng dụng rộng rãi do hạn chế về phần cứng, dữ liệu và hiệu quả so với các mô hình nơ-ron dense (tất cả tham số đều hoạt động cùng lúc). MoE chỉ thật sự trở lại khi Transformer và LLM ra đời. Năm 2017, Google công bố “Outrageously Large Neural Networks”, cho thấy MoE có thể giúp mở rộng mô hình khổng lồ mà vẫn tối ưu tài nguyên.

2. Nguyên lý hoạt động

Một kiến trúc MoE gồm hai thành phần chính:

Các Expert – Nhiều mạng nơ-ron nhỏ, mỗi cái chuyên xử lý một nhóm dữ liệu hoặc nhiệm vụ riêng (ví dụ: expert về Python code, expert về viết văn).

Gating Network (Router) – Mạng nơ-ron nhỏ quyết định token đầu vào nên gửi tới expert nào.

Ưu điểm: Tổng số tham số của MoE có thể cực lớn, nhưng khi xử lý, chỉ một vài expert được kích hoạt, nên tốc độ tương đương mô hình nhỏ.

💡 Ví dụ thực tế:

Mixture-of-Experts, Mixture-of-Experts, AI

Dense model giống như họp toàn bộ ban giám đốc công ty để giải quyết mọi vấn đề, dù nhiều người chẳng liên quan.

MoE giống như có thư ký thông minh: vấn đề về tài chính sẽ chỉ mời Giám đốc Tài chính, vấn đề kỹ thuật sẽ chỉ mời Giám đốc Công nghệ.

3. MoE trong Transformer

Trong Transformer, MoE thường thay thế Feed-Forward Network (FFN) ở một số layer.
Ví dụ: Mixtral 8x7B – mỗi layer MoE có 8 experts, nhưng mỗi token chỉ được xử lý bởi 2 expert được chọn (top-k = 2).