Bài viết này sẽ giúp bạn dễ dàng làm quen với những thuật ngữ then chốt khi làm việc với LLM.

1. Parameter (Tham số)
Khi nghe nói đến model có kích thước 70B, điều này có nghĩa là mô hình đó chứa 70 tỷ tham số.
-
Tham số là các trọng số và độ lệch mà mạng nơ-ron học được trong quá trình huấn luyện. Số lượng tham số càng lớn thì mô hình càng có khả năng xử lý và nhận diện các mẫu dữ liệu phức tạp, tức là mô hình càng "thông minh". Ví dụ, Grok-1 với 314 tỷ tham số là một minh chứng cho mô hình có cấu trúc rất phức tạp.
2. Token
Token là đơn vị nhỏ nhất mà LLM dùng để xử lý văn bản. Trước khi mô hình làm việc, toàn bộ đầu vào sẽ được chia nhỏ thành các token.
-
Tuy nhiên, quá trình tách token phức tạp hơn nhiều. Một từ có thể là một token hoặc bị tách thành nhiều token, ví dụ "Tokenization" thành ["Token", "ization"]. Các dấu câu, khoảng trắng, ký tự đặc biệt cũng tính là token riêng.

3. Context Window (Độ dài ngữ cảnh)
Context Window là tổng số token tối đa mà mô hình có thể ghi nhớ trong một lần xử lý, bao gồm cả câu hỏi và câu trả lời.
Ví dụ: GPT-3.5 giới hạn 4096 token, GPT-4 Turbo có thể lên đến 128k token.
Trong các công cụ lập trình AI như Cursor, context window chính là phạm vi hiểu biết của AI tại một thời điểm, quyết định nó có thể “nhìn” được bao nhiêu phần code và lịch sử cuộc trò chuyện để đưa ra câu trả lời chính xác.
Khi bạn làm việc trên tính năng phức tạp, ví dụ refactor hàm xử lý thanh toán, AI sẽ cần “biết” nội dung nhiều file code và lịch sử chat để trả lời đúng. Tổng token của tất cả phần này không được vượt quá giới hạn context window.
4. Temperature (Nhiệt độ)
Temperature là tham số điều chỉnh mức độ ngẫu nhiên trong câu trả lời của mô hình, thường nằm trong khoảng từ 0 đến 2.
-
Khi temperature thấp (ví dụ 0.1), mô hình ưu tiên chọn từ có xác suất cao nhất, kết quả an toàn, lặp lại và ít sáng tạo.
-
Khi temperature cao (ví dụ 1.5), mô hình có xu hướng chọn cả những từ ít phổ biến hơn, khiến câu trả lời đa dạng, sáng tạo nhưng đôi khi thiếu chính xác hoặc khó đoán.
Temperature không thay đổi kiến thức của mô hình mà chỉ điều chỉnh cách chọn từ dựa trên xác suất.
5. Hallucination (Ảo giác trong AI)
Hallucination xảy ra khi LLM tạo ra thông tin sai lệch, không có thật hoặc không liên quan, nhưng lại trình bày rất thuyết phục.
Nguyên nhân là vì mô hình dự đoán token tiếp theo dựa trên dữ liệu đã học chứ không tra cứu thông tin thực tế.
Khi thiếu dữ liệu chính xác, model sẽ tự “bù đắp” bằng các câu trả lời hợp lý về mặt ngôn ngữ nhưng sai sự thật.
Để giảm Hallucination, bạn có thể:
6. Kết luận
để sử dụng LLM hiệu quả, bạn cần thiết kế prompt hợp lý theo số token trong giới hạn context window, điều chỉnh temperature phù hợp để cân bằng độ sáng tạo và chính xác, đồng thời tận dụng các kỹ thuật như RAG để giảm thiểu sai sót do hallucination. Tất cả nhằm khai thác sức mạnh của hàng tỷ tham số trong mô hình một cách tối ưu.