Các thuật ngữ quan trọng trong LLM mà lập trình viên cần nắm

Tin tức công nghệ 13-8-2025

Bài viết này sẽ giúp bạn dễ dàng làm quen với những thuật ngữ then chốt khi làm việc với LLM.

LLM, Developer, tin tức công nghệ

1. Parameter (Tham số)

Khi nghe nói đến model có kích thước 70B, điều này có nghĩa là mô hình đó chứa 70 tỷ tham số.

Tham số là các trọng số và độ lệch mà mạng nơ-ron học được trong quá trình huấn luyện. Số lượng tham số càng lớn thì mô hình càng có khả năng xử lý và nhận diện các mẫu dữ liệu phức tạp, tức là mô hình càng "thông minh". Ví dụ, Grok-1 với 314 tỷ tham số là một minh chứng cho mô hình có cấu trúc rất phức tạp.

Hiệu suất và chi phí: Mô hình càng lớn thường cho kết quả chính xác và đa dạng hơn nhưng cũng đòi hỏi phần cứng mạnh mẽ hơn và chi phí vận hành cao hơn.

Self-hosting hay API: Các model khoảng 7B tham số có thể chạy trên một GPU mạnh để tự triển khai, còn những model lớn trên 70B thường cần dùng dịch vụ cloud hoặc API vì yêu cầu phần cứng rất lớn.

Lựa chọn mô hình lớn hay nhỏ là sự cân bằng giữa chất lượng, tốc độ, chi phí và mức độ kiểm soát.

2. Token

Token là đơn vị nhỏ nhất mà LLM dùng để xử lý văn bản. Trước khi mô hình làm việc, toàn bộ đầu vào sẽ được chia nhỏ thành các token.

Thông thường, 1 token tương đương khoảng 0.75 từ hoặc 4 ký tự trong tiếng Anh.

Tuy nhiên, quá trình tách token phức tạp hơn nhiều. Một từ có thể là một token hoặc bị tách thành nhiều token, ví dụ "Tokenization" thành ["Token", "ization"]. Các dấu câu, khoảng trắng, ký tự đặc biệt cũng tính là token riêng.

Một số model như Google Gemini còn tối ưu bằng cách loại bỏ những ký tự xuống dòng không cần thiết trong file code, giúp tiết kiệm token nhưng đôi khi gây lệch so với file gốc khi bạn áp dụng diff.

LLM, Developer, tin tức công nghệ

3. Context Window (Độ dài ngữ cảnh)

Context Window là tổng số token tối đa mà mô hình có thể ghi nhớ trong một lần xử lý, bao gồm cả câu hỏi và câu trả lời.

Ví dụ: GPT-3.5 giới hạn 4096 token, GPT-4 Turbo có thể lên đến 128k token.

Trong các công cụ lập trình AI như Cursor, context window chính là phạm vi hiểu biết của AI tại một thời điểm, quyết định nó có thể “nhìn” được bao nhiêu phần code và lịch sử cuộc trò chuyện để đưa ra câu trả lời chính xác.

Khi bạn làm việc trên tính năng phức tạp, ví dụ refactor hàm xử lý thanh toán, AI sẽ cần “biết” nội dung nhiều file code và lịch sử chat để trả lời đúng. Tổng token của tất cả phần này không được vượt quá giới hạn context window.

4. Temperature (Nhiệt độ)

Temperature là tham số điều chỉnh mức độ ngẫu nhiên trong câu trả lời của mô hình, thường nằm trong khoảng từ 0 đến 2.

Khi temperature thấp (ví dụ 0.1), mô hình ưu tiên chọn từ có xác suất cao nhất, kết quả an toàn, lặp lại và ít sáng tạo.

Khi temperature cao (ví dụ 1.5), mô hình có xu hướng chọn cả những từ ít phổ biến hơn, khiến câu trả lời đa dạng, sáng tạo nhưng đôi khi thiếu chính xác hoặc khó đoán.
Temperature không thay đổi kiến thức của mô hình mà chỉ điều chỉnh cách chọn từ dựa trên xác suất.

5. Hallucination (Ảo giác trong AI)

Hallucination xảy ra khi LLM tạo ra thông tin sai lệch, không có thật hoặc không liên quan, nhưng lại trình bày rất thuyết phục.

Nguyên nhân là vì mô hình dự đoán token tiếp theo dựa trên dữ liệu đã học chứ không tra cứu thông tin thực tế.

Khi thiếu dữ liệu chính xác, model sẽ tự “bù đắp” bằng các câu trả lời hợp lý về mặt ngôn ngữ nhưng sai sự thật.

Để giảm Hallucination, bạn có thể:

Cung cấp ngữ cảnh (Grounding) bằng kỹ thuật Retrieval-Augmented Generation (RAG) để mô hình tham khảo tài liệu cụ thể.

Thiết kế prompt kỹ càng, ví dụ thêm câu “Nếu không chắc chắn, hãy nói không biết.”

Giảm temperature xuống thấp để tăng độ chính xác.

6. Kết luận

để sử dụng LLM hiệu quả, bạn cần thiết kế prompt hợp lý theo số token trong giới hạn context window, điều chỉnh temperature phù hợp để cân bằng độ sáng tạo và chính xác, đồng thời tận dụng các kỹ thuật như RAG để giảm thiểu sai sót do hallucination. Tất cả nhằm khai thác sức mạnh của hàng tỷ tham số trong mô hình một cách tối ưu.