Kiến thức chuyên đề

Bài #9: Fine-tuning, instruction tuning, RLHF/RLAIF là gì?

02/07/2026
4 lượt xem

Bài #9: Fine-tuning, instruction tuning, RLHF/RLAIF là gì?

Ở các bài trước, ta đã đi từ AI, machine learning, NLP, LLM, prompt, hallucination, embedding đến RAG. Bài này trả lời một câu hỏi rất hay gặp: nếu đã có một mô hình LLM mạnh, làm sao để nó trả lời đúng kiểu mình muốn hơn? Có phải cứ muốn mô hình biết thêm điều gì thì đem đi fine-tuning không?

Câu trả lời ngắn là: không phải lúc nào cũng fine-tuning. Prompt và RAG dẫn dắt mô hình ở thời điểm hỏi. Fine-tuning thay đổi hành vi bằng dữ liệu huấn luyện bổ sung. Instruction tuning giúp mô hình quen làm theo yêu cầu. RLHF và RLAIF dùng phản hồi để ưu tiên câu trả lời hữu ích, an toàn và đúng ý hơn.

Sơ đồ tự tạo: fine-tuning, instruction tuning, RLHF và RLAIF đều là cách điều chỉnh mô hình sau giai đoạn tiền huấn luyện, nhưng mỗi cách giải quyết một vấn đề khác nhau.

Mục tiêu bài học

Sau bài này, bạn cần phân biệt fine-tuning, instruction tuning, RLHF và RLAIF; hiểu khi nào nên nghĩ đến fine-tuning, khi nào chỉ cần prompt hoặc RAG; và biết những hiểu nhầm thường gặp khi nói “huấn luyện lại AI”.

Khái niệm chính

Fine-tuning là huấn luyện thêm một mô hình đã có bằng bộ dữ liệu nhỏ hơn, thường dành cho một nhiệm vụ hoặc phong cách cụ thể. Mô hình không học từ con số không; nó đã có nền tảng ngôn ngữ từ giai đoạn tiền huấn luyện, rồi được điều chỉnh để trả lời nhất quán hơn trong một phạm vi hẹp.

Instruction tuning là dạng điều chỉnh giúp mô hình quen làm theo chỉ dẫn. Dữ liệu có thể gồm các cặp “yêu cầu - câu trả lời mong muốn”, ví dụ “Tóm tắt đoạn văn này thành 3 ý”, “Giải thích bài toán theo từng bước”, hoặc “Trả về kết quả dưới dạng JSON”. Nhờ đó, mô hình học cách phản hồi theo yêu cầu của người dùng.

RLHF là viết tắt của Reinforcement Learning from Human Feedback, tức học tăng cường từ phản hồi của con người. Thay vì chỉ đưa một đáp án mẫu, người đánh giá có thể so sánh nhiều câu trả lời và chọn câu nào hữu ích, rõ ràng, an toàn hơn. Hệ thống dùng tín hiệu ưu tiên đó để điều chỉnh mô hình.

RLAIF là Reinforcement Learning from AI Feedback, tức dùng phản hồi do AI hỗ trợ để đánh giá hoặc xếp hạng câu trả lời. Cách này có thể mở rộng nhanh hơn, nhưng vẫn cần tiêu chí tốt và kiểm soát chất lượng để tránh khuếch đại lỗi đánh giá.

Giải thích chi tiết bằng ví dụ đời thường

Hãy tưởng tượng một học sinh đã biết viết văn khá tốt. Nếu giáo viên đưa đề bài cụ thể và dặn “viết ngắn, dùng ba luận điểm, không lan man”, đó giống prompt. Nếu giáo viên đưa thêm tài liệu tham khảo ngay trước khi viết, đó giống RAG. Còn nếu giáo viên cho em luyện hàng trăm bài theo đúng mẫu của kỳ thi, đó gần với fine-tuning.

Instruction tuning giống việc dạy học sinh đọc đề và làm đúng yêu cầu: đề bảo tóm tắt thì không phân tích dài, đề bảo liệt kê thì không viết thành đoạn rối. RLHF giống việc giáo viên so sánh nhiều bài trả lời, chọn bài rõ hơn, lịch sự hơn, ít sai hơn, rồi dùng lựa chọn đó để hướng học sinh viết tốt dần.

Ví dụ kỹ thuật đơn giản

Giả sử một trung tâm học tập muốn AI trả lời theo giọng thân thiện, mỗi câu gồm ba phần: giải thích ngắn, ví dụ, và bài tập nhỏ. Nếu chỉ có vài quy tắc, ta có thể viết prompt hệ thống thật rõ. Nếu cần dựa trên tài liệu khóa học cập nhật liên tục, ta nên dùng RAG để tìm đúng tài liệu rồi đưa vào context.

Fine-tuning chỉ nên cân nhắc khi yêu cầu lặp lại nhiều lần và prompt không đủ ổn định. Ví dụ, trung tâm có hàng nghìn cặp câu hỏi - câu trả lời đã biên tập kỹ, cùng cấu trúc và tiêu chuẩn chất lượng. Khi đó, fine-tuning có thể giúp mô hình quen với định dạng riêng. Nếu dữ liệu ít, lẫn lỗi, hoặc mục tiêu chưa rõ, kết quả có thể tệ hơn.

Fine-tuning khác RAG như thế nào?

Đây là điểm rất dễ nhầm. RAG đưa tài liệu vào lúc trả lời; fine-tuning điều chỉnh mô hình trước khi trả lời. Nếu bạn muốn AI biết chính sách học phí vừa đổi hôm qua, RAG thường phù hợp hơn vì chỉ cần cập nhật tài liệu. Nếu bạn muốn AI luôn trả lời theo một mẫu biên tập riêng, fine-tuning có thể đáng xem xét.

Nói ngắn gọn: RAG phù hợp với tri thức thay đổi và cần nguồn tham khảo; fine-tuning phù hợp với hành vi, phong cách, định dạng hoặc kỹ năng lặp lại. Hai cách có thể kết hợp: fine-tuning để giữ giọng trả lời ổn định, RAG để lấy dữ kiện mới nhất từ kho tài liệu.

Lỗi hiểu nhầm thường gặp

Hiểu nhầm 1: Fine-tuning là cách tốt nhất để thêm kiến thức mới. Không hẳn. Nếu kiến thức thay đổi thường xuyên, fine-tuning liên tục vừa tốn công vừa khó kiểm soát. RAG thường dễ cập nhật, dễ kiểm tra nguồn và dễ sửa lỗi hơn.

Hiểu nhầm 2: Cứ có nhiều dữ liệu là fine-tuning sẽ tốt. Dữ liệu nhiều nhưng bẩn, mâu thuẫn hoặc sai định dạng có thể làm mô hình học thói quen xấu. Chất lượng dữ liệu quan trọng hơn việc gom thật nhiều ví dụ.

Hiểu nhầm 3: RLHF nghĩa là con người viết mọi câu trả lời. Không đúng. Con người thường đưa tín hiệu đánh giá, chẳng hạn chọn câu trả lời tốt hơn trong hai câu. Tín hiệu đó giúp hệ thống học về ưu tiên, chứ không đơn giản là chép đáp án mẫu.

Hiểu nhầm 4: RLAIF tự động là khách quan. AI có thể hỗ trợ đánh giá nhanh, nhưng tiêu chí đánh giá vẫn do con người thiết kế và kiểm tra. Nếu tiêu chí lệch, kết quả đánh giá cũng lệch.

Bài tập nhỏ

Hãy chọn một ứng dụng AI bạn muốn xây, ví dụ trợ lý học tiếng Anh, hỏi đáp nội quy lớp, hoặc bot chăm sóc khách hàng. Viết ra ba nhu cầu: nhu cầu nào chỉ cần prompt, nhu cầu nào cần RAG, nhu cầu nào có thể cần fine-tuning. Sau đó tự hỏi: dữ liệu mẫu đã đủ tốt chưa, dữ liệu có đổi thường xuyên không, và mình cần mô hình biết thêm sự thật mới hay trả lời theo hành vi ổn định?

Ghi nhớ

Fine-tuning là huấn luyện thêm mô hình để điều chỉnh hành vi, phong cách hoặc kỹ năng trong một phạm vi cụ thể. Instruction tuning giúp mô hình làm theo yêu cầu tốt hơn. RLHF dùng phản hồi của con người để ưu tiên câu trả lời hữu ích và an toàn hơn; RLAIF dùng phản hồi do AI hỗ trợ nhưng vẫn cần kiểm soát. Khi xây ứng dụng LLM, đừng vội fine-tuning mọi thứ. Hãy bắt đầu từ prompt rõ ràng, thêm RAG nếu cần kiến thức riêng hoặc cập nhật, rồi chỉ fine-tuning khi có dữ liệu tốt và mục tiêu lặp lại đủ rõ.

Bài #9: Fine-tuning, instruction tuning, RLHF/RLAIF là gì?

Bài #9: Fine-tuning, instruction tuning, RLHF/RLAIF là gì?

Mục tiêu bài học

Khái niệm chính

Giải thích chi tiết bằng ví dụ đời thường

Ví dụ kỹ thuật đơn giản

Fine-tuning khác RAG như thế nào?

Lỗi hiểu nhầm thường gặp

Bài tập nhỏ

Ghi nhớ

Xem lại series AI & LLM

Làm bài trắc nghiệm để tăng kỹ năng mỗi ngày