Fine-tuning LLM 2025: Khi nào cần, chi phí và cách làm

Fine-tuning là quá trình "dạy lại" LLM để phù hợp với use case cụ thể của bạn.

KHI NÀO CẦN FINE-TUNING?

✅ NÊN fine-tune khi:

Cần output theo format cực kỳ cụ thể (JSON schema phức tạp)
Domain knowledge đặc thù (y tế, luật, tài chính)
Cần giảm latency (model nhỏ hơn, nhanh hơn)
Cần giảm chi phí (dùng model nhỏ thay vì GPT-4)

❌ KHÔNG cần fine-tune khi:

Prompt engineering đủ tốt
RAG giải quyết được vấn đề
Chỉ cần general knowledge

SO SÁNH CHI PHÍ

Model	Training Cost	Inference Cost
GPT-4 Fine-tune	$0.08/1K tokens	$0.12/1K tokens
GPT-3.5 Fine-tune	$0.008/1K tokens	$0.012/1K tokens
Llama 2 (Self-hosted)	GPU cost	Free

Ví dụ: Fine-tune GPT-3.5 với 10,000 examples = ~$80

QUY TRÌNH FINE-TUNING

1. Chuẩn bị data:

[
  {"messages": [
    {"role": "system", "content": "Bạn là chuyên gia tư vấn luật"},
    {"role": "user", "content": "Hợp đồng lao động có hiệu lực bao lâu?"},
    {"role": "assistant", "content": "Theo Bộ luật Lao động 2019..."}
  ]},
  ...
]

Số lượng: Tối thiểu 50 examples, tối ưu 500-1000.

2. Upload & Train:

import openai

# Upload file
file = openai.File.create(
  file=open("training_data.jsonl"),
  purpose='fine-tune'
)

# Start fine-tuning
openai.FineTuningJob.create(
  training_file=file.id,
  model="gpt-3.5-turbo"
)

Thời gian: 10 phút - 2 giờ (tùy data size).

3. Evaluate:

Test trên validation set
So sánh với base model
Đo accuracy, F1-score

FINE-TUNING LLAMA 2 (OPEN SOURCE)

Ưu điểm:

Miễn phí inference
Kiểm soát hoàn toàn
Privacy (data không rời server)

Nhược điểm:

Cần GPU mạnh (A100, H100)
Phức tạp hơn OpenAI

Tech stack:

Framework: Hugging Face Transformers, Axolotl
Technique: LoRA, QLoRA (giảm VRAM)
Hardware: RunPod, Lambda Labs (thuê GPU)

KẾT LUẬN

Fine-tuning không phải lúc nào cũng cần. Hãy thử Prompt Engineering + RAG trước!