Nara AI · อัปเดต

บันทึกการพัฒนา

เส้นทางของ Nara AI — จากวันแรกจนถึงปัจจุบัน และแผนในอนาคต

ประวัติ

เวอร์ชันที่ผ่านมา

การพัฒนา Nara AI — จากโปรเจกต์เริ่มต้นถึงวันนี้

v0.3.0-dev มิถุนายน 2026 กำลังทำ

CPT 144M token กำลังฝึก

คลัง CPT 144M token (CulturaX + Pantip + หนังสือราชการ)
Tokenizer แยกภาษาไทยโดยเฉพาะ — ไม่ตัดคำผิดบริบท
Belebele Thai 0.635 — สูงกว่า Typhoon (0.390)
MMLU 0.680 — รักษาความรู้ทั่วไป
CEval 0.762 — รักษาความรู้ภาษาจีน
สถาปัตยกรรม LoRA หลายชั้น — เสียบเปลี่ยนได้โดยไม่ต้องฝึกใหม่

✓

v0.2.0-dev พฤษภาคม 2026

Gemma 4 12B — ตั้งต้นและทดสอบ

เลือก Gemma 4 12B เป็นโมเดลพื้นฐาน
ทดสอบความสามารถ 3 ภาษา (ไทย-อังกฤษ-จีน) ก่อนเทรน
ออกแบบ tokenizer ภาษาไทย — ทดสอบ dictionary vs BPE vs SentencePiece
ออกแบบสถาปัตยกรรม LoRA หลายชั้น (CPT → SFT → Agent → Domain)
เริ่มเก็บคลังข้อมูล CPT — target 144M token

✓

v0.1.0-dev เมษายน 2026

Project kickoff

เริ่มโครงการ Nara AI — ตั้งทีม ตั้ง repo
ศึกษาตลาด LLM ไทย: Typhoon, OpenThaiGPT, WangChanGLM
ตัดสินใจ: โอเพ่นซอร์ส Apache 2.0 — ไม่เอา research-only license
เลือกเกณฑ์ประเมิน: Belebele Thai, MMLU, CEval, Thai-MMLU
เริ่มทดสอบโมเดลพื้นฐานหลายตัว — Llama 3, Gemma 4, Qwen 2.5

แผนงาน วางแผน

กำลังจะมา

แผนการปล่อยเวอร์ชันในอนาคต — ทั้งหมดนี้อาจเปลี่ยนแปลงตามความคืบหน้า

v0.4.0 กรกฎาคม 2026

เสร็จ CPT — เผยแพร่น้ำหนักครั้งแรก
เริ่ม SFT — instruction tuning
Thai-MMLU benchmark พร้อมใช้งาน

v0.5.0 กันยายน 2026

เสร็จ SFT — เผยแพร่ Instruct Model
เริ่ม Agent Tuning
เปิด NaraEval-TH เต็มรูปแบบ (8 มิติ, 200 ข้อ, 双判官)

v1.0.0 ปลาย 2026

Instruct Model เสถียร
Domain LoRA ตัวแรก (กฎหมาย)
API blueprint → public beta
Documentation ครบถ้วน