Nara AI · อัปเดต

บันทึกการพัฒนา

เส้นทางของ Nara AI — จากวันแรกจนถึงปัจจุบัน และแผนในอนาคต

ประวัติ

เวอร์ชันที่ผ่านมา

การพัฒนา Nara AI — จากโปรเจกต์เริ่มต้นถึงวันนี้

v0.3.0-dev มิถุนายน 2026 กำลังทำ

CPT 144M token กำลังฝึก

  • คลัง CPT 144M token (CulturaX + Pantip + หนังสือราชการ)
  • Tokenizer แยกภาษาไทยโดยเฉพาะ — ไม่ตัดคำผิดบริบท
  • Belebele Thai 0.635 — สูงกว่า Typhoon (0.390)
  • MMLU 0.680 — รักษาความรู้ทั่วไป
  • CEval 0.762 — รักษาความรู้ภาษาจีน
  • สถาปัตยกรรม LoRA หลายชั้น — เสียบเปลี่ยนได้โดยไม่ต้องฝึกใหม่
v0.2.0-dev พฤษภาคม 2026

Gemma 4 12B — ตั้งต้นและทดสอบ

  • เลือก Gemma 4 12B เป็นโมเดลพื้นฐาน
  • ทดสอบความสามารถ 3 ภาษา (ไทย-อังกฤษ-จีน) ก่อนเทรน
  • ออกแบบ tokenizer ภาษาไทย — ทดสอบ dictionary vs BPE vs SentencePiece
  • ออกแบบสถาปัตยกรรม LoRA หลายชั้น (CPT → SFT → Agent → Domain)
  • เริ่มเก็บคลังข้อมูล CPT — target 144M token
v0.1.0-dev เมษายน 2026

Project kickoff

  • เริ่มโครงการ Nara AI — ตั้งทีม ตั้ง repo
  • ศึกษาตลาด LLM ไทย: Typhoon, OpenThaiGPT, WangChanGLM
  • ตัดสินใจ: โอเพ่นซอร์ส Apache 2.0 — ไม่เอา research-only license
  • เลือกเกณฑ์ประเมิน: Belebele Thai, MMLU, CEval, Thai-MMLU
  • เริ่มทดสอบโมเดลพื้นฐานหลายตัว — Llama 3, Gemma 4, Qwen 2.5

แผนงาน วางแผน

กำลังจะมา

แผนการปล่อยเวอร์ชันในอนาคต — ทั้งหมดนี้อาจเปลี่ยนแปลงตามความคืบหน้า

v0.4.0 กรกฎาคม 2026
  • เสร็จ CPT — เผยแพร่น้ำหนักครั้งแรก
  • เริ่ม SFT — instruction tuning
  • Thai-MMLU benchmark พร้อมใช้งาน
v0.5.0 กันยายน 2026
  • เสร็จ SFT — เผยแพร่ Instruct Model
  • เริ่ม Agent Tuning
  • เปิด NaraEval-TH เต็มรูปแบบ (8 มิติ, 200 ข้อ, 双判官)
v1.0.0 ปลาย 2026
  • Instruct Model เสถียร
  • Domain LoRA ตัวแรก (กฎหมาย)
  • API blueprint → public beta
  • Documentation ครบถ้วน