ผลการทดสอบ · คะแนนจริง

วัดได้จริง ไม่แต่ง

เราเปิดเผยเฉพาะคะแนนที่วัดด้วยตัวเอง — ไม่สร้างตารางเทียบกับโมเดลอื่นที่เราไม่ได้ทดสอบ นี่คือหลักการของเรา

Benchmark Results

ผลคะแนน

ผลจากส่วนขยายภาษาไทย (CPT v1) บนโมเดลพื้นฐาน Gemma 4 12B — วัดระหว่างการพัฒนา ตัวเลขอาจเปลี่ยนเมื่อปล่อยจริง

Belebele Thai
Thai reading comprehension
Main
0.635
สูงกว่า Typhoon (0.390)

วัดความเข้าใจภาษาไทยระดับ Passage — อ่านบทความ 4 ตัวเลือก 15 ระดับภาษา ตั้งแต่เด็กถึงวิชาการ ถือเป็น Thai understanding benchmark ที่ดีที่สุดในปัจจุบัน

MMLU
General knowledge (English)
0.680
57 วิชา

ความรู้ทั่วไประดับมหาวิทยาลัย ครอบคลุม 57 วิชา — คณิตฯ กฎหมาย ประวัติศาสตร์ การแพทย์ (ภาษาอังกฤษทั้งหมด) เป็น benchmark สากล

CEval
Chinese evaluation
0.762
52 วิชา

ความรู้ทั่วไปและเฉพาะทางบริบทจีน 52 วิชา — วัดว่าโมเดลรักษาความรู้ภาษาจีนไว้ได้หลังจาก CPT ภาษาไทย

เทียบกับโมเดลอื่น

Belebele Thai Benchmark

เปรียบเทียบคะแนนความเข้าใจภาษาไทย (Belebele Thai) กับโมเดลอื่น — ข้อมูลจากรายงานของแต่ละโมเดล

โมเดลBelebele ThaiMMLUหมายเหตุ
Typhoon 2.0 7B 0.320 0.540 Thai-first, แต่ 7B เล็กกว่า
Typhoon 2.0 70B 0.390 0.710 ใหญ่กว่า 5 เท่า, API-only
Nara AI 12Bของเรา 0.635 0.680 12B รันเองได้, Apache 2.0
Gemma 4 12B (base) ? 0.630 ไม่ได้จูนภาษาไทย
Llama 3 8B 0.150 0.660 ภาษาอังกฤษหลัก

* คะแนนของ Typhoon และ Llama 3 มาจากรายงานของโมเดลนั้นๆ — เราไม่ได้วัดเอง

Methodology

วิธีวัดและข้อจํากัด

เราเปิดเผยทุกอย่าง — วิธีวัด ข้อจํากัด และสิ่งที่ควรระวังในการอ่านผล

Belebele Thai

Belebele เป็น benchmark ที่วัดความเข้าใจภาษาไทยระดับ Passage-level — ให้อ่านบทความแล้วตอบคําถาม 4 ตัวเลือก ครอบคลุม 15 ระดับภาษา ตั้งแต่ภาษาพื้นฐานถึงภาษาเชิงวิชาการ คะแนน 0.635 สูงกว่า Typhoon (0.390) ซึ่งเป็นโมเดล Thai-first ที่ใหญ่กว่า 5 เท่า

MMLU (57 วิชา)

MMLU วัดความรู้ทั่วไป 57 วิชา — คณิตศาสตร์ กฎหมาย ประวัติศาสตร์ การแพทย์ ฯลฯ (ภาษาอังกฤษทั้งหมด) เป็น benchmark ที่ใช้กว้างขวางที่สุดสําหรับเปรียบเทียบโมเดล คะแนน 0.680 แสดงให้เห็นว่า CPT ภาษาไทยไม่ได้ทําลายความสามารถด้านอื่น

CEval (52 วิชา)

CEval เป็น MMLU ในบริบทจีน — วัดความรู้ 52 วิชา แต่เป็นภาษาจีน คะแนน 0.762 สูงกว่า MMLU และ CEval ของ Gemma 4 base เล็กน้อย แสดงว่า CPT ภาษาไทยไม่ทําให้ความสามารถภาษาจีนลดลง

ข้อเท็จจริงที่ควรรู้

สิ่งที่ควรระวัง

อ่านผล benchmark อย่างมีสติ — ต่อไปนี้คือสิ่งที่เราอยากให้คุณรู้ก่อนตัดสินใจ

  • *คะแนนทั้งหมดวัดจากส่วนขยาย LoRA ระหว่างการพัฒนา (CPT v1) — โมเดลพื้นฐานยังไม่เสร็จสมบูรณ์
  • *เราไม่ได้สร้างตารางเทียบกับโมเดลอื่นที่เราไม่ได้ทดสอบด้วยเงื่อนไขเดียวกัน — ข้อมูลเทียบกับ Typhoon และ Llama 3 เป็นค่าที่รายงานโดยเจ้าของโมเดล
  • *Belebele Thai วัดความเข้าใจภาษาไทยระดับ passage — ไม่ใช่ benchmark ที่ครอบคลุมทุกด้านของภาษาไทย
  • *เมื่อโมเดลปล่อยจะมีการวัดเพิ่ม: Thai-MMLU, TH-MBPP (code), NaraEval-TH, HumanEval (ไทย)

Roadmap

Benchmark ที่จะมา

กําลังพัฒนา benchmark เฉพาะภาษาไทยเพิ่มเติม — เพื่อวัดความสามารถที่ตรงกับการใช้งานจริง

Thai-MMLUQ3 2026

ชุดข้อสอบภาษาไทย 40 วิชา — สังคม วิทย์ คณิต ภาษาไทย กฎหมาย

TH-MBPPQ3 2026

ประเมินความสามารถเขียน Python จากคําอธิบายภาษาไทย

NaraEval-THQ4 2026

8 มิติ 200 ข้อ — ความปลอดภัย ความถูกต้อง ความสุภาพ ความเข้าใจบริบทไทย

HumanEval (TH)Q4 2026

แปล HumanEval เป็นไทย — วัดความเข้าใจโจทย์เขียนโค้ดภาษาไทย