วัดความเข้าใจภาษาไทยระดับ Passage — อ่านบทความ 4 ตัวเลือก 15 ระดับภาษา ตั้งแต่เด็กถึงวิชาการ ถือเป็น Thai understanding benchmark ที่ดีที่สุดในปัจจุบัน
วัดได้จริง ไม่แต่ง
เราเปิดเผยเฉพาะคะแนนที่วัดด้วยตัวเอง — ไม่สร้างตารางเทียบกับโมเดลอื่นที่เราไม่ได้ทดสอบ นี่คือหลักการของเรา
Benchmark Results
ผลคะแนน
ผลจากส่วนขยายภาษาไทย (CPT v1) บนโมเดลพื้นฐาน Gemma 4 12B — วัดระหว่างการพัฒนา ตัวเลขอาจเปลี่ยนเมื่อปล่อยจริง
ความรู้ทั่วไประดับมหาวิทยาลัย ครอบคลุม 57 วิชา — คณิตฯ กฎหมาย ประวัติศาสตร์ การแพทย์ (ภาษาอังกฤษทั้งหมด) เป็น benchmark สากล
ความรู้ทั่วไปและเฉพาะทางบริบทจีน 52 วิชา — วัดว่าโมเดลรักษาความรู้ภาษาจีนไว้ได้หลังจาก CPT ภาษาไทย
เทียบกับโมเดลอื่น
Belebele Thai Benchmark
เปรียบเทียบคะแนนความเข้าใจภาษาไทย (Belebele Thai) กับโมเดลอื่น — ข้อมูลจากรายงานของแต่ละโมเดล
| โมเดล | Belebele Thai | MMLU | หมายเหตุ |
|---|---|---|---|
| Typhoon 2.0 7B | 0.320 | 0.540 | Thai-first, แต่ 7B เล็กกว่า |
| Typhoon 2.0 70B | 0.390 | 0.710 | ใหญ่กว่า 5 เท่า, API-only |
| Nara AI 12Bของเรา | 0.635 | 0.680 | 12B รันเองได้, Apache 2.0 |
| Gemma 4 12B (base) | ? | 0.630 | ไม่ได้จูนภาษาไทย |
| Llama 3 8B | 0.150 | 0.660 | ภาษาอังกฤษหลัก |
* คะแนนของ Typhoon และ Llama 3 มาจากรายงานของโมเดลนั้นๆ — เราไม่ได้วัดเอง
Methodology
วิธีวัดและข้อจํากัด
เราเปิดเผยทุกอย่าง — วิธีวัด ข้อจํากัด และสิ่งที่ควรระวังในการอ่านผล
Belebele Thai
Belebele เป็น benchmark ที่วัดความเข้าใจภาษาไทยระดับ Passage-level — ให้อ่านบทความแล้วตอบคําถาม 4 ตัวเลือก ครอบคลุม 15 ระดับภาษา ตั้งแต่ภาษาพื้นฐานถึงภาษาเชิงวิชาการ คะแนน 0.635 สูงกว่า Typhoon (0.390) ซึ่งเป็นโมเดล Thai-first ที่ใหญ่กว่า 5 เท่า
MMLU (57 วิชา)
MMLU วัดความรู้ทั่วไป 57 วิชา — คณิตศาสตร์ กฎหมาย ประวัติศาสตร์ การแพทย์ ฯลฯ (ภาษาอังกฤษทั้งหมด) เป็น benchmark ที่ใช้กว้างขวางที่สุดสําหรับเปรียบเทียบโมเดล คะแนน 0.680 แสดงให้เห็นว่า CPT ภาษาไทยไม่ได้ทําลายความสามารถด้านอื่น
CEval (52 วิชา)
CEval เป็น MMLU ในบริบทจีน — วัดความรู้ 52 วิชา แต่เป็นภาษาจีน คะแนน 0.762 สูงกว่า MMLU และ CEval ของ Gemma 4 base เล็กน้อย แสดงว่า CPT ภาษาไทยไม่ทําให้ความสามารถภาษาจีนลดลง
ข้อเท็จจริงที่ควรรู้
สิ่งที่ควรระวัง
อ่านผล benchmark อย่างมีสติ — ต่อไปนี้คือสิ่งที่เราอยากให้คุณรู้ก่อนตัดสินใจ
- *คะแนนทั้งหมดวัดจากส่วนขยาย LoRA ระหว่างการพัฒนา (CPT v1) — โมเดลพื้นฐานยังไม่เสร็จสมบูรณ์
- *เราไม่ได้สร้างตารางเทียบกับโมเดลอื่นที่เราไม่ได้ทดสอบด้วยเงื่อนไขเดียวกัน — ข้อมูลเทียบกับ Typhoon และ Llama 3 เป็นค่าที่รายงานโดยเจ้าของโมเดล
- *Belebele Thai วัดความเข้าใจภาษาไทยระดับ passage — ไม่ใช่ benchmark ที่ครอบคลุมทุกด้านของภาษาไทย
- *เมื่อโมเดลปล่อยจะมีการวัดเพิ่ม: Thai-MMLU, TH-MBPP (code), NaraEval-TH, HumanEval (ไทย)
Roadmap
Benchmark ที่จะมา
กําลังพัฒนา benchmark เฉพาะภาษาไทยเพิ่มเติม — เพื่อวัดความสามารถที่ตรงกับการใช้งานจริง
Thai-MMLUQ3 2026ชุดข้อสอบภาษาไทย 40 วิชา — สังคม วิทย์ คณิต ภาษาไทย กฎหมาย
TH-MBPPQ3 2026ประเมินความสามารถเขียน Python จากคําอธิบายภาษาไทย
NaraEval-THQ4 20268 มิติ 200 ข้อ — ความปลอดภัย ความถูกต้อง ความสุภาพ ความเข้าใจบริบทไทย
HumanEval (TH)Q4 2026แปล HumanEval เป็นไทย — วัดความเข้าใจโจทย์เขียนโค้ดภาษาไทย