Unicode

Unicode in PHP

วันนี้มีปัญหากับ Twiki เพราะมันตัด string ภาษาไทยเหลือนิดเดียว ในขณะที่ภาษาอังกฤษล้วนได้ยาวกว่าโข

ปัญหานี้เกิดกับโปรแกรมที่ใช้รหัสอักขระแบบ Unicode ซึ่งรวม SMS ในมือถือด้วย

การเข้ารหัสตัวอักษรแบบ UTF-8 นั้นจะให้ตัวละติน 128 ตัวแรกตาม ASCII ใช้แค่ 1 byte (โดยให้เหตุผลว่าเป็นตัวที่ใช้บ่อย) ส่วนที่เหลือจะใช้ 3 byte (Basic Multilingual Plane ภาษาไทยอยู่ในหมวดนี้) และตัวอักษรพิสดาร เช่น ตัวจีนแบบที่ไม่ค่อยมีคนใช้ (Supplementary Multilingual Plane) จะนับ 4 byte (อ่าน: UTF-8, Mapping of Unicode characters)

Subscribe to RSS - Unicode