bush hid the facts - amit a karakterkódolások tartogatnak ellened (lightning talk)
TRANSCRIPT
Bush hid the facts(amit a karakterkódolások tartogatnak ellened)
Rendszerek Bitek Darabok Jaj?
ASCII 7 bit 128 db egyértelmű
DOS 8 bit 256 dbmindenféle
kódlap
Windows 8-n bit 256-n dbmég több kódlap /o\
ANSI
Mit akarunk egy jó
• Egységes
• Minden benne legyen
• Tényleg minden!
• Ne foglaljon emiatt túl sok helyet azért
A Unicode-ot szeretjük
• 1,114,112 kódpont (0x0-0x10FFFF)
• Egy karakter fix helyen
• Van még hely, sok
• Folyamatosan fejlődik
• És hát ez sok helyet foglalna, de...
UTF-8
• Változó méretek
UTF-8
UTF-16
BOM• Megmondja nekünk
• UTF-16nál az endiannesst
• UTF-8nál azt, hogy ez UTF-8
Kódolás Hex ANSI
UTF-8 EF BB BF 
UTF-16LE FE FF þÿ
UTF-16BE FF FE ÿþ
Bush hid the facts
Mire figyeljünk?
• Szövegfájloknál UTF-8
• <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
• Ha programozunk, Unicode stringeket/függvényeket használunk
• Figyelünk a BOM-ra illetve annak
Dolgok amikről nem
• UTF-7
• UTF-32
• Punycode
• ...
☃ Kádár Tamáshttp://blog.ktamas.com/[email protected]
Az előadás nem jöhetett volna létre Pándi Veronika segítsége nélkül.