inf09_5cod
DESCRIPTION
Кодировка (Набор символов, character set, charset) - это определённая таблица кодирования конечного множества символов. Кодовая страница (code page) - это множество символов, кодировку которого можно выполнить с помощью 1 байта (0-255). - PowerPoint PPT PresentationTRANSCRIPT
Кодировка (Набор символов, character set, charset) - это определённая таблица кодирования конечного множества символов.
Кодовая страница (code page) - это множество символов, кодировку которого можно выполнить с помощью 1 байта (0-255).
Набор символов может включать как одну, так и несколько кодовых страниц.
Основная кодировка ASCII (American Standard Code for Information Interchange) - это 7-битная (128 символов) кодировка для представления латинского алфавита, десятичных цифр, некоторых специальных символов (знаков препинания, знаков арифметических операций и управляющих символов).
Основная кодировка ASCII занимает нижнюю половину кодовой страницы, а верхнюю половину кодовой страницы можно использовать для доопределения расширенной кодировки ASCII (8 бит, 256 символов)
Как правило, в верхнюю половину кодовой страницы включают символы национальных алфавитов, псевдографику и дополнительные часто используемые спецсимволы.
0 1 2 3 4 5 6 7 8 9 A B C D E F
0 NUL SOH STX ETX EOT ENQ ACK BEL BS HT LF VT FF CR SO SI
1 DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS GS RS US
2 SP ! " # $ % & ' ( ) * + , - . /
3 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4 @ A B C D E F G H I J K L M N O
5 P Q R S T U V W X Y Z [ \ ] ^ _
6 ` a b c d e f g h i j k l m n o
7 p q r s t u v w x y z { | } ~ DEL
Кодировка Windows-1251 (cp1251) является стандартной 8-битной кодировкой для всех русских версий Windows.
Первая часть таблицы кодировки (латиница) полностью соответствует кодировке ASCII.
Вторая часть приведена в таблице на следующем слайде (под символами указаны шестнадцатеричные коды Unicode):
0 1 2 3 4 5 6 7 8 9 A B C D E F
8Ђ0402
Ѓ0403
‚201A
ѓ0453
„201E
…2026
†2020
‡2021
€20AC
‰2030
Љ0409
‹2039
Њ040A
Ќ040C
Ћ040B
Џ040F
9ђ0452
‘2018
’2019
“201C
”201D
•2022
–2013
—2014
™2122
љ0459
›203A
њ045A
ќ045C
ћ045B
џ045F
A
00A0Ў040E
ў045E
Ј0408
¤00A4
Ґ0490
¦00A6
§00A7
Ё0401
©00A9
Є0404
«00AB
¬00AC
00AD
®00AE
Ї0407
B°
00B0±00B1
І0406
і0456
ґ0491
µ00B5
¶00B6
·00B7
ё0451
№2116
є0454
»00BB
ј0458
Ѕ0405
ѕ0455
ї0457
CА0410
Б0411
В0412
Г0413
Д0414
Е0415
Ж0416
З0417
И0418
Й0419
К041A
Л041B
М041C
Н041D
О041E
П041F
DР0420
С0421
Т0422
У0423
Ф0424
Х0425
Ц0426
Ч0427
Ш0428
Щ0429
Ъ042A
Ы042B
Ь042C
Э042D
Ю042E
Я042F
Eа0430
б0431
в0432
г0433
д0434
е0435
ж0436
з0437
и0438
й0439
к043A
л043B
м043C
н043D
о043E
п043F
Fр0440
с0441
т0442
у0443
ф0444
х0445
ц0446
ч0447
ш0448
щ0449
ъ044A
ы044B
ь044C
э044D
ю044E
я044F
Стандартом для русской кириллицы в UNIX-подобных операционных системах является кодировка КОИ-8 (код обмена информацией, 8 битов), или KOI8.
Существует несколько вариантов кодировки КОИ-8 для различных кириллических алфавитов. Русский алфавит описывается в кодировке KOI8-R, украинский — в KOI8-U, существуют также кодировки KOI8-RU (русско-белорусско-украинская), KOI8-T (таджикская) и т.д.
Разработчики КОИ-8 разместили символы русского алфавита таким образом, что если в тексте, написанном в КОИ-8, убирать восьмой бит каждого символа, то получается понятный текст, хотя он и написан латинскими символами.
На следующем слайде показана вторая часть кодировки KOI8-R (русская), под символами указаны шестнадцатеричные коды Unicode:
0 1 2 3 4 5 6 7 8 9 A B C D E F
8─2500
│2502
┌250C
┐2510
└2514
┘2518
├251C
┤2524
┬252C
┴2534
┼253C
▀2580
▄2584
█2588
▌258C
▐2590
9░2591
▒2592
▓2593
⌠2320
■25A0
∙2219
√221A
≈2248
≤2264
≥2265
00A0
⌡2321
°00B0
²00B2
·00B7
÷00F7
A═2550
║2551
╒2552
ё0451
╓2553
╔2554
╕2555
╖2556
╗2557
╘2558
╙2559
╚255A
╛255B
╜255C
╝255D
╞255E
B╟255F
╠2560
╡2561
Ё0401
╢2562
╣2563
╤2564
╥2565
╦2566
╧2567
╨2568
╩2569
╪256A
╫256B
╬256C
©00A9
Cю044E
а0430
б0431
ц0446
д0434
е0435
ф0444
г0433
х0445
и0438
й0439
к043A
л043B
м043C
н043D
о043E
Dп043F
я044F
р0440
с0441
т0442
у0443
ж0436
в0432
ь044C
ы044B
з0437
ш0448
э044D
щ0449
ч0447
ъ044A
CЮ042E
А0410
Б0411
Ц0426
Д0414
Е0415
Ф0424
Г0413
Х0425
И0418
Й0419
К041A
Л041B
М041C
Н041D
О041E
DП041F
Я042F
Р0420
С0421
Т0422
У0423
Ж0416
В0412
Ь042C
Ы042B
З0417
Ш0428
Э042D
Щ0429
Ч0427
Ъ042A
Юникод (Unicode) - это стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков.
Чаще всего для обозначения символов Unicode используется запись вида "U+xxxx" (для кодов 0...FFFF), где xxxх - шестнадцатеричные цифры.
Первая версия Юникода представляла собой кодировку с фиксированным размером символа в 16 бит, то есть общее число кодов было 216 (65536). Отсюда и происходит практика обозначения символов четырьмя шестнадцатеричными цифрами (например, U+0410).
Коды в стандарте Unicode разделены на несколько областей, например:
Область от U+0000 до U+007F содержит символы основного набора ASCII.
Область от U+0400 до U+052F содержит символы кириллицы, где символы до U+045F - это собственно кириллица, а далее располагаются исторические буквы и дополнительные буквы для разных языков, использующих кириллицу.