inf09_5cod

8
Кодировка (Набор символов, character set, charset) - это определённая таблица кодирования конечного множества символов. Кодовая страница (code page) - это множество символов, кодировку которого можно выполнить с помощью 1 байта (0-255). Набор символов может включать как одну, так и несколько кодовых страниц.

Upload: virote

Post on 04-Jan-2016

31 views

Category:

Documents


1 download

DESCRIPTION

Кодировка (Набор символов, character set, charset) - это определённая таблица кодирования конечного множества символов. Кодовая страница (code page) - это множество символов, кодировку которого можно выполнить с помощью 1 байта (0-255). - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: inf09_5cod

Кодировка (Набор символов, character set, charset) - это определённая таблица кодирования конечного множества символов.

Кодовая страница (code page) - это множество символов, кодировку которого можно выполнить с помощью 1 байта (0-255).

Набор символов может включать как одну, так и несколько кодовых страниц.

Page 2: inf09_5cod

Основная кодировка ASCII (American Standard Code for Information Interchange) - это 7-битная (128 символов) кодировка для представления латинского алфавита, десятичных цифр, некоторых специальных символов (знаков препинания, знаков арифметических операций и управляющих символов).

Основная кодировка ASCII занимает нижнюю половину кодовой страницы, а верхнюю половину кодовой страницы можно использовать для доопределения расширенной кодировки ASCII (8 бит, 256 символов)

Как правило, в верхнюю половину кодовой страницы включают символы национальных алфавитов, псевдографику и дополнительные часто используемые спецсимволы.

Page 3: inf09_5cod

0 1 2 3 4 5 6 7 8 9 A B C D E F

0 NUL SOH STX ETX EOT ENQ ACK BEL BS HT LF VT FF CR SO SI

1 DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS GS RS US

2 SP ! " # $ % & ' ( ) * + , - . /

3 0 1 2 3 4 5 6 7 8 9 : ; < = > ?

4 @ A B C D E F G H I J K L M N O

5 P Q R S T U V W X Y Z [ \ ] ^ _

6 ` a b c d e f g h i j k l m n o

7 p q r s t u v w x y z { | } ~ DEL

Page 4: inf09_5cod

Кодировка Windows-1251 (cp1251) является стандартной 8-битной кодировкой для всех русских версий Windows.

Первая часть таблицы кодировки (латиница) полностью соответствует кодировке ASCII.

Вторая часть приведена в таблице на следующем слайде (под символами указаны шестнадцатеричные коды Unicode):

Page 5: inf09_5cod

0 1 2 3 4 5 6 7 8 9 A B C D E F

8Ђ0402

Ѓ0403

‚201A

ѓ0453

„201E

…2026

†2020

‡2021

€20AC

‰2030

Љ0409

‹2039

Њ040A

Ќ040C

Ћ040B

Џ040F

9ђ0452

‘2018

’2019

“201C

”201D

•2022

–2013

—2014

™2122

љ0459

›203A

њ045A

ќ045C

ћ045B

џ045F

00A0Ў040E

ў045E

Ј0408

¤00A4

Ґ0490

¦00A6

§00A7

Ё0401

©00A9

Є0404

«00AB

¬00AC

­00AD

®00AE

Ї0407

00B0±00B1

І0406

і0456

ґ0491

µ00B5

¶00B6

·00B7

ё0451

№2116

є0454

»00BB

ј0458

Ѕ0405

ѕ0455

ї0457

CА0410

Б0411

В0412

Г0413

Д0414

Е0415

Ж0416

З0417

И0418

Й0419

К041A

Л041B

М041C

Н041D

О041E

П041F

DР0420

С0421

Т0422

У0423

Ф0424

Х0425

Ц0426

Ч0427

Ш0428

Щ0429

Ъ042A

Ы042B

Ь042C

Э042D

Ю042E

Я042F

Eа0430

б0431

в0432

г0433

д0434

е0435

ж0436

з0437

и0438

й0439

к043A

л043B

м043C

н043D

о043E

п043F

Fр0440

с0441

т0442

у0443

ф0444

х0445

ц0446

ч0447

ш0448

щ0449

ъ044A

ы044B

ь044C

э044D

ю044E

я044F

Page 6: inf09_5cod

Стандартом для русской кириллицы в UNIX-подобных операционных системах является кодировка КОИ-8 (код обмена информацией, 8 битов), или KOI8.

Существует несколько вариантов кодировки КОИ-8 для различных кириллических алфавитов. Русский алфавит описывается в кодировке KOI8-R, украинский — в KOI8-U, существуют также кодировки KOI8-RU (русско-белорусско-украинская), KOI8-T (таджикская) и т.д.

Разработчики КОИ-8 разместили символы русского алфавита таким образом, что если в тексте, написанном в КОИ-8, убирать восьмой бит каждого символа, то получается понятный текст, хотя он и написан латинскими символами.

На следующем слайде показана вторая часть кодировки KOI8-R (русская), под символами указаны шестнадцатеричные коды Unicode:

Page 7: inf09_5cod

0 1 2 3 4 5 6 7 8 9 A B C D E F

8─2500

│2502

┌250C

┐2510

└2514

┘2518

├251C

┤2524

┬252C

┴2534

┼253C

▀2580

▄2584

█2588

▌258C

▐2590

9░2591

▒2592

▓2593

⌠2320

■25A0

∙2219

√221A

≈2248

≤2264

≥2265

 00A0

⌡2321

°00B0

²00B2

·00B7

÷00F7

A═2550

║2551

╒2552

ё0451

╓2553

╔2554

╕2555

╖2556

╗2557

╘2558

╙2559

╚255A

╛255B

╜255C

╝255D

╞255E

B╟255F

╠2560

╡2561

Ё0401

╢2562

╣2563

╤2564

╥2565

╦2566

╧2567

╨2568

╩2569

╪256A

╫256B

╬256C

©00A9

Cю044E

а0430

б0431

ц0446

д0434

е0435

ф0444

г0433

х0445

и0438

й0439

к043A

л043B

м043C

н043D

о043E

Dп043F

я044F

р0440

с0441

т0442

у0443

ж0436

в0432

ь044C

ы044B

з0437

ш0448

э044D

щ0449

ч0447

ъ044A

CЮ042E

А0410

Б0411

Ц0426

Д0414

Е0415

Ф0424

Г0413

Х0425

И0418

Й0419

К041A

Л041B

М041C

Н041D

О041E

DП041F

Я042F

Р0420

С0421

Т0422

У0423

Ж0416

В0412

Ь042C

Ы042B

З0417

Ш0428

Э042D

Щ0429

Ч0427

Ъ042A

Page 8: inf09_5cod

Юникод (Unicode) - это стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков.

Чаще всего для обозначения символов Unicode используется запись вида "U+xxxx" (для кодов 0...FFFF), где xxxх - шестнадцатеричные цифры.

Первая версия Юникода представляла собой кодировку с фиксированным размером символа в 16 бит, то есть общее число кодов было 216 (65536). Отсюда и происходит практика обозначения символов четырьмя шестнадцатеричными цифрами (например, U+0410).

Коды в стандарте Unicode разделены на несколько областей, например:

Область от U+0000 до U+007F содержит символы основного набора ASCII.

Область от U+0400 до U+052F содержит символы кириллицы, где символы до U+045F - это собственно кириллица, а далее располагаются исторические буквы и дополнительные буквы для разных языков, использующих кириллицу.