English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية

Руководство по HTML

Полный список HTML-тегов

Символьные наборы HTML

Набор символов определяет, как байты, представляющие текст HTML документа, преобразуются в читаемые символы. Он может интерпретировать числа или шестнадцатеричные ссылки на символы по коду ISO 10646 ("〹" или "ሴ"), что соответствует версии 2.0 стандарта Unicode и независимо от выбранного набора символов.

Символьные наборы HTML

Чтобы правильно отображать веб-страницы HTML, браузеру необходимо знать, какой набор символов используется.

Веб-сайт в начале использовал набор символов ASCII. ASCII поддерживает цифры 0-9, строчные и прописные буквы английского алфавита, а также некоторые символы.

Полное руководство по ASCII.

Из-за того, что символы, используемые многими странами, не都属于 ASCII, по умолчанию в современных браузерах используется набор символов ISO-8859-1.

Полное руководство по ISO-8859-1.

Если веб-страница использует набор символов, отличный от ISO-8859-1, то это должно быть указано в теге <meta>.

ISO наборы символов

ISO наборы символов - это стандартные наборы символов, определенные Международной организацией по стандартизации (ISO) для различных алфавитов/языков.

Ниже приведены различные наборы символов, используемые во всем мире:

Система кодированияОписаниеОбласть применения
ISO-8859-1Часть 1 латинского алфавитаСеверная Америка, Западная Европа, Латинская Америка, Карибское море, Канада, Африка
ISO-8859-2Часть 2 латинского алфавитаВосточная Европа
ISO-8859-3Часть 3 латинского алфавитаЮго-Восточная Европа, международный язык, другие категории
ISO-8859-4Latin alphabet part 4Скандинавские/балтийские (и другие части, не включенные в ISO-8859-1)
ISO-8859-5Latin/Cyrillic part 5Языки, использующие древнеславянский алфавит, такие как болгарский, белорусский, русский, македонский
ISO-8859-6Latin/Arabic part 6Языки, использующие арабский алфавит
ISO-8859-7Latin/Greek part 7Современная греческая языковая система, а также математические символы, производные от греческого языка
ISO-8859-8Latin/Hebrew part 8Языки, использующие иврит
ISO-8859-9Latin 5 part 9Турецкий. Кроме того, турецкие символы заменили исландские
ISO-8859-10Latin 6Финно-угорские, германские, эскимосские северные языки
ISO-8859-15Latin 9 (также известный как Latin 0)Как и ISO 8859-1, символ евро и некоторые другие символы заменили некоторые редко используемые символы
ISO-2022-JPLatin/Japanese part 1Японский
ISO-2022-JP-2Latin/Japanese part 2Японский
ISO-2022-KRLatin/Korean part 1Корейский

Стандарт Unicode

Поскольку все перечисленные наборы символов имеют ограниченный объем и несовместимы с многоязыковой средой, Союз Unicode разработал стандарт Unicode.

Стандарт Unicode охватывает все символы, знаки и символы в мире.

Unicode может обрабатывать, хранить и обмениваться текстовыми данными на любом платформе, программе или языке.

Союз Unicode

Союз Unicode разработал стандарт Unicode. Их цель - заменить существующие наборы символов стандартным форматом преобразования Unicode (UTF).

Стандарт Unicode уже получил успех, он реализован в XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML. Unicode также поддерживается во многих операционных системах и всех современных браузерах.

Союз Unicode сотрудничает с ведущими организациями по развитию стандартов, такими как ISO, W3C и ECMA.

Unicode может быть兼容 с различными системами кодирования. Самыми распространенными способами кодирования являются UTF-8 и UTF-16:

Система кодированияОписание
UTF-8Символы в UTF-8 могут быть длиной от 1 до 4 байт. UTF-8 может представлять любые символы стандарта Unicode. UTF-8 обратно совместим с ASCII. UTF-8 является предпочтительным кодированием для веб-страниц и электронной почты.
UTF-16Формат преобразования Unicode 16 бит - это Unicode переменная кодировка символов, которая может кодировать все команды таблицы Unicode. UTF-16 в основном используется в операционных системах и средах, таких как Windows 2000/XP/2003/Vista/CE и Java и .NET bytecode environments.

Совет: Первые 256 символов Unicode соответствуют 256 символам ISO-8859-1.

Совет: Все процессоры HTML 4 поддерживают UTF-8, а все процессоры XHTML и XML поддерживают UTF-8 и UTF-16!