English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية
Набор символов определяет, как байты, представляющие текст HTML документа, преобразуются в читаемые символы. Он может интерпретировать числа или шестнадцатеричные ссылки на символы по коду ISO 10646 ("〹" или "ሴ"), что соответствует версии 2.0 стандарта Unicode и независимо от выбранного набора символов.
Чтобы правильно отображать веб-страницы HTML, браузеру необходимо знать, какой набор символов используется.
Веб-сайт в начале использовал набор символов ASCII. ASCII поддерживает цифры 0-9, строчные и прописные буквы английского алфавита, а также некоторые символы.
Из-за того, что символы, используемые многими странами, не都属于 ASCII, по умолчанию в современных браузерах используется набор символов ISO-8859-1.
Полное руководство по ISO-8859-1.
Если веб-страница использует набор символов, отличный от ISO-8859-1, то это должно быть указано в теге <meta>.
ISO наборы символов - это стандартные наборы символов, определенные Международной организацией по стандартизации (ISO) для различных алфавитов/языков.
Ниже приведены различные наборы символов, используемые во всем мире:
Система кодирования | Описание | Область применения |
---|---|---|
ISO-8859-1 | Часть 1 латинского алфавита | Северная Америка, Западная Европа, Латинская Америка, Карибское море, Канада, Африка |
ISO-8859-2 | Часть 2 латинского алфавита | Восточная Европа |
ISO-8859-3 | Часть 3 латинского алфавита | Юго-Восточная Европа, международный язык, другие категории |
ISO-8859-4 | Latin alphabet part 4 | Скандинавские/балтийские (и другие части, не включенные в ISO-8859-1) |
ISO-8859-5 | Latin/Cyrillic part 5 | Языки, использующие древнеславянский алфавит, такие как болгарский, белорусский, русский, македонский |
ISO-8859-6 | Latin/Arabic part 6 | Языки, использующие арабский алфавит |
ISO-8859-7 | Latin/Greek part 7 | Современная греческая языковая система, а также математические символы, производные от греческого языка |
ISO-8859-8 | Latin/Hebrew part 8 | Языки, использующие иврит |
ISO-8859-9 | Latin 5 part 9 | Турецкий. Кроме того, турецкие символы заменили исландские |
ISO-8859-10 | Latin 6 | Финно-угорские, германские, эскимосские северные языки |
ISO-8859-15 | Latin 9 (также известный как Latin 0) | Как и ISO 8859-1, символ евро и некоторые другие символы заменили некоторые редко используемые символы |
ISO-2022-JP | Latin/Japanese part 1 | Японский |
ISO-2022-JP-2 | Latin/Japanese part 2 | Японский |
ISO-2022-KR | Latin/Korean part 1 | Корейский |
Поскольку все перечисленные наборы символов имеют ограниченный объем и несовместимы с многоязыковой средой, Союз Unicode разработал стандарт Unicode.
Стандарт Unicode охватывает все символы, знаки и символы в мире.
Unicode может обрабатывать, хранить и обмениваться текстовыми данными на любом платформе, программе или языке.
Союз Unicode разработал стандарт Unicode. Их цель - заменить существующие наборы символов стандартным форматом преобразования Unicode (UTF).
Стандарт Unicode уже получил успех, он реализован в XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML. Unicode также поддерживается во многих операционных системах и всех современных браузерах.
Союз Unicode сотрудничает с ведущими организациями по развитию стандартов, такими как ISO, W3C и ECMA.
Unicode может быть兼容 с различными системами кодирования. Самыми распространенными способами кодирования являются UTF-8 и UTF-16:
Система кодирования | Описание |
---|---|
UTF-8 | Символы в UTF-8 могут быть длиной от 1 до 4 байт. UTF-8 может представлять любые символы стандарта Unicode. UTF-8 обратно совместим с ASCII. UTF-8 является предпочтительным кодированием для веб-страниц и электронной почты. |
UTF-16 | Формат преобразования Unicode 16 бит - это Unicode переменная кодировка символов, которая может кодировать все команды таблицы Unicode. UTF-16 в основном используется в операционных системах и средах, таких как Windows 2000/XP/2003/Vista/CE и Java и .NET bytecode environments. |
Совет: Первые 256 символов Unicode соответствуют 256 символам ISO-8859-1.
Совет: Все процессоры HTML 4 поддерживают UTF-8, а все процессоры XHTML и XML поддерживают UTF-8 и UTF-16!