Язык, используемый по умолчанию в приложениях, запущенных на компьютере, указывается при установке операционной системы. Язык по умолчанию определяет раскладку клавиатуры, кодовую страницу системы, вид кодировки HTML, используемый установленными на компьютере приложениями. Кодовые страницы и виды кодировок могут применяться к различным языкам.
В России на компьютерах используется кодировка Windows-1251. В этой кодировке содержится большое число языков (русский, английский, азербайджанский, узбекский и другие).
Кодировка
Однобайтная кодировка используется для представления в компьютере текстовых данных.
Семи- или восьмибитная таблица ASCII позволяет закодировать 128 или 256 разных знаков.
Стандартная кодировка ASCII использует 7 битов для представления всех прописных и строчных букв, чисел от 0 до 9, знаков препинания и специальных управляющих символов, применяемых в английской раскладке для США.
Современные системы на базе процессоров x86 поддерживают расширенную кодировку ASCII.
Расширенная кодировка использует восьмой бит каждого кода для представления 128 дополнительных специальных символов, букв различных алфавитов и графических знаков.
Кодовая страница
Средство поддержки наборов символов и раскладок клавиатуры для различных стран и регионов.
Кодовая страница
Таблица, связывающая используемые программой коды символов с клавишами клавиатуры и знаками на экране. Служит для поддержки наборов символов и раскладок клавиатуры для различных стран и регионов.
Юникод
Стандарт кодировки знаков, разработанный организацией Unicode Consortium, который позволяет представить знаки практически всех письменных языков.
Набор знаков в кодировке Юникод имеет несколько форм представления, включая UTF-8, UTF-16 и UTF-32. В большинстве интерфейсов Windows используется форма UTF-16.
При создании новой веб-страницы кодировка и язык новых страниц, как правило, определяется установками языка клавиатуры. Кодировка определяет способ сохранения данных в файле. Символы, не принадлежащие к текущей кодировке, сохраняются как числовые ссылки в формате Юникод (например, AC;). Использование числовых ссылок в формате Юникод увеличивает размер файла и затрудняет читаемость HTML-кода.
Кодировка страницы для русского языка, по умолчанию, указывается с помощью следующего HTML-тега:
для английского языка, как правило, используется:
для центральноевропейских языков:
Язык страницы не влияет на способ сохранения информации, но указывает, какой шрифт будет использован в веб-обозревателях при отображении страницы, и помогает поисковым машинам определить язык страницы. Язык страницы указывается с помощью следующего HTML-тега:
Язык страницы
Обозначение
Язык страницы
Обозначение
Азербайджанский (кириллица)
az-az-cyrl
Каннада
kn
Азербайджанский
(латиница)
az-az-latn
Каталанский
ca
Английский
(Австралия)
en-au
Китайский (Гонконг)
zh-hk
Английский
(Белиз)
en-bz
Китайский (КНР)
zh-cn
Английский
(Великобритания)
en-gb
Китайский (Сингапур)
zh-sg
Английский
(Зимбабве)
en-zw
Китайский (Тайвань)
zh-tw
Английский
(Ирландия)
en-ie
Конкани
kok
Английский
(Канада)
en-ca
Корейский
ko
Английский
(Новая Зеландия)
en-nz
Коса
xh
Английский (США)
en-us
Татышский
lv
Английский (Тринидад)
en-tt
Литовский
lt
Английский (Филиппины)
en-ph
Лужицкий
sb
Английский (ЮАР)
en-za
Македонский
mk
Английский (Ямайка)
en-jm
Малайский
ms
Арабский (Алжир)
ar-dz
Малаялам
ml
Арабский (Бахрейн)
ar-bh
Мальдивский
div
Арабский (Египет)
ar-eg
Мальтийский
mt
Арабский (Иордания)
ar-jo
Маратхи
mr
Арабский (Ирак)
ar-iq
Немецкий (Австрия)
de-at
Арабский (Йемен)
ar-ye
Немецкий (Лихтенштейн)
de-li
Арабский (Катар)
ar-qa
Немецкий (Люксембург)
de-lu
Арабский
(Кувейт)
ar-kw
Немецкий (стандартный)
de
Арабский (Ливан)
ar-lb
Немецкий (Швейцария)
de-ch
Арабский (Ливия)
ar-ly
Непальский
ne
Арабский (Марокко)
ar-ma
Нидерландский (Бельгия)
nl-be
Арабский (ОАЭ)
ar-ae
Нидерландский (стандартный)
nl
Арабский (Оман)
ar-om
Норвежский (букмол)
no-bok
Арабский (Саудовская Аравия)
ar-sa
Норвежский (нюнорск)
no-nyn
Арабский (Сирия)
ar-sy
Ория
or
Арабский (Тунис)
ar-tn
Панджабский
pa
Армянский
hy
Персидский
fa
Ассамский
as
Польский
pl
Баскский
eu
Португальский (Бразилия)
pt-br
Белорусский
be
Португальский (Португалия)
pt
Бенгальский
bn
Ретороманский
rm
Болгарский
bg
Румынский
ro
Валлийский
cy
Румынский (Молдавия)
ro-mo
Венгерский
hu
Русский
ru
Вьетнамский
vi
Русский (Молдавия)
ru-mo
Галисийский
gl
Санкрит
sa
Гаэльский
ga
Сербский (кириллица)
sr
Гаэльский (Шотландия)
gd
Сербский (латиница)
sr
Греческий
el
Сирийский
syr
Грузинский
ka
Словацкий
sk
Гуджарати
gu
Словенский
sl
Датский
da
Суахили
sw
Зулусский
zu
Суто
sx
Иврит
he
Тайский
th
Индиш
ji
Тамильский
ta
Индонезийский
id
Татарский
tt
Исландский
is
Телугу
te
Испанский (Аргентина)
es-ar
Тсвана
tn
Испанский (Боливия)
es-bo
Тсонга
ts
Испанский (Венесуэлла)
es-ve
Турецкий
tr
Испанский (Гватемала)
es-gt
Узбекский (кирилица)
uz-uz-cyrl
Испанский (Гондурас)
es-hn
Узбекский (латиница)
uz-uz-latn
Испанский (Доминиканская республика)
es-do
Украинский
uk
Испанский (Колумбия)
es-co
Урду
ur
Испанский (Коста-Рика)
es-cr
Фарерский
fo
Испанский (Мексика)
es-mx
Финский
fi
Испанский (Никарагуа)
es-ni
Французский (Бельгия)
fr-be
Испанский (Панама)
es-pa
Французский (Канада)
fr-ca
Испанский (Парагвай)
es-py
Французский (Люксембург)
fr-lu
Испанский (Перу)
es-pe
Фанцузский (Монако)
fr-mc
Испанский (Пуэрто-Рико)
es-pr
Французский (стандартный)
fr
Испанский (Сальвадор)
es-sv
Французский (Швейцария)
fr-ch
Испанский (современная сортировка)
es
Хинди
hi
Испанский (Уругвай)
es-uy
Хорватский
hr
Испанский (Чили)
es-cl
Чешский
cs
Испанский (Эквадор)
es-ec
Шведский
sv
Итальянский (стандартный)
it
Шведский (Финляндия)
sv-fi
Итальянский (Швейцария)
it-ch
Эстонский
et
Казахский
kk
Японский
ja
Простейший путь создания веб-страниц на нескольких языках — это изменение языковых настроек клавиатуры, при котором автоматически устанавливаются язык и кодировка для всех создаваемых страниц. Установив дополнительные раскладки клавиатуры и кодовые страницы, можно создавать страницы на языках, которые иначе могут не поддерживаться компьютером.
Справка
Информация, включая текстовую, хранится в компьютере в виде двоичных чисел (кодов).
Основа кодовых таблиц это ASCII — Американский Стандартный Код для Обмена Информацией.
Код ASCII первоначально семибитный и включал в себя символы с кодами 32 — 128, кодам 0 — 31 соответствовали неотражаемые служебные символы-команды, типа код 10 — «перевод строки» и т.п.
Для отображения символов национальных алфавитов, псевдографики и других служебных символов таблица ASCII-кода была расширена до 8 бит, а получившийся код стал называться «расширенным ASCII-кодом».
В зависимости от состава символов, включенных в верхнюю часть кодовой таблицы (128 — 255), и их расположения различают кодовые таблицы для разных систем и национальных языков.
Кодовые таблицы идентифицируются названием и номером, например: Windows-1251, KOI-8, DOS-866 и т.п. При работе в графическом режиме каждый текстовый символ прорисовывается на экране монитора попиксельно, «по точкам».
Шрифтом устанавливается зависимость между соответствующими кодами таблицы и внешним видом символа. Чтобы текстовый документ, подготовленный на одном компьютере, мог быть прочитан и обработан на другом, необходимо либо использование одной и той же кодовой таблицы, либо перекодировать документ.
Для обеспечения одинакового вида представления документа на различных машинах необходимо наличие на этих компьютерах одного и того же набора шрифтов.
В настоящий момент принят еще один стандарт кодирования Unicode, разработанный Консорциумом Unicode для определения символов вне зависимости от национальной принадлежности.
Этот стандарт использует 16-битное кодирование символов (в отличие от 8-битного в ASCII).
Это позволяет определить 65536 разных символов (в ASCII- 256), что оказывается достаточным для всех существующих языков, математических, служебных символов и других знаков.
Со временем к стандарту Unicode добавились свойства другого многобайтного стандарта — ISO 10646. Все индексы в стандарте разделены на группы и страницы, по 256 символов в каждой, причем часть индексного пространства оставлена для будущего развития. Первые 256 индексов полностью совместимы со стандартом ASCII.
Источник: