Главная » 2009 » Февраль » 17 » Бурятская локализация операционных систем
10:03
Бурятская локализация операционных систем
 
Итак, сначала определим, для чего нужна локализация. Это возможность, используя компьютеры и стандартное программное обеспечение, создавать документы (в том числе, юридической значимости), вести переписку, общаться, пользоваться программами на родном языке - т.е. реализация свобод, гарантированных Конституцией.

Что происходит на деле сейчас? Есть факты затрудненности использования родного языка в обмене информацией и в образовании. Пример:

Люди приходят в регистрирующие органы, чтобы создать организацию с названием на бурятском языке, и им отказывают, либо вносят ошибки в название. “Тумэр морин” или “Тугнэ” вместо “Түмэр морин” или “Түгнэ”. Вот так, на английском можно, а на бурятском, государственном языке - нельзя. Несмотря на этот закон.

Гражданский Кодекс Российской Федерации, ч. 4

Глава 76.
Права на средства индивидуализации юридических лиц, товаров, работ, услуг и предприятий
§1. Право на фирменное наименование

Статья 1473. Фирменное наименование

3. Юридическое лицо должно иметь полное и вправе иметь сокращенное фирменное наименование на русском языке. Юридическое лицо вправе иметь также полное и (или) сокращенное фирменное наименование на языках народов Российской Федерации и (или) иностранных языках.

До сих пор нет государственного закона (как например, в Татарстане), утверждающего технический стандарт для использования бурятского языка.

Локализация операционных систем предусматривает несколько важных составляющих:
1) кодовая страница
2) шрифты, поддерживающие кодовую страницу
3) клавиатурная раскладка, позволяющая вводить символы
4) перевод названий меню, ярлыков программ, файлов справки, перевод программ входящих в операционную систему.
5) поддержка порядка сортировки, национальной валюты, формата отображения даты и времени, 2 и 3 символьный стандарт сокращения для обозначения языка и региона.

Попробуем разобрать эти пункты.

Кодовая страница
Исторически получилось, что национальные кодировки привязаны к размеру 1 байт. Туда умещается 256 символов.
Первая половина, 128 символов, или как ее называют, 7-битная кодировка - это символы ASCII (символы латинского алфавита без диакритики, цифры, некоторые необходимые знаки). Откуда появился этот стандарт?
Разнобой кодировок не обошел стороной Америку, к 1962 году существовало три десятка конкурирующих стандартов, привязанных к производителям, это встревожило правительство, и появился на свет стандарт ASCII (American standart code).

Однобайтовые кодировки DOS (OEM*)
Драйвер поддержки языка устанавливался резидентно в память и менял старшие 128 символов в трех таблицах (наборы 8х8, 8х14, 8х16) меняя начертание западноевропейских букв, например, на русские символы. Добавлялась также возможность вводить эти символы, переключая раскладку определенными сочетаниями. В начале 90-х был разнобой различных кодировок русского языка, победила т.н. “альтернативная”, она же стала официальной DOS-кодировкой принятой Microsoft под номером CP866. Она включала частичную поддержку беларусского и украинского языка (позже Украина приняла собственную кодировку DOS - RUSCII, определена стандартом РСТ 2018-91).
Государство как всегда отстранилось, более того - ГОСТом была закреплена кодировка, не содержащая букву ё.
Остальные символы дополнительной кириллицы не уместились в 128 символов, - они были заняты знаками псевдографики.

Первые попытки создания бурятских кодировок были во времена DOS, - одновременно с появлением драйверов русского языка, многочисленными rk.com, keyrus.com, было несколько драйверов дополнявших однобайтовую кодовую страницу бурятскими символами. Они были привязаны к текстам, под которые собственно и писались, распространения не получили, возможно за отсутствием поддержки принтеров.

KOI-8C (кавказская)
Кодировка ориентирована на UNIX-системы. Непонятно почему кодировка была названа кавказской. Символы бурятского алфавита там есть, но, к сожалению, кодировка не получила распространения.

Кодировки Windows (ANSI)
Кодировка CP1251 помимо русского алфавита, включает в себя буквы украинского, белорусского, сербского и болгарского алфавитов. Зачем понадобилась эта поддержка, сейчас не очень понятно - другие государства, другие стандарты. Народы России, использующие кириллицу, оказались обделены.
Существуют дополнительные версии кодировки CP1251 : казахская, чувашская и татарская. Казахская и татарская содержат символы, необходимые для бурятского языка.

Рассмотрим версию кодировки, используемую в Монголии. Монголы пользуются русскими версиями Windows, с установленным пакетом монгольской локализации, где вместо символов Єє и Її, введены Өө и Үү. При потере кодировки, - передаче текста на компьютер без установленной поддержки монгольского, текст остается вполне читаемым.

Три года назад, Жаргал Бадагаров ввел однобайтовую кодировку бурят-монгольского языка, где дополнил монгольскую кодировку символом Һһ на место сербской Ћћ.
Это способ кодировки вошел в электронный учебник бурятского языка. Но изменения кодовой страницы как такового не было - системные файлы Windows оставались прежними. Способ работал только с использованием нестандартных шрифтов, подменяющих начертание Єє, Її, Ћћ. В пакете есть раскладка, позволявшая вводить честные Unicode символы, но только в там, где поддерживается Unicode. Вводить текст в программах, ориентированных на однобайтовую обработку, пользоваться буфером обмена было невозможно.

Unicode
В середине 90-х начал активно продвигаться стандарт Unicode. Он включил в себя алфавиты большинства языков народов мира. В базовом стандарте UTF-16, в 2 байта данных умещается 65535 символов, в том числе включена область дополнительных знаков кириллицы.


В последней ревизии в стандарт включен классический монгольский алфавит.
Тем не менее, в операционных системах Windows до сих пор сильна привязка к DOS. Большинство программ ориентировано на однобайтовый вывод информации.

Шрифты
В векторных шрифтах начертания символов сейчас привязаны к кодировке Unicode. Пользователи компьютеров помнят проблемы со шрифтами, когда в 1997 году Microsoft осуществляла переход на шрифты этого формата.
Хотя формат хранения шрифта, которому уже больше 10 лет, позволяет включить очень большое число символов, отечественные авторы шрифтов обходят стороной поддержку языков народов пользующихся кириллицей.
Бурятский язык поддерживается только фирмами-разработчиками стандартов Unicode и OTF (Open type format) в нескольких стандартных, но важных шрифтах.

Клавиатурные раскладки
Вводить бурятские буквы можно с использованием стандартной татарской раскладки, входящую в Windows XP. Такой ввод доступен только в программах поддерживающих Unicode, например MS Word. Расположение символов не очень удобно.

Мною была разработана дополнительная раскладка, которая предназначена для одновременного ввода русского и бурятского текста. Это особенно актуально для пользователей, печатающих 10-пальцевым методом.

Раскладка «Бурятская альтернативная» в составе пакета «Поддержка бурят-монгольского языка в кодировках C866 и C1251 для российских версий Windows 2000, Windows XP»


Для ввода цифр используется цифровая клавиатура справа.

Для набора на верхнем ряду (особенно актуально для укороченных клавиатур ноутбуков) цифр «1», «2», «3» и знаков «!», «”», «№» используется AltGr (правый Alt), и Shift+AltGr.

Вместо AltGr можно использовать включение CapsLock – этот способ удобен для ввода большого числа цифр.


Перевод интерфейса операционной системы
Обширная и трудоемкая работа. Нужно согласование множества технических терминов, что нелегко без государственной поддержки. Впрочем выработка этих норм сама по себе дает мощный толчок развитию языка. Есть положительный пример - при поддержке правительства Татарстана была выпущена татарская версия Windows XP.

Было обращение к правительству Республики Бурятия, на работы по регистрации национальной локализации требовалось 3 млн рублей. С финансированием картина пока неясна. Прошло два года.

Языковые коды.
Международным стандартом ISO 639-2 для бурят-монгольского языка определена трехбуквенная аббревитура BUA. Английское название - Buriat. В различные операционные системы обозначение не включено.
Кодовая страница и порядок сортировки для языка не определены - нужны запросы в комитеты по стандартизации.
 
 
 

Что ж, приступим к основной теме заголовка.
 
 
 
    ЛОКАЛИЗАЦИЯ
 
 
Нами (Доржи Дашибалов, Жаргал Бадагаров) разработан пакет, изменяющий кодировки C866 и C1251 для поддержки бурятского языка в российских версиях Windows NT, Windows 2000, Windows XP.

Пакет обеспечивает совместимость с русскими и монгольскими кодировками OEM-ANSI. Соответствует стандарту Unicode.

 

Можно набирать тексты в любой программе, как в Блокноте, так и в Word, создавать файлы и папки используя буквы бурятского алфавита. Можно распечатывать тексты на принтере пользуясь стандартными шрифтами и пересылать тексты другим пользователям, не беспокоясь в большинстве случаев, имеются ли у них нужные шрифты.
Можно пользоваться буфером обмена, перенося строки из Unicode-приложений вроде Word в однобайтовые Блокнот или в FAR.

Зачем была нужна поддержка CP866? Имена файлов хранятся с использованием DOS кодировки, кроме того пользователь имеет возможность работать с командной строкой.

Пакет изменяет шрифты Terminal и Lucida Console; включает таблицу перекодировки для программы FAR.

Установка:
1) Распаковать в каталог на диске C:
2) Запустить файл setup.bat
3) Подождать несколько секунд.
4) На предложение вставить установочный CD (Защита файлов Windows) нажать Отмена,
и подтвердить сохранить файлы Да.
5) Перезагрузиться.

Установка раскладки : в «Панели управления» выбрать приложение «Язык и региональные стандарты», зайти в закладку «Языки», нажать кнопку «Подробнее», в окне «Языки и службы текстового ввода» удалить раскладку «Русская – Русская», добавить «Русская – Бурятская альтернативная».




Проверить что «Параметрах клавиатуры» выбран удобный для вас способ переключения раскладок.

Замеченные ошибки:
потеря бурятских символов при передаче сообщений на компьютер без установленной поддержки бурятского в интернет-пейджере QIP при выборе ID=”QiP 2005 UTF8″.
При высылке сообщения на ICQ пейджеры на базе Linux и MacOS текст может не читаться.
Связано с ошибкой реализации протокола ICQ в программе QiP.

Совместимость с Windows Vista и 64-разрядными версиями MS Windows не тестировалась

СКАЧАТЬ
размер 190 кБайт.

Доржи Дашибалов

 

Категория: Бурятский|Buryat | Просмотров: 30957 | Добавил: tatarinx | Рейтинг: 0.0/0
Всего комментариев: 0
Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]