Ориентировочно летом или осенью 2014 года будет официально принята новая, седьмая версия стандарта Юникод — повсеместно распространенной системы кодирования текстовой информации (она определяет набор символов и правила их использования). Уже сейчас, за год до очередного «мажорного» релиза, точно известно, в чем будет заключаться обновление.
Юникод будет приведен в соответствие с последней редакцией международного стандарта ISO/IEC 10646, который фактически определяет универсальный набор знаков ("Universal Character Set"). Изначально два эти стандарта возникли независимо друг от друга, но у них была одна и та же глобальная задача, поэтому было решено объединить усилия консорциума Unicode и второго подкомитета первого объединенного технического комитета Международной электротехнической комиссии Международной организации по стандартизации (ISO/IEC JTC1/SC2). Россию, которая наряду с тридцатью другими странами наделена правом голоса, в Международной электротехнической комиссии представляет Федеральное агентство по техническому регулированию и метрологии, занимающееся госстандартами (ГОСТ Р).
На днях Центробанк объявил о голосовании, по итогам которого Россия должна обрести знак валюты, а тот - свое место в Юникоде. Но уже несколько лет группа дизайнеров, самым известным из которых является Артемий Лебедев, продвигает собственный вариант начертания знака рубля. В используемом на «Ленте.ру» шрифте ПТ Сериф, опубликованном компанией ПараТайп в декабре 2010 года, «лебедевский» знак рубля занял всё свободное на тот момент пространство в разделе, зарезервированном консорциумом Unicode под символы валют. Но стандарт не стоял на месте. В итоге при попытке использовать с данным шрифтом знаки турского ливра (U+20B6), эсперантистского спесмило (U+20B7), индийской рупии (U+20B9), турецкой лиры (U+20BA) или запланированных в Юникоде версии 7.0 датско-норвежской марки (U+20BB) и азербайджанского маната (U+20BC) все они будут «конвертированы» в рубль.
Иногда Юникод опережает ISO/IEC 10646 по времени включения новых символов, но сейчас он находится в позиции догоняющего, в последнее время у него были низкие темпы обновления. К примеру, вышедшая в сентябре 2012 года «минорная» версия Юникод 6.2 включила в стандарт лишь турецкую лиру. Опубликованная этой осенью версия 6.3 вообще обошлась без печатных знаков, добавив только пять новых управляющих символов для двунаправленного алгоритма. Он необходим для работы с двунаправленным письмом (например, если в тексте на английском языке необходимо привести цитату на арабском или иврите). Такие управляющие символы используются для явного указания или изменения направления текста «слева направо» на «справа налево» и наоборот, причем иногда в принудительном порядке (кстати, переворачивать текст «вверх ногами» с помощью управляющих символов Юникод не умеет, хотя и содержит ряд «перевертышей» для латиницы).
В новой версии Юникода к имеющимся 110 тысячам знаков добавятся лишь 2833 символа. При этом произойдет рекордное обновление числа письменностей — к нынешней сотне добавятся 23 новых. Большая их часть, правда, не используется в повседневной жизни и представляют лишь научную ценность. Работа по многим из них велась в рамках специального проекта отделения лингвистики Калифорнийского университета в Беркли, занимающегося подготовкой предложений для включения в Юникод мертвых и малораспространенных знаковых систем.
Линейное письмо А
Линейное письмо А станет первой включенной в Юникод знаковой системой, которая точно является письменностью, но ее пока не удалось полностью расшифровать (изображения Фестского диска, вошедшие в версию 5.1, пока не удовлетворяют первому условию). Его ближайший родственник, Линейное письмо Б, стал частью стандарта еще десять лет назад, в апреле 2003 года, когда его слоги и идеограммы вошли в состав Unicode 4.0.
Оба этих письма использовались на Крите во втором тысячелетии до нашей эры и имели сходные знаки. Но если Линейное письмо Б после нескольких неудачных попыток дешифровки 70 лет назад было успешно «взломано» (исследователи доказали, что оно использовалось для записи текстов на древнегреческом языке очень раннего периода его существования), то у его исторического предка до сих пор с высокой степенью надежности смогли идентифицировать лишь несколько слов.
Линейное письмо А, предположительно (как и его потомок), использовало как слоги, так и идеограммы. В Юникоде вместо описания соответствующих символов используются их обозначения из каталога, составленного в 1976-1985 годах Луи Годаром и Жан-Пьером Оливье. Но для некоторых знаков указаны возможные расшифровки и соответствия из Линейного письма Б.
Древнепермская письменность
Если Линейное письмо А, активно использовавшееся современниками, во многом остается загадкой для ученых, то с древнепермской азбукой все обстоит строго наоборот. Анбур или абур, названный по первым буквам алфавита - «ан» и «бур»), был создан в XIV веке для перевода богослужебных текстов на язык коми епископом Стефаном Пермским, самоотверженно обращавшим в православие местное население. Священнослужитель, если верить его житию, однажды даже взял «на слабо» волхва-кудесника, предложив испытание веры огнем («прийдем и зажжем огонь, и войдем в него, и сквозь огонь пламенный пройдем посреди пламени горящего») и водой («приидем оба, взявшись за руки, и войдем вместе в одну прорубь, и спустимся в глубину реки Вычегды, и пустимся вниз подо льдом. После ниже из одной проруби оба опять вынырнем»); волхв благоразумно отказался.
Алфавит Стефана Пермского некоторые исследователи связывают не только с кириллической или греческой графикой, но и с древнетюркской рунической письменностью. Сохранившиеся до наших дней источники не позволяют достоверно судить о масштабах использования древнепермской азбуки. Самая ранняя сохранившаяся запись на анбуре сделана, по всей видимости, самим епископом на иконе Зырянская Троица. С другой стороны, уже в XV веке этот алфавит, учитывая то, насколько мало он был распространен, стали использовать в качестве тайнописи. В нескольких рукописях того времени были найдены так называемые криптографические приписки (послесловия, замечания на полях и вставки в тексте), где русские слова были записаны древнепермской азбукой. Уже в XVII веке анбур был окончательно вытеснен из текстов на коми-зырянском языке письменностью на основе кириллицы.
Первоначально с инициативой включить древнепермскую письменность в Юникод выступил Майкл Эверсон (Michael Everson), автор многочисленных предложений по вводу в оборот новых алфавитов и отдельных знаков. Работу над анбуром он активно вел в 1998-1999 годах, но дело сдвинулось с мертвой точки только в 2011 году. Тогда к обсуждению судьбы анбура в форуме блога английского китаеведа Эндрю Уэста (Andrew West), который регулярно делает обзоры будущих версий Юникода, подключились русскоязычные пользователи. Эверсон впоследствии упомянул по крайней мере одного из них вместе с представителями центра исследований языков Финляндии (коми являются финно-угорским народом) в качестве членов экспертного сообщества и поблагодарил Калифорнийский университет в Беркли за выделенный грант.
В Юникоде 7.0 анбур будет представлен 38 буквами (только прописные) и 5 составными символами. Вообще составные символы используются, например, для расстано́вки ударе́ний (в качестве альтернативы иногда использовалось выделение гласных курсивом или верхним регИстром) и прочих диакритических знаков. Кроме того, некоторые буквы можно «разложить» на составляющие, так ё можно записать с помощью композиции е и надстрочного двоеточия (U+308), а й — записав символ бре́ве (U+306) после и. Стандартизация древнепермской письменности теоретически позволит возродить древние криптографические традиции, но такую тайнопись легко «взломать» с помощью статистических методов, особенно если знать используемый язык.
Кириллические иероглифы
Рукописные православные литургические тексты подарили нам не только древнепермскую тайнопись, но и кириллические иероглифы. В Юникоде версии 5.1, вышедшем в апреле 2008 года, появились два расширения кириллицы — обособленные области, выделенные в связи с исчерпанием свободного места в основной и дополнительной. В расширение A вошли кириллические составные надстрочные буквы, а расширение B, в числе прочих, закрепило четыре новых варианта написания кириллической буквы о, почерпнутой из различных рукописей, в том числе из жития Стефана Пермского.
Авторы предложения по обновлению Юникода отмечали, что все четыре новых варианта написания буквы «о» использовались в словах, производных от слова око. «Одноглазое о» (прописная U+A668 и строчная U+A669) использовалось в слове око, для очей уже могли подойти как «двуглазое о» (U+A66A и U+A66B), так и «сдвоенное одноглазое о» (U+A66C и U+A66D), а вот для сочетания (только строчная U+A66E) был зафиксирован вообще единственный вариант словоупотребления — Серафим многоочитый (эпитет херуфимов). Во всех приведенных примерах летописцы использовали букву о для дополнительной наглядности и выразительности. Фактически они превратили букву в иероглиф, который в отличие от пиктограммы обозначает не только само слово, но еще и звук.
Но и этого многообразия показалось недостаточно участникам сетевого проекта Ponomar, посвященного, в частности, созданию шрифтов для воспроизведения литургических текстов на церковнославянском языке и разработке соответствующей типографики. Благодаря им в обновленном Юникоде появится еще два варианта написания буквы о: использовавшееся в словах оба и двое «сдвоенное o» (U+A698 и U+A699) и «перечеркнутое крестом о» (U+A69A и U+A69B) для слова окрест.
Следует отметить, что исследователи, на чьи труды опирались авторы прошлой и нынешней правки Юникода, отмечают и иные варианты написания буквы о, которые, возможно, еще ждут своей очереди. Так, помимо о, перечеркнутой прямым крестом (и от того схожей по написанию с математическим оператором «исключающее или» (U+2295), который отрицает возможность одновременного выбора двух противопоставляемых элементов), был зафиксирован вариант написания этой буквы с косым крестом (также употреблялось в слове окрест). «Одноглазое о» употреблялось не только в производных от ока, а «многоглазое о» зафиксировано в Юникоде в виде семи соединенных глаз, тогда как в летописном варианте их было десять.
Новые кириллические символы предназначены в первую очередь для текстов на старославянском языке. Но как и кириллические лигатуры (знаки, образованные путем слияния нескольких букв) Љ и Њ из современного сербского и македонского алфавитов, можно использовать «разноглазые о» для иллюстративной выразительности (в слове циклоп) или косвенного указания на время действия и внешний облик героя (Кутузов или адмирал Нельсон). Главное, чтобы требуемые символы присутствовали в нужном шрифте.
Дингбаты
В отличие от кириллических о стопроцентными пиктограммами являются символы из получивших широкое распространение шрифтов Wingdings и Webdings, которые теперь будут представлены в Юникоде в полном составе. Оба этих шрифта являются преемниками первого шрифта-дингбата (состоящего преимущественно из различных орнаментов и значков),включенного в стандарт в начале 1990-х годов. Его создал в 1978 году немецкий каллиграф и шрифтовый дизайнер Герман Запф (Hermann Zapf), отметивший в ноябре 95-летний юбилей. Его ученики Чарльз Бигелоу (Charles Bigelow) и Крис Холмс (Kris Holmes) разработали свой шрифт под сложным названием Lucida Icons, Arrows, and Stars, а в 1990 году Microsoft на его основе создал свое семейство дингбатов Wingdings, Windings 2 и Windings 3. В 1997 году в Microsoft был создан еще один дингбат — Webdings, который стал частью проекта по созданию пакета шрифтов для интернета; одним из его создателей был автор Comic Sans MS Винсент Коннер (Vincent Connare). Раньше пиктограммы в этих шрифтах занимали место латиницы в Юникоде и их также в шутку использовали для криптографических целей: в 1994 году редактор экспериментального музыкального журнала Ray Gun опубликовал интервью с музыкантом Брайаном Ферри (Bryan Ferry), заменив оригинальный шрифт на дингбат Запфа. Теперь же им будет выделено собственное место, и былой трюк уже не пройдет.
С включением этих шрифтов в Юникод будет восстановлена историческая справедливость. В шестую версию стандарта вошли сотни эмотиконов и других пиктограмм (emoji), изобретенных на несколько лет позже. Фактически те шрифты стали предвестниками целого направления в шрифтовом дизайне. По итогам 2012 года одним из самых популярных проектов на крупнейшем веб-сервисе GitHub, предназначенном для IT-разработчиков, стал Font Awesome, в рамках которого были отрисованы десятки современных пиктограмм, используемых при оформлении сайтов (они занимают область Юникода, специально зарезервированную под «частное использование»). А проект Iconic собрал этой осенью на Kickstarter'е 92 тысячи долларов (вместо первоначальных 15 тысяч) на создание интерактивных иконок.
В Юникоде уже есть несколько символов, изображающие различные жесты, в том числе по одному для каждого состояния игры «камень-ножницы-бумага». Но в седьмой версии появится пара новых, и им прочат признание среди пользователей твиттера — вулканский «салют» из мира «Звездного пути» (U+1F596), которому не помешал отказ Юникода от включения в стандарт клингонского языка, и жест со средним пальцем (U+1F595), в простонародье «фак» (Роскомнадзору еще предстоит решить, считать ли его нецензурной бранью, попадающей под запрет). Если проект Iconic будет выбирать, какой из них анимировать в первую очередь, то победителя голосования среди пользователей можно определить уже сейчас.