February 9th, 2010

moose, transparent

мимоходом

Читаю "Бодался теленок с дубом" Солженицына и ловлю себя на том, что жалко - знаю, как все закончилось; а то читал бы и переживал: выйдет у него напечатать Ивана Денисовича или не выйдет? А "Раковый корпус"? А это? а то?
moose, transparent

о языке, звуках и энтропии

Что если попробовать посмотреть на языки как на коды Хаффмана по отношению к абстрактным понятиям? Иными словами, язык как способ кодировать абстрактные слова последовательностями звуков, так, что более частые слова получаются более короткими.

Наверное, во всех естественных языках есть корреляция между частотой слова и его длиной в звуках или слогах. Самые короткие слова используются для самых основных понятий, и наоборот. Не без исключений, конечно, но в целом, наверное, так.

Один интересный вопрос, который сразу возникает - что можно сказать об энтропии разных языков. В своей основополагающей работе "Prediction and Entropy of Printed English" Шеннон ввел понятие информационной энтропии и продемонстрировал его на примере письменного английского. Но пытался ли кто-то измерить энтропию того же английского, или других языков, в фонетической записи - и какие получались значения? Я не знаю, и буду благодарен за ссылки (то же касается всего остального в этой записи).

Другой вопрос - как изменяется частых слов по длинам в результате языковых изменений. Скажем, фонетических: слились какие-то два звука, или какой-то согласный в определенной позиции стал произноситься по-другому. Всегда ли это ведет к уменьшению энтропии, т.е. более емкому в среднем звуковыражению в этом языке - по сравнению с тем, как было до того? (я не уверен, что использую слово "энтропия" правильно в предыдущем предложении). Тоже интересно, пытались ли это систематически исследовать.

Далее - может ли быть, что какое-то изменение, влияющее на весь язык в целом, в каком-то отдельном классе слов, наоборот, ведет к локально "несправедливому" распределению слов по длине? Собственно, я задумался обо всем этом, когда мне пришло в голову, что в русском языке многие глаголы короче в прошедшем времени, чем в настоящем. "Шел" по сравнению с "иду", "взял"/"беру", "дал"/"даю", "мёл/мету", "мыл"/"мою" итд. - один слог по сравнению с двумя. Но верно ли, что прошедшее время используется в обычной речи чаще, чем настоящее? По-моему, наоборот все же.

Вот еще одно наивное предположение - наивное, потому что древнерусскую грамматику я совсем почти не помню: до падения редуцированных эти формы прошедшего времени были из двух слогов: былъ, мылъ, шелъ итд. (твердый знак в то время, до 10-11 века, обозначал редуцированный гласный звук). Падение редуцированных в целом сильно сократило множество важных слов, в первую очередь существительных: быкъ->бык, сынъ->сын; но конкретно в случае глаголов оно изменило баланс между прошедшим и настоящим временем, потому что мылъ стало односложным, а мою осталось двусложным.

И еще одна тема - какие есть отдельные контрпримеры общему правилу "чем чаще, тем короче"? Иными словами, какие мы используем нерезонно длинные слова? Тут, наверное, есть как целые тенденции, так и обособленные примеры. Тенденции - это, скажем, когда становится модным заимствовать целыми пластами относительно длинные слова из другого языка. Как все эти слова на -tion или -ция: у многих были или могли сформироваться "местные" более емкие альтернативы, но поскольку уже есть сложившийся узор, удобная колея, в которую ладно ложатся латинские слова - это пересиливает соображения длины.

А что касается конкретных примеров, то мне забавным кажется французское aujourd'hui (сегодня), с тех пор, как я узнал его этимологию: au jour d'hui, т.е. "в день сегодня", где hui - более древнее и вышедшее из употребления слово для "сегодня". Как это получилось, что у французов было отличное и совершенно нормальное слово для "сегодня", hui, и они его заменили на длинное выражение "в сегодняшний день"?

Собственно, и в других известных мне языках это слово нередко оказывается составным: сего-дня, to-day. Почему так? Разве это не достаточно фундаментальное, основное понятие? Я уже придумал целую теорию о том, как якобы нам оно только кажется фундаментальным из нашего времени; а типичному жителю древних веков зачем было нужно это слово? Если говорить о чем-то, что должно "сегодня" случиться, то на то есть утро/полудень/вечер/ночь, которые гораздо лучше описывают, функционально обособляют правильный промежуток времени. А вне этих интервалов незачем и говорить о чем-то, что именно "сегодня" случилось или случится - это только с развитием документов и бюрократии стало важно.

Жаль, что эта теория полностью разбивается неброским словом "нынче", о котором я вовремя вспомнил. Хорошее, кстати, слово; вы знаете, что (по Фасмеру) оно родственно английскому now? Правильно, наверное, другой вопрос задавать: почему в русском языке "сегодня" вытеснило "нынче", и не является ли это одной из первых побед языкового бюрократизма?

Все это очень сумбурно, кажется, вышло, но причесывать времени нет, уж как есть.