Anatoly Vorobey (avva) wrote,
Anatoly Vorobey
avva

Category:

о языке, звуках и энтропии

Что если попробовать посмотреть на языки как на коды Хаффмана по отношению к абстрактным понятиям? Иными словами, язык как способ кодировать абстрактные слова последовательностями звуков, так, что более частые слова получаются более короткими.

Наверное, во всех естественных языках есть корреляция между частотой слова и его длиной в звуках или слогах. Самые короткие слова используются для самых основных понятий, и наоборот. Не без исключений, конечно, но в целом, наверное, так.

Один интересный вопрос, который сразу возникает - что можно сказать об энтропии разных языков. В своей основополагающей работе "Prediction and Entropy of Printed English" Шеннон ввел понятие информационной энтропии и продемонстрировал его на примере письменного английского. Но пытался ли кто-то измерить энтропию того же английского, или других языков, в фонетической записи - и какие получались значения? Я не знаю, и буду благодарен за ссылки (то же касается всего остального в этой записи).

Другой вопрос - как изменяется частых слов по длинам в результате языковых изменений. Скажем, фонетических: слились какие-то два звука, или какой-то согласный в определенной позиции стал произноситься по-другому. Всегда ли это ведет к уменьшению энтропии, т.е. более емкому в среднем звуковыражению в этом языке - по сравнению с тем, как было до того? (я не уверен, что использую слово "энтропия" правильно в предыдущем предложении). Тоже интересно, пытались ли это систематически исследовать.

Далее - может ли быть, что какое-то изменение, влияющее на весь язык в целом, в каком-то отдельном классе слов, наоборот, ведет к локально "несправедливому" распределению слов по длине? Собственно, я задумался обо всем этом, когда мне пришло в голову, что в русском языке многие глаголы короче в прошедшем времени, чем в настоящем. "Шел" по сравнению с "иду", "взял"/"беру", "дал"/"даю", "мёл/мету", "мыл"/"мою" итд. - один слог по сравнению с двумя. Но верно ли, что прошедшее время используется в обычной речи чаще, чем настоящее? По-моему, наоборот все же.

Вот еще одно наивное предположение - наивное, потому что древнерусскую грамматику я совсем почти не помню: до падения редуцированных эти формы прошедшего времени были из двух слогов: былъ, мылъ, шелъ итд. (твердый знак в то время, до 10-11 века, обозначал редуцированный гласный звук). Падение редуцированных в целом сильно сократило множество важных слов, в первую очередь существительных: быкъ->бык, сынъ->сын; но конкретно в случае глаголов оно изменило баланс между прошедшим и настоящим временем, потому что мылъ стало односложным, а мою осталось двусложным.

И еще одна тема - какие есть отдельные контрпримеры общему правилу "чем чаще, тем короче"? Иными словами, какие мы используем нерезонно длинные слова? Тут, наверное, есть как целые тенденции, так и обособленные примеры. Тенденции - это, скажем, когда становится модным заимствовать целыми пластами относительно длинные слова из другого языка. Как все эти слова на -tion или -ция: у многих были или могли сформироваться "местные" более емкие альтернативы, но поскольку уже есть сложившийся узор, удобная колея, в которую ладно ложатся латинские слова - это пересиливает соображения длины.

А что касается конкретных примеров, то мне забавным кажется французское aujourd'hui (сегодня), с тех пор, как я узнал его этимологию: au jour d'hui, т.е. "в день сегодня", где hui - более древнее и вышедшее из употребления слово для "сегодня". Как это получилось, что у французов было отличное и совершенно нормальное слово для "сегодня", hui, и они его заменили на длинное выражение "в сегодняшний день"?

Собственно, и в других известных мне языках это слово нередко оказывается составным: сего-дня, to-day. Почему так? Разве это не достаточно фундаментальное, основное понятие? Я уже придумал целую теорию о том, как якобы нам оно только кажется фундаментальным из нашего времени; а типичному жителю древних веков зачем было нужно это слово? Если говорить о чем-то, что должно "сегодня" случиться, то на то есть утро/полудень/вечер/ночь, которые гораздо лучше описывают, функционально обособляют правильный промежуток времени. А вне этих интервалов незачем и говорить о чем-то, что именно "сегодня" случилось или случится - это только с развитием документов и бюрократии стало важно.

Жаль, что эта теория полностью разбивается неброским словом "нынче", о котором я вовремя вспомнил. Хорошее, кстати, слово; вы знаете, что (по Фасмеру) оно родственно английскому now? Правильно, наверное, другой вопрос задавать: почему в русском языке "сегодня" вытеснило "нынче", и не является ли это одной из первых побед языкового бюрократизма?

Все это очень сумбурно, кажется, вышло, но причесывать времени нет, уж как есть.
Subscribe
  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 66 comments
Previous
← Ctrl ← Alt
Next
Ctrl → Alt →
Previous
← Ctrl ← Alt
Next
Ctrl → Alt →