Home
снег мрамор дерево спасибо [entries|archive|friends|userinfo]
Anatoly Vorobey

[ website | Website ]
[ userinfo | livejournal userinfo ]
[ archive | journal archive ]

Links
[Links:| English-language weblog ]

о языке, звуках и энтропии [Фев. 9, 2010|04:50 pm]
Что если попробовать посмотреть на языки как на коды Хаффмана по отношению к абстрактным понятиям? Иными словами, язык как способ кодировать абстрактные слова последовательностями звуков, так, что более частые слова получаются более короткими.

Наверное, во всех естественных языках есть корреляция между частотой слова и его длиной в звуках или слогах. Самые короткие слова используются для самых основных понятий, и наоборот. Не без исключений, конечно, но в целом, наверное, так.

Один интересный вопрос, который сразу возникает - что можно сказать об энтропии разных языков. В своей основополагающей работе "Prediction and Entropy of Printed English" Шеннон ввел понятие информационной энтропии и продемонстрировал его на примере письменного английского. Но пытался ли кто-то измерить энтропию того же английского, или других языков, в фонетической записи - и какие получались значения? Я не знаю, и буду благодарен за ссылки (то же касается всего остального в этой записи).

Другой вопрос - как изменяется частых слов по длинам в результате языковых изменений. Скажем, фонетических: слились какие-то два звука, или какой-то согласный в определенной позиции стал произноситься по-другому. Всегда ли это ведет к уменьшению энтропии, т.е. более емкому в среднем звуковыражению в этом языке - по сравнению с тем, как было до того? (я не уверен, что использую слово "энтропия" правильно в предыдущем предложении). Тоже интересно, пытались ли это систематически исследовать.

Далее - может ли быть, что какое-то изменение, влияющее на весь язык в целом, в каком-то отдельном классе слов, наоборот, ведет к локально "несправедливому" распределению слов по длине? Собственно, я задумался обо всем этом, когда мне пришло в голову, что в русском языке многие глаголы короче в прошедшем времени, чем в настоящем. "Шел" по сравнению с "иду", "взял"/"беру", "дал"/"даю", "мёл/мету", "мыл"/"мою" итд. - один слог по сравнению с двумя. Но верно ли, что прошедшее время используется в обычной речи чаще, чем настоящее? По-моему, наоборот все же.

Вот еще одно наивное предположение - наивное, потому что древнерусскую грамматику я совсем почти не помню: до падения редуцированных эти формы прошедшего времени были из двух слогов: былъ, мылъ, шелъ итд. (твердый знак в то время, до 10-11 века, обозначал редуцированный гласный звук). Падение редуцированных в целом сильно сократило множество важных слов, в первую очередь существительных: быкъ->бык, сынъ->сын; но конкретно в случае глаголов оно изменило баланс между прошедшим и настоящим временем, потому что мылъ стало односложным, а мою осталось двусложным.

И еще одна тема - какие есть отдельные контрпримеры общему правилу "чем чаще, тем короче"? Иными словами, какие мы используем нерезонно длинные слова? Тут, наверное, есть как целые тенденции, так и обособленные примеры. Тенденции - это, скажем, когда становится модным заимствовать целыми пластами относительно длинные слова из другого языка. Как все эти слова на -tion или -ция: у многих были или могли сформироваться "местные" более емкие альтернативы, но поскольку уже есть сложившийся узор, удобная колея, в которую ладно ложатся латинские слова - это пересиливает соображения длины.

А что касается конкретных примеров, то мне забавным кажется французское aujourd'hui (сегодня), с тех пор, как я узнал его этимологию: au jour d'hui, т.е. "в день сегодня", где hui - более древнее и вышедшее из употребления слово для "сегодня". Как это получилось, что у французов было отличное и совершенно нормальное слово для "сегодня", hui, и они его заменили на длинное выражение "в сегодняшний день"?

Собственно, и в других известных мне языках это слово нередко оказывается составным: сего-дня, to-day. Почему так? Разве это не достаточно фундаментальное, основное понятие? Я уже придумал целую теорию о том, как якобы нам оно только кажется фундаментальным из нашего времени; а типичному жителю древних веков зачем было нужно это слово? Если говорить о чем-то, что должно "сегодня" случиться, то на то есть утро/полудень/вечер/ночь, которые гораздо лучше описывают, функционально обособляют правильный промежуток времени. А вне этих интервалов незачем и говорить о чем-то, что именно "сегодня" случилось или случится - это только с развитием документов и бюрократии стало важно.

Жаль, что эта теория полностью разбивается неброским словом "нынче", о котором я вовремя вспомнил. Хорошее, кстати, слово; вы знаете, что (по Фасмеру) оно родственно английскому now? Правильно, наверное, другой вопрос задавать: почему в русском языке "сегодня" вытеснило "нынче", и не является ли это одной из первых побед языкового бюрократизма?

Все это очень сумбурно, кажется, вышло, но причесывать времени нет, уж как есть.
ссылка44 комментария|Оставить комментарий

мимоходом [Фев. 9, 2010|03:14 pm]
Читаю "Бодался теленок с дубом" Солженицына и ловлю себя на том, что жалко - знаю, как все закончилось; а то читал бы и переживал: выйдет у него напечатать Ивана Денисовича или не выйдет? А "Раковый корпус"? А это? а то?
ссылка8 комментариев|Оставить комментарий

мимоходом, гендерное [Фев. 7, 2010|10:50 pm]
На встречу израильских участников Hacker News - т.е. речь идет о программистах и хайтековских предпринимателях - пришло 40 человек, среди них была одна женщина.

Я подумал, что это меньше, чем была бы моя оптимистичная оценка, если бы я об этом заранее задумался (2-3 участницы), но больше, чем я бы предсказал (0 участниц).
ссылка24 комментария|Оставить комментарий

не вполне математическое (англ.) [Фев. 7, 2010|02:05 pm]
Совместная статья супругов-алгебраических геометров. Не знал, что слова "душераздирающий" и "абстракт научной статьи" могут подходить друг к другу...

Surface singularities dominated by smooth varieties

Hélène Esnault, Eckart Viehweg

We give a version in characteristic $p>0$ of Mumford's theorem characterizing a smooth complex germ of surface $(X,x)$ by the triviality of the topological fundamental group of $U=X\setminus \{x\}$.
This note relies on discussions the authors had during the Christmas break 2009/10 in Ivry. They have been written down by Hélène in the night when Eckart died, as a despaired sign of love.
ссылка11 комментариев|Оставить комментарий

красота [Фев. 7, 2010|11:15 am]
Какая передача!!!!$#$%@!$@!#$!!!11одинодиндватрипять



Гути и Бензема в матче Депортиво Ла Корунья - Реал Мадрид.

[спасибо [info]macm за ссылку]
ссылка20 комментариев|Оставить комментарий

такие вот новости [Фев. 5, 2010|03:35 pm]
В Турции 16-летнюю девушку закопали заживо члены ее семьи (англ.), за то, что она общалась с парнями.

"Вскрытие показало большое количество земли в легких и желудке, что означает, что во время погребения она была жива и в сознании".
ссылка53 комментария|Оставить комментарий

мета-картинка [Фев. 5, 2010|03:12 pm]


[via exler]
ссылка11 комментариев|Оставить комментарий

имя слова [Фев. 4, 2010|04:05 pm]
Как правильно звучат эти две строки --

Панмонголизм! Хоть имя дико,
Но мне ласкает слух оно.

или:

Панмонголизм! Хоть слово дико,
Но мне ласкает слух оно.

?

Заметив, что попадаются оба варианта, я решил было, что один из них - наверняка
позднее или сетевое искажение; но, кажется, истина более запутана. Первоначально эти слова - из стихотворения Владимира Соловьева, но более известны стали в качестве эпиграфа к "Скифам" Блока. Так вот, оба варианта находятся в книгах; поиском по books.google.com, например - 215 книг с "именем", 47 со "словом".

Но самые ранние цитаты - их, кстати, стоит искать с твердым знаком: "панмонголизмъ хоть имя дико" -
все же есть только с "именем"; первая цитата со "словом" - 1919-й год.

Наверное, было так: Соловьев написал "имя", а Блок процитировал у себя в эпиграфе "слово". И оттуда пошло плясать. Причем хорошо так плясало, с задоринкой: в советское время можно найти и сборники Соловьева со "словом", и стихотворение Блока с "именем".
ссылка12 комментариев|Оставить комментарий

мимоходом, литературное [Фев. 4, 2010|02:08 am]
Увидел знакомое имя Никиты Елисеева. Это критик, который лет десять назад писал интересные, меткие, остроумные эссе и рецензии в "Новом мире". Это было до ЖЖ и до "Журнального зала" на russ.ru. Я жил в Иерусалиме и учился в университете, на кампусе Гиват-Рам, где стоит Национальная израильская библиотека. Я часто заходил туда, чтобы заказывать и просматривать старые полузабытые и забытые книги; читать монографии по русской просодии и американскому постструктурализму; и - особенно любимое занятие - листать на специальной машине микрофильмы старых газет 50 и 100 лет назад, New York Times и The Times и Jerusalem Post... Ну и журналы, из которых помню в основном "Новый мир", а в нем - невероятной красоты стихи Максима Амелина и эти вот эссе Никиты Елисеева - это все, что запомнилось.

Не знаю, чем он с тех пор занимался и что писал.

Тем страннее было увидеть сейчас его интервью с Топоровым - мелкой и вонючей дрянью из Питера, подвизавшейся в последние годы на поприще, которое теперь называют "набросом на вентилятор". У меня свои счеты с Топоровым (он изуродовал Одена по-русски), и потому неприятно было увидеть, что Елисеев называет его "своеобразным, очень сильным переводчиком". Странно это. Топоров, конечно, никакой не сильный переводчик; он бездарный графоман, банально не знающий языков, с которых пытается переводить. Да и в самом интервью нет ничего интересного, только смешное - когда он говорит о том, как "подключается к небесному оригиналу".
ссылка28 комментариев|Оставить комментарий

немного английской путаницы [Фев. 2, 2010|06:24 pm]
С выражением "if not" произошла такая досадная штука, что его можно понимать двумя способами, почти противоположными по смыслу.

"A, if not B" может означать как "A, но все-таки не B", так и "A, а может даже и B". Какое из двух прочтений верно, иногда ясно из контекста. А иногда неясно, и приходится гадать.

He considered George an acquaintance, if not a friend. Кем был для него Джордж - знакомым, но не другом? Или знакомым, а пожалуй даже и другом?

I found him cold, if not hostile. Каким он мне показался - холодным, но не враждебным? Или холодным, а то и враждебным?

Чаще бывает верной первая из перечисленных альтернатив. Но в зависимости от контекста, верным прочтением может быть второе, а может быть просто непонятно.


Сегодня мне попалось любопытное предложение в "Александрийском квартете" Даррелла; я никак не могу решить, странное оно или мне просто кажется.

"...Maskelyne was anything but a convivial soul and could seldom talk of anything but the work in hand."

Меня поразило то, что тут совсем рядом фраза "anything but X" употребляется дважды в разных, собственно противоположных смыслах. Но так ли это на самом деле?

В "was anything but a convivial soul" говорится, что он не был "convivial soul"; а в "could seldom talk of anything but the work in hand" говорится, что он почти все время говорил о "the work in hand". Т.е. в первом "anything but X" заключено "что угодно, кроме X", а во втором - "именно X".

Но этот анализ неверен, потому что он игнорирует "отрицательное" по смыслу слово seldom. Если учесть то, что оно "переворачивает" смысл, то противоречие как бы исчезает. Можно сравнить почти совсем одинаковые отрывки:

I can talk of anything but X. Я могу говорить о чем угодно, кроме X.
I can't talk of anything but X. Я не могу говорить ни о чем, кроме X.

Казалось бы, все нормально. И все же меня не оставляет ощущение парадоксальности, "неправильности". Я только не могу его как следует объяснить. Может, дело вот в чем. "anything but X" имеет само по себе отдельный смысл: "что угодно, кроме X". И этот смысл хорошо укладывается в первое предложение, присоединяясь естественным образом к "я могу говорить". А во втором предложении - не так; в нем есть особая связь между can't и anything, в которой целое больше суммы составных частей. Это та же связь, что и в обычном "I can't do anything", которое ведь не значит "Я не могу делать что угодно".

Видимо, я пытаюсь сказать следующее. В первом предложении я бы расставил скобки так: I can talk of (anything but X). А во втором так не получается: I can't talk of (anything but X) выходит бессмыслица. Но и другой способ расставления скобок, "(I can't talk of anything) but X" тоже подозрителен, потому что "but X" не относится все же ко всему вместе, что ему предшествует, а только к anything. Так что я окончательно запутался насчет моих попыток (наивно) проанализировать второе предложение; а ощущение "неправильности" вызвано, видимо, тем, что оно не распадается на части так же удобно, как первое.
ссылка52 комментария|Оставить комментарий

како падоша силнии посреде брани (компьютерное) [Фев. 2, 2010|12:25 pm]
$ telnet www.sun.com 80
Trying 72.5.124.61...
Connected to www.sun.com (72.5.124.61).
Escape character is '^]'.
GET / HTTP/1.1
Host: www.sun.org

HTTP/1.1 301 Moved Permanently
Server: Sun-Java-System-Web-Server/7.0
Date: Tue, 02 Feb 2010 10:22:31 GMT
P3p: policyref="http://www.sun.com/p3p/Sun_P3P_Policy.xml", CP="CAO DSP COR CUR ADMa DEVa TAIa PSAa PSDa CONi TELi OUR SAMi PUBi IND PHY ONL PUR COM NAV INT DEM CNT STA POL PRE GOV"
Location: http://www.oracle.com
Content-length: 0

Connection closed by foreign host.
ссылка16 комментариев|Оставить комментарий

параметрический поиск [Фев. 2, 2010|01:50 am]
(эта запись будет интересна скорее всего лишь программистам и сочувствующим)

Пару дней назад прочитал о параметрическом поиске - и весьма впечатлился; я бы даже сказал, впервые за много лет мне алгоритм взорвал мозг. Попробую рассказать об этом методе на примере конкретной задачи. Заранее предупреждаю, что в этой записи речь идет о красоте алгоритмов и их идей, а не практической пользе; описываемая идея теоретически эффективна, но из-за больших констант непрактична.

Параметрический поиск - метод, разработанный Нимродом Мегиддо в конце 70-х - начале 80-х. Особенно часто он подходит к проблемам в вычислительной геометрии.

Рассмотрим следующую задачу. Даны уравнения n прямых на плоскости, и для простоты предположим, что они находятся в общем положении: то есть, любые две из них пересекаются, и нет трех, пересекающихся в одной точке. У этих прямых есть n(n-1)/2 = O(n2) точек пересечения, которые можно отсортировать по их x-координатам слева направо - опять же для простоты положим, что все x-координаты разные. Проблема: найти k-ю слева точку пересечения, где 1≤k≤n(n-1)/2.

Наивное решение: отсортируем точки пересечения, и возьмем k-ю. Т.к. точек O(n2), это займет примерно O(n2logn) времени. Метод, который я опишу, решает задачу за O(n*log3n) времени. Учитывая то, что сам аргумент k двигается в пределах от 1 до n(n-1)/2, это впечатляет. Метод состоит из трех частей: процедура сравнения, собственно сам параметрический поиск, и его параллелизация.
Read more... )
ссылка29 комментариев|Оставить комментарий

мой/свой [Фев. 1, 2010|07:46 pm]
Интересное обсуждение в linguaphiles (по-английски) того, как объяснить изучающим русский язык, когда использовать притяжательное местоимение свой/своя/свое, а когда не использовать.

Основная проблема в том, что когда можно использовать "свой", его тем не менее часто необязательно использовать; можно все равно сказать "мой", "твой" или "его". Иногда это не так; например, нельзя сказать "он увидел его лицо в зеркале", только "свое лицо". Но часто возможны оба варианта: "я позвонил своим друзьям" и "я позвонил моим друзьям".

Мне кажется, это один из таких случаев, когда носителю языка затруднительно объяснить, почему он предпочитает тот или иной вариант. Между двумя вариантами возможны тонкие нюансы, оттенки смысла, но в разных фразах они проявляются по-разному; кроме того, тот или иной вариант может казаться более верным просто потому, что стал идиомой, фиксированным выражением. И даже когда нам кажется, что один вариант вернее другого, это может не совпадать с мнением других людей - или даже с нашим собственным выбором, когда мы не задумываемся о нем. Когда оттенки так близки, легко "вдумать" и убедить себя в том, чего на самом деле нет.

Не заглядывая в книгу или сетевой поиск: как вы помните строку из Агнии Барто - "я люблю мою лошадку" или "я люблю свою лошадку"?

Если вы вспомнили "свою", то это совпадает с текстом из книги (я, кстати, ошибся - был уверен, что наоборот). Но в сети встречаются сотни тысяч цитат как первого варианта, так и второго. Ясно, что оба звучат нормально и убедительно для большого количества людей.

Я много думал об этом вчера, но так и не придумал никакого общего принципа, который бы как-то объяснял, когда мне хочется сказать "свой", а когда "мой", скажем. Не удивлюсь, если на эту тему написано немало серьезных лингвистических статей. Смог только сформулировать несколько очень общих принципов:

- неверно, что если можно сказать 'свой', обязательно говорить 'свой'. Есть много ситуаций и контекстов, когда обе версии звучат нормально.
- во втором и третьем лице баланс намного сильнее в сторону "свой", чем "твой/его". В первом лице по-другому: "свой" и "мой" более сбалансированы друг относительно друга, и чаще встречается ситуация, когда можно сказать и то, и другое.
- когда хочется или просто выглядит уместным подчеркнуть хоть сколько-то оттенок владения, оттенок того, что это мое, а не чье-то другое, то чаще уместно 'свой'. По-английски я написал, что если можно заменить my на my own без особого искажения смысла, то скорее всего лучше сказать 'свой', чем 'мой'.
ссылка55 комментариев|Оставить комментарий

нумерология [Фев. 1, 2010|06:45 pm]
Поздравляю вас с палиндромным днем!

01022010
ссылка30 комментариев|Оставить комментарий

мимоходом, история [Фев. 1, 2010|02:55 pm]
А вот интересно было бы посмотреть, например, на историю России 20-го века, написанную в стиле древнерусских летописей - причем не только в том, что касается самого стиля прозы, но и способа подачи фактов, потери информации, искажений-неточностей, определенной идеологической позиции итд.

Существует что-нибудь такое, кто-нибудь знает? Или, может, еще шире - необязательно России, необязательно русские летописи, вообще, скажем, история какого-то современного промежутка времени в стиле средневековой истории.

Думаю, было бы интересно и поучительно такое почитать.
ссылка32 комментария|Оставить комментарий

три истории [Фев. 1, 2010|01:25 pm]
Три истории из ЖЖ, которые рекомендую вашему вниманию.

1. [info]shkrobius: "Однажды мы с мамой ехали в переполненной электричке. Был День Победы. Напротив сидел мужик крестьянского вида и горько плакал, запивая слезы водкой. Иногда он прерывался и рассказывал одну и ту же историю. Я слышал ее много раз и запомнил. Вот эта история."

2. [info]chedidan рассказывает о том, как в детстве жила несколько лет в секте (в СССР 80-х годов). Стоит промотать несколько страниц назад и начать сначала. Спасибо [info]lavinya за ссылку.

3. [info]o_proskurin рассказывает o разрешенной и запрещенной русской литературе в Южной Корее 80-х.
ссылка25 комментариев|Оставить комментарий

лингвистическая экспертиза [Фев. 1, 2010|09:30 am]
Что меня неизменно поражает в репортажах из российских судов по тем или иным делам - это "лингвистические экспертизы".

Вот свежий пример, из рассказа о суде с Куклачевым: "...Судья стал выяснять, оцениваем ли мы остальные высказывания (например "гнида"), как оскорбление. [...] Является ли это оскорблением может пояснить только лингвист, я же лингвистом не являюсь, так же как и истец и суд, поэтому считаю, что дать этим словам определение "оскорбление" нельзя. Суд предложил истцу провести лингвистическую экспертизу..."

При чем тут лингвист вообще? Что может сказать лингвист об оскорбительности слова "гнида", что и так непонятно любому носителю живого русского языка? Но нет, теперь будет лингвистическая экспертиза.

Причем текст этих "экспертиз", из тех, что я видел, оказывается в итоге в лучшем случае смехотворным, в худшем - дебильным. Лень сейчас искать ссылки, но читал я это со смесью недоумения, смеха и ужаса.
ссылка53 комментария|Оставить комментарий

опрос о числах [Янв. 31, 2010|01:28 pm]
По мотивам одной записи, любопытно проверить.
Опрос #1519093 seq
Открыт: Всем, подробные результаты видны: Всем, участников: 1015

Напишите следующее число в последовательности: 2, 3, 5, 8, ...


Спасибо!
ссылка152 комментария|Оставить комментарий

и я туда же [Янв. 30, 2010|01:46 pm]
Если вы хотите о чем-то меня спросить, вот здесь можно это сделать.
ссылка39 комментариев|Оставить комментарий

антропоморфизм! хоть слово дико... [Янв. 29, 2010|07:43 pm]
Этот выпуск xkcd напомнил мне эту рекламу IKEA.
ссылка16 комментариев|Оставить комментарий

navigation
[ viewing | most recent entries ]
[ go | earlier ]