?

Log in

No account? Create an account
ole vait, или стратегия поиска - Поклонник деепричастий [entries|archive|friends|userinfo]
Anatoly Vorobey

[ website | Website ]
[ userinfo | livejournal userinfo ]
[ archive | journal archive ]

Links
[Links:| English-language weblog ]

ole vait, или стратегия поиска [май. 24, 2001|02:31 am]
Anatoly Vorobey
Уже раза три встречал в дневниках эстонских ЖЖистов выражения ole vait. Только что увидел его здесь и решил наконец понять, что же оно значит. Только как понять? Спросить можно - ну да это неинтересно. Значит, идем в Гугль.

Стратегия поиска: ищем "ole vait", да не просто так, а в результатах поиска высматриваем страницы по-русски или по-английски. Логично же: если это какое-то распостраненное ругательство или выражение, то где-нибудь на страничке каких-нибудь эстонских русских можно будет его найти (или, скажем, в дебрях чьей-то гостевой). А по-английски? Ну что ж, возможно, в одном из миллиона диких собраний ругательств на всех языках мира; или в каком-нибудь самоучителе эстонского языка, составленным каким-нибудь энтузиастом, скажем, из Небраски.

Однако не срабатывает; Гугль выдает сто с лишком результатов, и все, как назло, на эстонском языке, что делать? Но тут - о счастливая находка! - оказывается, что один из них - отрывок перевода Дугласа Адамса на эстонский язык.
Ну тут уже ясно, что делать; загружаем оригинал, находим в нем шестую главу, и начинаем следить за оригиналом и переводом, ориентируясь по именам. Ага! Там, где по-английски: "No! Shut up!" said Ford. I think we're in trouble.", по-эстонски видим: "Ei! Ole vait!" utles Ford. "Mulle tundub, et me oleme hadas." (умлауты погибли, ну да ладно).

Значит, теперь я знаю, что такое ole vait. Это значит "заткнись". Ну, если я не прав, то, надеюсь, меня поправят
(может, оно не такое грубое - просто "замолчи"?).

А ещё я теперь знаю, что Maa по-эстонски - земля. Так что я теперь знаю одно слово и одну фразу. Ура!

Да, а вот ещё касательно ономатопеи. Вот как начинается 6-я глава в оригинале и в эстонском переводе.

Оригинал:


Howl howl gargle howl gargle howl howl howl gargle howl gargle howl howl gargle gargle howl gargle gargle gargle howl slurrp uuurgh should have a good time.


Перевод:


Ulg ulg kurin ulg kurin ulg ulg ulg kurin ulg kurin ulg ulg kurin kurin ulg kurin kurin kurin ulg slurrp uuuurgh veetma monusalt aega.



Хмммммммммм.
СсылкаОтветить

Comments:
[User Picture]From: r_l
2001-05-23 04:37 pm
Это именно "замолчи" по экспресии, достаточно грубо.
(Ответить) (Thread)
[User Picture]From: trurle
2001-05-23 10:20 pm
Да Вы просто Шампильон какой-то!
(Ответить) (Thread)
From: (Anonymous)
2001-05-24 04:08 am

Maa по-эстонски - земля.

It is easy to write a program that will do this given parallel texts. Language independent.

Alex
(Ответить) (Thread)
[User Picture]From: avva
2001-05-24 04:30 am

Re: Maa по-эстонски - земля.

Я думаю, что такое вообще невозможно сделать given today's state of the art. Любой нетривиальный перевод меняет местами слова, сокращает/удлиняет оригинал и т.п., не говоря уж о проблемах флексий или агглютинативных языках.
(Ответить) (Parent) (Thread)
From: (Anonymous)
2001-05-24 06:23 am

Re: Maa по-эстонски - земля.

Morphology causes problems but still it is possible. At least to get a rough (statistical) dictionary. It works well for a book-size corpus,
and even better for larger corpora.

The idea is simple: translation usually preserves
sentences and paragraphs. Sizes of corresponding sentences/paragraphs in two texts are strongly correlated. Given a synchronized pair of texts each word can be represented as a vector according to paragraphs in which it appears. Now search for word-vectors that have good correlation. They are either translations or synonyms (or parts of a set expression).


Alex.
(Ответить) (Parent) (Thread)
[User Picture]From: avva
2001-05-24 02:57 pm

Re: Maa по-эстонски - земля.

Hmm. Very nice!

Will fail on most auxiliary words (i.e. "is", "have"), I suppose, but should work for most other words. Even if paragraphs are occassionally collated or broken in the expansion, we can correlate chains of consequtive distances between paragraphs with the given word rather than the paragraphs' ordinal numbers.

Got any references to literature describing this kind of thing?

Thanks for the neat idea, BTW.
(Ответить) (Parent) (Thread)
From: (Anonymous)
2001-05-25 03:00 am

Re: Maa по-эстонски - земля.

Correct comment about auxiliary words.

Simple heuristics can correct paragraphs that are joined or split by translator (variety of formats for expressing direct speach causes somewhat more problems). Large insertions/ommisions may also cause problems (for ex. translator comments after each chapter or inside a chapter, etc.) From my experience distances within texts are less reliable than synchronized-paragraph numbers (high variance).

The dynamics of text length is actually very interesting. You can almost tell: today the translator had a lot of patience and time for his work, and the next day he was lazy and wanted to finish it quickly...

Here is the tip of the iceberg:
http://citeseer.nj.nec.com/gale93program.html
http://citeseer.nj.nec.com/brown97automated.html
hope it helps,
Alex.
(Ответить) (Parent) (Thread)
[User Picture]From: gianthare
2009-09-29 03:46 pm

Re: Maa по-эстонски - земля.

И всего через 7? 8? лет появился Google Translate, в основе которого именно это.
Кстати, я думаю, в 2001 Statistical Machine Translation вполне себе существовало(а)
(Ответить) (Parent) (Thread)
[User Picture]From: the_last_autumn
2006-12-12 02:25 pm

из эстонии

не знаю сколько времени прошло... совершенно случайно наткнулась на этот пост в рамблере))!! суупер!! особенно эстонская ономатопея в переводе!)))))))
(Ответить) (Thread)