Anatoly Vorobey (avva) wrote,
Anatoly Vorobey
avva

Category:

NLP, да не то

По наводке smilga прочитал небольшую статью (англ.), что-то вроде краткой истории NLP (не того, которое поп-психология, а того, которое Natural Language Processing).

Интересно и хорошо написано, рекомендуется.

Вот это только заставило меня призадуматься:

Ли цитирует знаменитый аргумент Хомского из Syntactic Structures (мне ещё предстоит это полностью прочесть):
It is fair to assume that neither sentence (1) [Colorless green ideas sleep furiously] nor (2) [Furiously sleep ideas green colorless] ... has ever occurred .... Hence, in any [computed] statistical model ... these sentences will be ruled out on identical grounds as equally “remote” from English. Yet (1), though nonsensical, is grammatical, while (2) is not.

... и добавляет от себя:
That is, we humans know that sentence (1), which at least obeys (some) rules of grammar, is indeed more probable than (2), which is just word salad; but (the claim goes), since both sentences are so rare, they will have identical statistics — i.e., a frequency of zero — in any sample of English. Chomsky’s criticism is essentially that data-driven approaches will always suffer from a lack of data, and hence are doomed to failure.
Проблема в её "is indeed more probable", которая ниоткуда не следует, на самом деле. Да, (1) укладывается в грамматическую модель языка, а (2) не укладывается; но это вовсе не означает, что у (1) больше вероятность появиться в естественной речи ("is indeed more probable"), напротив, Хомский как раз использует тот очевидный факт, что оба предложения имеют одинаково низкую пренебрежимую вероятность появления в естественной речи. Для Хомского очевидное ощущение любым носителем языка того факта, что (1) в каком-то смысле более "правильное" предложение, чем (2) (не более вероятное!) служит подтверждением сразу двух тезисов: того, что наше внутреннее понимание "грамматичности" и "неграмматичности" каких-то высказываний не основано на грубом эмпирическом анализе всех высказываний, которые мы слышали за нашу жизнь -- и того, что это наше внутреннее понимание невозможно симулировать извне таким грубым эмпирическим анализом сколь угодно огромного корпуса английских текстов.

Таким образом, Хомский стремится именно что продемонстрировать, что "грамматичность" является признаком, независимым от вероятности появления в речи (как минимум не-сводимым к такой вероятности), а Ли как раз некорректно низводит "грамматичность" до ложно понятой, смутно-необъяснённой "'вероятности" ("is indeed more probable").

Ли продолжает:
This observation turned out to be remarkably prescient: even now, when billions of words of text are available on-line, perfectly reasonable phrases are not present. Thus, the so-called sparse data problem continues to be a serious challenge for statistical NLP even today.
Здесь она совершенно меняет тему и противоречит самой себе и цитате из Хомского. Да, в каком-то смысле верно, что "perfectly reasonable phrases are not present" -- однако "colorless green ideas sleep furiously" is not a "perfectly reasonable phrase", which is the whole point!

То, в каком именно смысле "perfectly reasonable phrases are not present" -- это отдельный очень интересный вопрос, о котором мне приходилось не раз задумываться в последнее время. Постараюсь написать об этом отдельную запись.
Subscribe
  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 10 comments