October 10th, 2019

moose, transparent

о случайных последовательностях

"Не понимаю я этой вашей теории вероятности.
Вот я, скажем, кидаю монетку. Мильон раз. И получаю на выходе мильон орлов. Это ведь невероятно? Такого не может быть.
ОК. Тогда я кидаю монетку и получаю 1101011110010110100011..., ну, до миллиона сами дополните.
Но ведь это же ровно так же невероятно и не может быть! Если бы я играл в Спортлото и записал бы это число, его выпадение было бы не более вероятным, чем 111111111111..., да?
Чего я не понимаю?" (отсюда)


Некоторые мысли по теме.

1.

Некто приходит к вам и говорит: я кинул честную монетку тысячу раз и получил тысячу орлов подряд, ОООООО... Другой человек приходит и говорит: я кинул честную монетку тысячу раз и получил последовательность орел решка решка орел итд: ОРРООРОРРР.... Мы интуитивно верим второму и не верим первому, почему? По строгим правилам теории вероятностей вероятность любой последовательности из тысячи О и Р одинакова, но мы не воспринимаем эти две последовательности как равновероятные, почему?

Давайте проделаем следующий мысленный эксперимент. Будем тысячу раз подряд выбирать одно из двух, но не бросая монетку, а по-другому. Наш первый выбор будет - между 0 и 1. Второй - между орлом и решкой. Третий - между "лево" и "право". Четвертый - между "инь" и "ян". И так далее. Каждый раз мы выбираем один из двух вариантов, но варианты все время из разных категорий, не связанных друг с другом. Реализм или романтизм. Юбка или брюки. "Канон" или "Никон". Порядок категорий фиксированный: первый выбор всегда между 0 и 1, второй между орлом и решкой и так далее. Но внутри каждой категории выбор случайный. Как именно происходит выбор? Это не очень важно для данного мысленного эксперимента, но можно представить, например, что эти два слова быстро сменяют друг друга на экране, много раз в секунду, вы закрываете глаза и нажимаете на кнопку, то, что замерло на экране - и есть выбор. И так тысячу раз. Вы не можете даже сказать "я выберу всегда первый из двух вариантов", потому что они не стоят в каком-то конкретном порядке: я написал "инь и ян" выше, но мог написать "ян и инь", это ничего не значит. В момент выбора на экране у вас нет возможности различить их по принципу "первый-второй".

Итак, мы выбрали тысячу раз. У нас получился например результат: "0, право, ян, реализм, юбка, никон,..." В другой раз может быть "1, право, ян, романтизм, брюки, канон,...". И так далее. Это не очень удобно, нужно заранее придумать тысячу категорий, но предположим мы это сделали. Заменит ли такой "случайный выбор" тысячу бросков монетки? Смотря для чего нам было нужны были эти случайные броски. Если нам нужны были именно нули и единицы, это неудобно. А если нам нужны были эти броски каждый для разных решений, то нет проблем: мы заранее договорились, скажем, что "инь" будет означать поступить так-то, а "ян" иначе, и так для каждой категории.

Теперь главное, для чего это было нужно. Обратите внимание, что в результате такого эксперимента нет аналога "тысячу орлов подряд". Нет аналога "1111111...". Все возможные выборы абсолютно равноправны не только по теории вероятностей, но и по нашей интуиции, той самой, которая нашептывала нам "этот с 111111111.... врет или заблуждается". Если один человек к нам придет и скажет: я получил "0-право-ян-реализм-юбка-никон...", а другой "0-лево-инь-реализм-брюки-никон...", у нас нет никакой причины решить, что один из них меньше заслуживает доверия, чем другой. Почему, в чем разница между этим и бросками монетки?

Очевидно, разница в том, что в "разнородном" эксперименте значения выборов на каждом шагу никак не могут быть связаны друг с другом: у нас нет априори причины, скажем, считать, что "реализм" это то же, что 0 и "лево", а "романтизм" то же, что 1 и "право". Нет связи между результатами разных "бросков", потому что мы силой убрали всякую возможность такой связи.

2.

Когда мы бросаем "честную" монетку, результаты бросков должны быть равновероятны и независимы друг от друга. В реальном мире это, возможно, не всегда так: может, кто-то научился так хитро бросать монетку, что кажется, будто она летит случайно, а он на самом деле всегда может гарантировать число переворотов в воздухе. Или игральные кости бывают с неравновесными гранями. И так далее. Но абстрактная модель именно такая: в терминах теории вероятностей исход каждого броска независим друг от друга.

Но это как раз то отсутствие корреляции, которое мы видим в "разнородном" эксперименте с 0-лево-инь-реализм итд. Когда мы видим результаты бросков монетки, какие-то из них (например, 11111111....) могут заставить нас заподозрить, что на самом деле она не честная, и что обещанная независимость бросков друг от друга - ложь. Результатами "разнородного" эксперимента тоже могут быть не случайны, конечно (может, кто-то много раз подряд говорит, что у него получилось одна и та же последовательность 0-право-ян-... - вряд ли мы ему поверим), но как минимум один отдельно взятый результат, даже очень длинный (тысяча или миллион бросков) не дает нам больше оснований подозревать такую ложь. У нас нет больше подозрительных результатов. Если мы хотим смоделировать ситуацию, где монетка честная по определению, и нечестной быть просто не может, то "разнородный" эксперимент дает нам это сделать способом, который не подрывает нашу собственную интуицию.

Но в реальной жизни "честная по определению" просто не бывает. Наши мозги так не устроены. Если мы исходим из какой-то аксиомы: например, монетка честная, или X всегда говорит правду, и потом получаем какой-то "странный результат", скажем тысяча орлов подряд, или X говорит, что чего-то не было, а я знаю, что было, то мы не можем относиться к этому только на уровне "вопроса", мы обязательно также оцениваем "мета-вопрос". Мы не можем сказать себе: ну, X всегда говорит правду, значит, я неправильно понял, или у меня была галлюцинация, или мне внушили ложную память рептилоиды - мы обязательно зададимся мета-вопросом: а может, X все-таки не всегда говорит правду? Мы не можем сказать себе: о, тысяча орлов, это редко, но и любая другая комбинация так же редка - мы обязательно зададимся мета-вопросом: действительно ли монетка честная?

Когда мы видим что-то, слышим что-то, воспринимаем любую информацию - мы задаемся вопросом, сознательно или бессознательно: что это значит? О чем это говорит? Как это изменяет мои внутренние представления о мире? И никакие "по определению" от этого вопроса не застрахованы. Наши "внутренние представления о мире" включают в себя также все эти "определения" - честная монетка, правдивый человек - и мы в определенной ситуации подвергнем их сомнению. Ситуация с "тысяча орлов подряд" путает нас потому, что включает в себя и вопрос и мета-вопрос. Нам кажется, что "вопрос" какой-то противоестественный - как может быть, что тысяча орлов подряд так же вероятна, как ОРООРРРОРОРО...? Но это потому, что мы не замечаем, что на самом деле подвергаем сомнению мета-вопрос о честности монетки (или человека, ее якобы бросавшего). Для нас и вопрос и мета-вопрос оба вплетены в общую канву "согласно нашим представлениям о мире, это невероятно". Переход к разнородному эксперименту позволяет нам силой убрать мета-вопрос из поля рассмотрения, и тогда мы ясно видим, что в "вопросе" о вероятности на самом деле проблемы никакой нет, потому что разницы между "0-право-ян-реализм-юбка-никон..." и "0-лево-инь-реализм-брюки-никон..." никакой нет. Вся проблема в мета-вопросе.

3.

Нам все еще предстоит разобраться, почему "111111...." подвергает сомнению мета-вопрос, а какое-нибудь "1011010001..." не подвергает. Ясно ведь, что это не только "11111111...". Какое-нибудь "1010101010..." тоже заставит нас сомневаться в честности монетки (или человека), хотя единиц будет столько же, сколько нулей. Но эта закономерность их появления крайне подозрительна - почему, и как эту подозрительность точнее определить?

Можно попробовать ответить так. Поскольку мы понимаем теперь, что имеем дело с мета-вопросом (о честности монетки/человека), то альтернативной гипотезой будет "человек обманывает". Мы спрашиваем себя, как скорее всего поведет себя человек, который обманывает нас и на самом деле не бросал монетку. Может, он запустить алгоритм случайных чисел на компьютере и выдаст 1000 случайных цифр, вместо настоящей монетки? Это выглядит маловероятным. Скорее всего он скажет какую-то простую последовательность, которую легко объяснить на словах, например "одни единицы", или "1010101010...". Вряд ли он будет придумывать из головы 1000 случайно выглядящих цифр.

Поэтому, если последовательность цифр выглядит закономерной, как 111111... или 10101010..., это повышает нашу оценку гипотезы о том, что человек обманывает. А если она выглядит хаотичной, как 1011010001..., то мы не считаем из-за этого его обманщиком. Но что такое "закономерно" и "хаотично"? Можно ли это определить точно, а не на наскольких очевидных примерах? Тут нам может помочь так называемая "колмогоровская сложность", математический способ определить хаотичность-или-закономерность последовательности цифр или других символов. Последовательность можно считать закономерной, если ее колмогоровская сложность - примерно говоря, самый короткий по числу букв способ определить ее словами - мала. Например, "1000 цифр и все единицы" - это мало букв, "1 и 0 друг за другом 500 раз" это мало букв, а какую-то случайную последовательность 10101010... длиной 1000 цифр так просто не описать, поэтому она не закономерна, а хаотична, или "случайна". Но более подробный и точный разговор о колмогоровской сложности быстро уходит в чистую математику.

Мне кажется важным, однако, подчеркнуть, что вопрос закономерности входит в наше рассмотрение не просто так, а потому, что мы пытаемся моделировать возможное поведение нечестного человека (или нечестной монетки). То, что последовательность 11111... сама по себе "закономерная", "простая" или "неслучайная" не делает ее более или менее вероятной в качестве результата случайных независимых бросков. То, на что влияет ее закономерность - это мета-вопрос о том, действительно ли броски были случайными, и тут важно то, что нам кажется логичной альтернативная гипотеза, при которой некто выходит и хвастается выдуманной им "закономерной" последовательностью бросков. Вопрос о том, как на самом деле относиться к утверждению "у меня выпало 1000 орлов", оказывается неизбежно переплетенным с человеческой психологией и тем, как мы представляем себе поведение и мотивацию других людей.