Вот это число: 9,94962308959395941218332124109326…
На самом деле для последовательности чисел, сформированной по принципу «возвести в квадрат и прибавить 1», существует бесконечное множество таких исходных чисел, но они размещены на цифровой оси настолько редко, что вероятность выбрать какое-то из них случайным образом равна нулю. По словам Теда, у закона Бенфорда масса секретов, которые еще предстоит открыть.
Закон Бенфорда — один из самых ярких примеров того, как процесс, в котором фигурирует большое количество неизвестных случайных факторов, может образовать очень простую числовую закономерность. Точная последовательность событий, приводящих к росту или падению курса акций или увеличению численности населения города, может оказаться слишком сложной для понимания, но результат этих событий хорошо упорядочен и довольно прост. Не исключено, что у нас не получится составить прогноз в отношении курса конкретных акций или численности населения определенного города, но мы можем быть уверены в одном: в целом эти показатели всегда подчиняются закону Бенфорда.
В книгах тоже часто встречаются простые числовые закономерности. Возьмем в качестве примера книгу Джеймса Джойса Ulysses («Улисс»)9. В 40-х годах ХХ столетия исследователи Висконсинского университета на протяжении четырнадцати месяцев составляли список слов, которые использовались в этой книге [6]. Они напечатали ее на гуммированной бумаге, вырезали отдельные слова и наклеили их на тысячах отдельных листков. Затем упорядочили эти слова по убыванию частоты их встречаемости в тексте. Полученные данные представляли интерес не только для студентов, изучающих лингвистику, но и для психологов, работающих с лексическими ассоциациями, а также для таких нестандартно мыслящих ученых, как профессор Гарвардского университета Джордж Кингсли Ципф, который выявил потрясающую закономерность [7].
Слово
Ранг (порядковый номер)
Частота
I («я»)
10
2653
Say («сказать»)
100
265
Bag («сумка»)
1000
26
Orangefiery («оранжево-пламенный»)
10 000
2
Оказалось, что десятое по частоте употребления слово встречается в тексте почти в десять раз чаще, чем сотое, почти в сто раз чаще, чем тысячное, и почти в тысячу раз чаще, чем десятитысячное. Джеймс Джойс не выбирал слова с такой арифметической точностью специально; тем не менее закономерность, которой подчиняется их встречаемость в его книге, очевидна.
Если говорить языком математики, частота встречаемости слов в романе «Улисс» приближенно подчиняется следующему закону:
частота × ранг = 26 500
Эту формулу можно привести к такому виду:
В общем виде данное уравнение выглядит так:
Следовательно, частотность употребления того или иного слова обратно пропорциональна его рангу (порядковому номеру) в списке, упорядоченном по убыванию частоты. Другими словами, если ранг слова в n раз больше, то частота его использования в n раз меньше.
Изучив другие тексты, Ципф пришел к выводу, что во всех книгах на всех языках частота встречаемости слов и их порядковый номер в частотном списке находятся в обратной зависимости, но с небольшим уточнением:
Это уравнение известно как закон Ципфа. (Когда два числа записаны в форме x>y, мы говорим «x в степени y», и это значит, что число x умножается само на себя y раз. Как мы знаем со школьных лет, 4>2 = 4 × 4, а 2>3 = 2 × 2 × 2. Однако число y может быть не только целым числом. Следовательно, 2>1,5 означает, что число 2 умножается само на себя 1,5 раза, а это равно 2,83. Чем ближе значение числа y к 1, тем ближе x>y к числу x.)
Ципф обнаружил, что значение константы a всегда стремится к 1 независимо от того, кто автор книги и каково ее содержание. То есть зависимость между частотой встречаемости слов и их рангом всегда очень близка к обратно пропорциональной зависимости. В случае романа «Улисс» значение a равно 1.
Я считаю закон Ципфа чрезвычайно увлекательным. Он раскрывает заманчиво простую математическую закономерность, определяющую выбор слов. Я решил выяснить, соблюдается ли этот закон в книге, которую вы сейчас читаете. Для подсчета частотности слов я воспользовался компьютерной программой, а не гуммированной бумагой и ножницами. Просматривая частотную таблицу, я увидел, что частота встречаемости слов действительно обратно пропорциональна их порядковому номеру в таблице. Самое распространенное слово, употребляемое мною в книге («the»), встречается в десять раз чаще, чем десятое по частоте слово «was», примерно в сто раз чаще, чем сотое по частоте слово «who», и в тысячу раз чаще, чем тысячное слово «spirals».
Когда я составил на основе данных о частоте и ранге слов график (первый график, представленный ниже), оказалось, что соответствующие точки лежат близко к координатным осям. График, отображающий обратно пропорциональную зависимость, всегда представляет собой L-образную кривую. Сначала кривая резко снижается, а затем быстро выравнивается и переходит в своего рода «длинный хвост». Это говорит о том, что одни слова встречаются в тексте в огромном количестве, а другие почти не используются. (На самом деле во всех текстах, независимо от их объема, около 50 процентов слов употребляются только один раз. В данной книге таких слов 51 процент [8].)