Книга о букве.
«РАССТОЯНИЕ ЕДИНСТВЕННОСТИ».
Перед нами «текст», состоящий из одного единственного знака. Можно ли расшифровать его? Разумеется, нельзя. Ведь знак может быть, в принципе, любой буквой неизвестного алфавита. И не только буквой, но и слоговым знаком, или логограммой, или идеограммой.
А если текст состоит из 10 знаков? 100? 1000? 10 000? Когда мы можем решить, что объем текста достаточен для его дешифровки? Первую попытку ответить на этот вопрос предпринял американский инженер и математик Клод Шеннон, создатель теории информации.
В годы второй мировой войны остро стоял вопрос о создании надежных шифров. Необходимо было решить и противоположную задачу: расшифровывать секретные донесения противника. В Соединенных Штатах над решением этой проблемы работали многие выдающиеся ученые, в том числе и Клод Шеннон. Результатом его исследований стал секретный доклад «Математическая теория криптографии» (тайнописи). После окончания войны доклад был рассекречен и лег в основу работы Шеннона «Теория связи в секретных системах», перевод которой был опубликован и в вашей стране.

Нумидийская надпись.
«Расстояние единственности» — так назывался в этой работе минимальный объем текста, при котором возможно одно, единственно правильное, «решение», расшифровка криптограммы. Допустим, мы имеем шифровку на английском языке, где буквы заменены цифрами (вспомните «Золотого жука» Эдгара По, который, кстати, был одним из пионеров математической методики расшифровки криптограмм). В принципе, мы можем прочитать эту (и любую другую) шифровку путем простого перебора. Имеется 26 различных цифр. Им соответствует 26 букв английского алфавита. Последовательно пробуя варианты (является ли знак 01 буквой «а»? буквой «в»? буквой «с»? и т. д.), мы можем натолкнуться на верное решение. Но оно будет единственно правильным лишь тогда, когда нам в руки попал достаточно большой текст. В противном случае мы можем прочесть шифровку несколькими способами. И все они будут правильны с точки зрения английского языка, все они будут составлять осмысленные тексты.
Шеннон показал, что для английского языка и алфавита «расстояние единственности» равно примерно тридцати знакам. Если мы имеем текст такой (или большей) длины, мы вправе считать, что он имеет одно и только одно «решение». Если длина текста меньше тридцати знаков, возможно несколько его «прочтений». И чем короче текст, тем больше вариантов «прочтения» он допускает.
Например, если в тексте всего лишь восемь знаков, мы можем сопоставить с ним более 40 000 комбинаций английских букв, которые могут соответствовать этим знакам. Примерно 1/8 этих комбинаций будет правильной, т. е. будет образовывать слова английского языка. Иными словами, возможно около 5000 «решений» криптограммы (т. е. эти восемь знаков могут быть прочтены и как слово the first, и как district, и как in danger и т. д. и т. п.). А это говорит о том, что практически мы не в состоянии расшифровать криптограмму — слишком уж много вариантов ее решения, слишком уж мало знаков входит в нее.
Как же Шеннону удалось определить «расстояние единственности», величину текста, достаточного для дешифровки? Величина эта слагается на трех показателей. Прежде всего — общее число разных знаков, чтение которых нам предстоит установить. Затем — число «референтов», количество букв (или звуков), которым должны соответствовать знаки шифровки (например, в случае, разбиравшемся выше, число цифр-знаков равно 26, число «референтов», букв английского алфавита, также равно 26). И, наконец, необходимо знать третью величину, — так называемую «избыточность языка».
Не всякое сочетание букв образует английское слово (так же, как русское, немецкое и т. д.). Одни буквы и сочетания букв употребляются в английском очень часто (например, «ти-эйч»), другие — редко, а третьи по встречаются вообще (например «эйч-ти»). Кроме законов фонетики, морфологии, лексики, есть еще и законы грамматики, требующие согласования времен, падежей и т. д. Все это накладывает на язык множество «запретов», ограничений. И тем самым создает «избыточность» языка (если есть местоимение «мы», то и глагол будет во множественном числе и т. д.). Для английского языка она равна примерно 75 процентам. То есть примерно три четверти букв в английском тексте являются «липшими», появление их вызвано не стремлением передать информацию, а законами грамматики, лексики и т. д. Конечно, это сокращает во много раз число возможных сообщений и позволяет находить «расстояние единственности» для криптограмм.