Расшифровкой древних текстов в первую очередь занимаются лингвисты, но при работе с большими текстовыми данными действительно сложно обойтись без применения математических методов.
Уже достаточно давно для расшифровки текстов на неизвестных языках начали применяться статистические алгоритмы, позволяющие по относительной частотности отдельных знаков и их сочетаний выделить фонетические классы и отдельные морфологические показатели.
Например, алгоритм Шеворошкина-Сухотина помогает выделить в неизвестном языке с буквенной письменностью классы гласных и согласных. Для этого в тексте, не учитывая пробелы (но учитывая знаки препинания, если они есть), считаются частотности всевозможных двухбуквенных сочетаний. Для каждой отдельной буквы рассматривается набор наиболее часто встречающихся соседей, и буквы с похожими наборами объединяются в один класс, так как в любом естественном языке гласные чаще соседствуют с согласными, чем с другими гласными, и наоборот, согласные чаще соседствуют с гласными. Таким образом, выделяются два класса, и остаётся только решить, что из этого гласные, а что согласные. Но в фонетической системе языка различных согласных, как правило, больше, чем гласных, соответственно, больший класс, вероятно, соответствует согласным.
Аналогично, с помощью частотного анализа при работе с достаточно большим объёмом данных можно выделить в языке морфемы (то есть возможные приставки, суффиксы и окончания), обнаружить падежи или другие грамматические категории, встречающиеся в языках.
Существует, например, алгоритм Харриса, позволяющий определить вероятные границы морфем. Этот алгоритм опирается на предположение о том, что на стыке морфем фонологическое разнообразие в среднем больше, чем внутри одной морфемы. Берётся одно конкретное слово, морфемные границы которого нас интересуют, и в первую очередь рассматривается только его первая буква. Выделив все слова, начинающиеся на ту же букву, но имеющие другую вторую, нужно посчитать количество различных вторых букв в этих словах. Затем точно такие же действия нужно совершить, взяв первые 2 буквы слова, и так далее до самого конца, то есть для каждого случая нужно понять, сколько встретилось других способов продолжить буквенный ряд. Полученные числа можно представить как значения соответствующей функции, и те точки в которых функция возрастает, наиболее вероятно соответствуют границам морфем.
Также с помощью статистических методов можно выделить наиболее вероятные частеречные классы. Основываясь на схожести морфемного состава и особенностях дистрибуции определённых групп слов, можно с некоторой вероятностью выделить классы существительных, глаголов, предлогов или послелогов и т.д. При этом аналогичные методы обработки текстов на самом деле чаще используются для разметки известных живых языков, где стоит не просто проблема определения частей речи, а именно проблема автоматической разметки.
И ещё один важный аспект применения статистических методов возникает при работе с текстами на древних языках, потомки или близкие родственники которых нам доступны (например, берестяные грамоты на древненовгородском диалекте древнерусского языка). В таком случае статистические алгоритмы часто позволяют точнее установить датировки текстов, и наоборот, зная примерный возраст текстов, можно уточнить временные границы определённых изменений, произошедших в языке.