Настоящий том является печатным приложением к электронному изданию «Словаря языка Чехова» (более 40 тысяч разных слов). Проблемы авторской лексикографии обсуждаются здесь на примере имеющихся прецедентов, главным же образом с постоянной оглядкой на образцовый «Словарь языка Пушкина». Новые материалы к последнему словарю также содержатся в книге.
Том 3 монографии посвящен анализу среднего интервала текста. Исследуемый корпус прозы автоматически членится на фрагменты по 40 слов. Если совместная встречаемость двух слов во фрагментах существенно превышает величину, подсчи1анную на основе нулевой гипотезы, делается вывод о наличии связи между этими словами. В результате возникает огромная сеть текстуальных связей слов. Показан способ выявления кластеров в этой сети.
В соответствии с двояким характером исследования в целом настоящий том включает две части. В части 4 дистрибутивно-статистический анализ (ДСА) проводится на материале 15 миллионов слов, непосредственно примыкающих друг к другу в текстах русской прозы 1850—1870-х гг. Тот же формальный метод прилагается к английскому корпусу (4 миллиона слов романов Диккенса). И в том, и в другом случае ДСА приводит к открытию дистрибутивных классов и некоторых грамматических конструкций. Часть 5 представляет собой частотный словарь русского корпуса, показывающий распределение слов по основным жанрам, по микрожанрам и по текстам 25 писателей. В существенно расширенном виде том 2 представлен на компакт-диске. (CD прилагается только к печатному изданию.)
Цель дистрибутивно-статистического анализа состоит в открытии структуры языка на основе большого корпуса текстов. В настоящей трехтомной монографии этот формальный метод в полной мере прилагается к текстам русской прозы 1850—1870 гг. (около 15 млн словоупотреблений); а частично (в виде иллюстраций) к текстам на других языках. Первый том включает три части: Очерк развития метода; Открытие регулярной морфологии в рамках графического слова; Частотный словарь языка русской прозы 1850—1870 гг. Первые две части адресованы лингвистам, особенно тем, кто интересуется лингвостатистикой. Частотный словарь будет интересен филологам-русистам. (CD прилагается только к печатному изданию.)
«Статистический словарь языка Достоевского» включает всю лексику трех основных жанров писателя – художественной литературы, публицистики и писем (более 43 тысяч разных слов). Словарь построен на корпусе текстов в 2,9 млн словоупотреблений и значительно превосходит по объему любые другие частотные словари русского языка. По степени лингвистической дифференциации Словарь уникален и в мировом масштабе. В таблицах Словаря лексика Ф. М Достоевского представлена в распределении по основным жанрам и по периодам творчества. Словарь адресован филологам и всем любителям творчества Ф. М. Достоевского.
Настоящий словарь представляет собой композицию трех частотных словарей, за каждым из которых стоит свой корпус текстов: 1) тексты девяти московских и петербургских газет за 1997 г., 2) комплект «Независимой газеты» за 1996 – 2000 гг., 3) корпус газетных заголовков 1991 – 2000 гг. Общий объем трех корпусов составляет 50 млн слов текста. В печатной версии словаря представлено 52 тыс. разных слов, в электронной версии словник превышает 140 тыс. разных слов, там же читатель найдет и соответствующий обратный словарь. Во втором томе словаря будут даны таблицы распределения лексики по газетам, жанрам и темам; электронная версия включит таблицы бинарных словосочетаний.