Яндекс.Метрика

Математики проанализировали тексты "Властелина колец" Толкина и "Основания" Азимова

Петербургские ученые предложили новое решение для компьютерного исследования авторства и стиля текстов, основанное на моделировании динамического процесса их написания.

Петербургские ученые предложили новое решение для компьютерного исследования авторства и стиля текстов, основанное на моделировании динамического процесса их написания. В исследовании приняли участие представители Санкт-Петербургского государственного университета и Института интеллектуальной обработки информации при Колледже ОРТ имени Брауде (Израиль).Для изучения математики выбрали известные литературные произведения: цикл из семи научно-фантастических романов Айзека Азимова "Основание", серию произведений Джона Голсуорси "Сага о Форсайтах", роман в трех томах Джона Толкина "Властелин колец" и другие книги. 

В предыдущих работах они также анализировали произведения Джоан Роулинг (цикл книг про Гарри Поттера). Интерес для исследователей представляет именно большой массив материалов, который автор создавал на протяжении долгого времени: математические методы позволяют увидеть, как менялись особенности стиля писателя.

"Работать с большими данными можно традиционно: классифицировать их, искать схожие элементы, подобия или группы, – рассказал профессор СПбГУ доктор физико-математических наук Олег Граничин. – Мы же представили новый взгляд на большие данные и предложили изучить то, каким образом они были созданы. Например, любой текст кто-то написал, наговорил или зафиксировал иным способом. Этот процесс тоже имеет свои значимые характеристики, которые проявляются, например, в авторском стиле писателя. Сегодня мы не просто изучаем то, как выглядят данные, а вскрываем характеристики процесса их создания. До нас подобным образом тексты еще никто не анализировал".

В статье исследователи сравнили три книги из цикла "Властелин колец" Джона Толкина с двумя другими его произведениями — "Хоббитом" и "Сильмариллионом". Метод достаточно точно определил, что первая повесть была написана тем же автором, который создал трилогию, а вот "Сильмариллион" заметно отличается по стилю. Это объясняется тем, что книга была издана уже после смерти автора: сборник мифов и легенд Средиземья дорабатывал сын Джона Толкина – Кристофер Толкин, который несколько лет изучал черновики отца.

"Заметны отличия стиля и в произведениях одного автора, – рассказывает аспирант кафедры системного программирования СПбГУ Наталья Кижаева. – К примеру, четвертую часть из цикла "Основание" Айзек Азимов написал спустя почти 30 лет после того, как была создана третья часть, – на этом настояли его поклонники. Наш метод позволил разделить семь книг серии на два кластера: созданные до 1953 года и после 1982-го. За 30 лет изменился сам автор, его окружение, его видение жизни и, как следствие  авторский стиль".

Создатели алгоритма планируют опробовать методику и на произведениях русской литературы, ведь его можно применять для анализа текстов, написанных на других языках, использующих латинский алфавит, кириллицу и арабскую графику.

Разработка, как отмечают исследователи, может помочь в анализе не только литературных произведений, но и неструктурированных текстов. Например, метод пригодится при обработке массивов данных, поступающих на диспетчерские пульты или в различные колл-центры по работе с клиентами. Израильские коллеги применяют разработку для определения искусственно сгенерированных текстов, написанных не человеком, а машиной. Результаты одной из последних работ научной группы опубликованы в журнале Pattern Recognition издательского дома Elsevier.

Закрыть