Автоматизированная система обработки и анализа литературных текстов «смалт»
This paper presents an information system which main purpose is to collect and store literary texts together with their morphological and syntactical structures for further statistical processing. Statistical Methods of Literary Texts Analysis (SMALT) information system consists of two main parts: the functional one intended for texts morphological and syntactical analysis, filling up literary texts database, correction making, and analytical one, which contains parts, implementing different statistical methods for texts analysis.
Начало работ по созданию информационной системы «Статистические методы анализа литературных текстов» (ИС «СМАЛТ») связано с исследованиями по решению проблемы установления авторства некоторых анонимных и псевдонимных публицистических статей из Петербургских журналов «Время» и «Эпоха» (1861-1865), редактировавшимися братьями Достоевскими [1-5]. Возникшие в процессе решения данной проблемы новые идеи, подходы к решению задач, связанных с автоматической обработкой и анализом текстов, а также желание аккумулировать в единой информационной системе как можно больше хорошо зарекомендовавших себя методов атрибуции литературных произведений подвели авторов к разработке такой системы. ИС «СМАЛТ» имеет в основе базу данных (БД) текстов (на данный момент 81 публицистическая статья из упомянутых выше журналов) и их морфологических и синтаксических параметров и предоставляет открытый доступ к накопленной информации с возможностью проведения многократных проверок и повторных исследований. Интернет-адрес проекта: .
ИС состоит из двух основных блоков: функционального блока , предназначенного для морфологического и синтаксического анализа текстов, пополнения БД литературных произведений, а также внесения исправлений; и аналитического блока , состоящего из модулей, реализующих разнообразные методики статистического анализа текстов. На рисунке представлена концептуальная модель функционирования ИС «СМАЛТ».
0100090000037400000002001c00000000000400000003010800050000000b0200000000050000000c028806610a040000002e0118001c000000fb029cff0000000000009001000000cc0440001254696d6573204e657720526f6d616e0000000000000000000000000000000000040000002d0100000400000002010100050000000902000000020d000000320a5a00000001000400000000005a0a850620002d001c000000fb021000070000000000bc02000000cc0102022253797374656d000000000000180000002cc8110001000000e304000000000000040000002d010100030000000000В качестве исходного источника данных для клиентского приложения используется текстовый файл в кодировке Unicode, что позволяет избежать проблем, связанных с использованием в отдельных текстах специфических символов, таких, например как Ѣили Ѳ, которые встречаются в исследуемых произведениях.
Обработка текстов в информационной системе производится в несколько этапов. На первом шаге выполняется автоматизированное разбиения исходного текста на лексические единицы, среди которых выделяются часть (или раздел), абзац, предложение, слово. На втором этапе осуществляется автоматическая обработка текста и его морфологический разбор. На базе построенного морфологического разбора производится третья стадия обработки текста – синтаксический анализ.
На следующем этапе пользователь может выполнять операции по анализу текстов, находящихся в БД, как с использованием клиентского программного обеспечения, так и частично через WEB используя предоставляемый web-узлом интерфейс. На этой стадии в распоряжении пользователя – набор методов кластерного, компонентного анализов, ряд реализованных методик распознавания образов на основе нейронных сетей и группа методов, предоставляющих возможность проверки гипотез авторства [4]. Все используемые методы обработки текстов реализуются в виде легко расширяемого набора динамических библиотек.
Кроме этого пользователям ИС СМАЛТ предоставляется возможность внесения изменений и поправок в опубликованные данные. Таким образом, можно просмотреть одни и те же данные в редакции различных специалистов, а также сравнить результаты, получаемые при статистической обработке различных редакций.
Rogov A.A., Sidorov Yu. Vl. Statistical and Information-calculating Support of the Authorship Attribution of the Literary Works . Computer Data Analysis and Modeling: Robustness and Computer Intensive Methods: Proc. of the Sixth International Conference (September 10-14, 2001, Minsk). Vol.2: K-S/ Edited by Prof. Dr. S. Aivazian, Prof. Dr. Yu. Kharin and Prof. Dr. H. Rieder. Minsk: BSU, 2001. – P. 187-192.
Захаров В.Н. Гениальный фельетонист // Ф.М. Достоевский. Полн. собр. соч. Канонические тексты. Т. IV. Петрозаводск: Изд-во ПетрГУ, 2000.- С. 801-812.
Захаров В.Н., Рогов А.А., Сидоров Ю.В. Поиск грамматического инварианта Ф.М. Достоевского методами статистического анализа. Труды Петрозаводского государственного университета. Сер. «Прикладная математика и информатика». Вып. 9. Петрозаводск: Изд-во ПетрГУ, 2000. – C. 67-80.
Захаров В.Н., Рогов А.А., Сидоров Ю.В. Проблема грамматического инварианта Достоевского и атрибуция анонимных и псевдонимных статей в журналах «Время» и «Эпоха» (1861-1865) . Труды и материалы Международного конгресса «Русский язык: исторические судьбы и современность» (13-16 марта 2001 года). – М: МГУ, 2001. – С. 404-405.
Сидоров Ю.В. Математическая и информационная поддержка методов обработки литературных текстов на основе формально-грамматических параметров . Автореф. дис. канд. тех. наук. Петр-ск, 2002, 19 с.