Корпус-менеджер для морфосинтаксической разметки: опыт разработки корпуса тибетских грамматических сочинений

Разработка морфосинтаксического анализатора текстов на тибетском языке направлена на создание последовательного формального грамматического описания (формальной грамматики) тибетского языка, включающего все грамматические уровни языковой системы от морфосинтаксиса (синтактики морфем) до синтаксиса сложных предложений и сверхфразовых единств. На основе вертикально размеченных корпусов тибетских текстов, доступных авторам, создается новая версия разметки, отражающая как структуры непосредственных составляющих, так и структуры зависимостей. Разрабатываемая формальная грамматика отражает все классы морфосинтаксических моделей, зафиксированных в размеченной части корпуса, и их грамматические свойства. Для тибетской грамматики создаются модуль формальной грамматики, словари токенов и центральный модуль грамматических категорий, их возможных значений, а также ограничений на их комбинации. Типы токенов и их грамматические признаки образуют основу формальной грамматики, позволяя лингвистическому процессору строить морфосинтаксические деревья различных видов. В статье приведены примеры тибетских морфосинтаксических деревьев.

П.Л. Гроховский, А.В. Добров, А.Е. Доброва, Н.Л. Сомс

Morphosyntactic Parser and Textual Corpora: Processing Uncommon Phenomena of Tibetan Language

This article analyzes the problems of parsing texts with linguistic phenomena of controversial nature which may rarely be encountered in NLP projects focusing on Indo-European languages, but are quite frequent in other languages, e.g. in the corpus of Tibetan Indigenous Grammatical Treatises, therefore, parsing texts with such phenomena is necessary for completeness of automatic morphosyntactic annotation of textual corpora. Development of the morphosyntactic analyzer for the Tibetan language started in 2016 and had already proved to be quite useful to deal with specific phenomena of Tibetan, and with previously unsolvable issues of tokenization. The ultimate goal of the project is to create a consistent formal grammatical description (formal grammar) of the Tibetan language, including all grammar levels of the language system from morphosyntax (syntactics of morphemes) to the syntax of composite sentences and supra-phrasal entities. The previously published version of the automatic morphosyntactic annotation was created on the basis of morphologically tagged corpora of Tibetan texts and had high, but not 100 percent coverage (the ratio of the amount of atoms covered by parse trees to the total amount of atoms), precision and recall. This article describes the problems that had to be solved after that, in order to develop the current version of the morphosyntactic parser which allowed to achieve complete and correct automatic annotation of the corpus, and the chosen ways of solving them, which allowed obtaining a complete morphosyntactic annotation of units previously treated as tokens (lexical tokens, words or other atomic parse elements), but required a substantial refactoring (restructuring existing code without changing its external behavior) of the formal grammar. Thus, not only the frequent, but all the constructions turned out to be important in the construction of the formal model.

P. Grokhovskiy, A. Dobrov, A. Dobrova, N. Soms

A Corpus-driven Model of Arabic Morphosyntax: a Pilot Project

This article describes a pilot project of automatic morphosyntactic analysis system development and some results of our work. The approach, developed and adopted in this research, is caused by peculiarities of Arabic morphology and syntax, and implies parsing of morphosyntactic structures (both morphology and syntax) instead of traditional tokenization and division of language into morphology and syntax, which seems considerably artificial for many widespread phenomena of Arabic and leads to problems with parsing. Some existing Arabic corpora are discussed, some of them being even treebanks, but none of them having a common reliable underlying uniform formal model (a formal grammar of any kind) in public domain. The methodology of this project is described, and techniques used in the pilot study are discussed, including the software technologies adopted and developed. Current results are described with examples of morphosyntactic structures, immediate constituent classes (with information on dependencies), and code snippets of the grammar module.

A. Dobrov, T. Ryzhenkova

Morphosyntactic Analyser for the Tibetan Language - Aspects of Structural Ambiguity

The paper deals with the development of a morphosyntactic analyzer for the Tibetan language. It aims to create a consistent formal grammatical description (formal grammar) of the Tibetan language, including all grammar levels of the language system from morphosyntax (syntactics of morphemes) to the syntax of composite sentences and supra-phrasal entities. Syntactic annotation was created on the basis of morphologically tagged corpora of Tibetan texts. The peculiarity of the annotation consists in combining both the immediate constituents structure and the dependency one. An individual (basic) grammar module of Tibetan grammatical categories, its possible values, and restrictions on their combination are created. Types of tokens and their grammatical features form the basis of the formal grammar being produced, allowing linguistic processor to build syntactic trees of various kinds. Methods of avoiding redundant structural ambiguity are proposed.

A. Dobrov, A. Dobrova, N. Soms

Прикладная и компьютерная лингвистика, глава 2

Данный материал является второй главой коллективной монографии "Прикладная и компьютерная лингвистика". В этой главе рассматриваются различные существующие на сегодняшний день подходы к анализу синтаксических структур, выявляются возникающие при этом проблемы, в частности, проблема синтаксической неоднозначности, и вытекающую из нее проблему комбинаторного взрыва. Приведены примеры современных синтаксических анализаторов.

A. Dobrov

Monitoring Online Publications about Public Authorities Activity by means of Ontological Semantics

In this paper, an attempt is made to describe an on-going research, aimed at creating a tool of content-analysis and opinion-mining, based on monitoring online publications about Russian federal public authorities activity by means of ontological semantics. This research continues a series of studies focused on the 'agenda' that is formed in the media on topics related to the development of e-government and online services. The problem of linguistic ambiguity is partially solved by semantical restrictions imposed by conceptual relations specified in the ontology, thus increasing precision of the analysis. Recall is also increased by means of conceptual hierarchies and synonymy. These methods have allowed to perform automatic monitoring of online publications that refer anyhow to specific public authorities, to choose a set of publications that contain evaluations of their activity, and to make a marked-up corpus from this collection. Nevertheless, the currently developed corpus shows that, in most cases, the evaluations of actions of public authorities are expressed by very sophisticated linguistic techniques, and a significant development of existing technologies of computer linguistic analysis is needed.

A. Dobrov, A. Dobrova, N. Soms

Компьютерный семантико-синтаксический анализ языковых обозначений действий или деятельности органов государственной власти

В статье представлен опыт разработки семантических средств для распознавания обозначений деятельности или действий органов государственной власти с помощью лингвистического процессора AIIRE, включающего в себя также одноименную онтологию. Исследование осуществляется на материале новостных сообщений, полученных совместно с сотрудниками Центра технологий электронного правительства НИУ ИТМО. Данная работа является частью серии исследований «повестки дня», формируемой средствами массовой информации по тематике, связанной с развитием электронного правительства.

А. В. Добров

Семантический анализ новостных сообщений по теме «Электронные услуги»: опыт применения методов онтологической семантики

В статье представлен опыт создания семантических средств для контент-анализа коллекции текстов об электронных государственных услугах. Пилотное исследование осуществляется на массиве текстов, представляющих материалы коллекции новостных сообщений (ленты новостей и информационного бюллетеня) Центра технологий электронного правительства Университета ИТМО. Работа является частью серии исследований, ориентированных на изучение «повестки дня», формируемой средствами массовой информации и интернет-ресурсами по тематике, связанной с развитием электронного правительства. Лингвистический компонент системы был создан на основе компьютерного лингвопроцессора AIIRE и одноимённой онтологии.

А.В. Добров, А.Е. Доброва, Н.Л. Сомс, А.В. Чугунов

Semantic and Ontological Relations in AIIRE Natural Language Processor

AIIRE is a free open source natural language processor, developed by a team of researchers in Saint-Petersburg, Russia. AIIRE is an implementation of full-scale NLU process, based on the method of inter-level interaction and rule-based disambiguation. Semantic graphs that are built by AIIRE are based on the involved ontology. The rules that concern correspondence between semantic relations (used in semantic graphs by AIIRE) and conceptual relations (used in ontology) is a matter of discussion. Semantic graphs are evaluated from syntactic trees, and, in general, although word-independent syntactic constituent classes tend to denote rather abstract relations (cf. genitive construction in general), the instances of those classes (specific phrases) in theory may denote any subclasses of those relations. The developed algorithm of choosing a relation subclass in each case is also a matter of discussion.

Alexey Dobrov

Автоматическая рубрикация новостных сообщений средствами синтаксической семантики. Автореферат на соискание ученой степени кандидата филологических наук

Автореферат диссертационного исследования Доброва Алексея Владимировича. В диссертационном исследовании рассматривается возможность использования средств автоматического синтаксического и семантического анализа текстов новостных сообщений при решении задачи повышения эффективности их автоматической рубрикации. В последние десятилетия возрос интерес к созданию эффективных инструментов работы с текстовой информацией, основанных на автоматической обработке текстов систем информационного поиска, машинного перевода, автоматической рубрикации и классификации текстов, автоматического реферирования, систем фактографического анализа. Этот интерес в значительной степени обусловлен резким увеличением объема текстовой информации в электронной форме, приводящим к необходимости автоматизации различных видов деятельности, относящейся к поиску и структурированию информации, до сих пор выполнявшейся вручную.

Добров Алексей Владимирович

Использование средств лингвистической обработки текстов в системе мониторинга информационных ресурсов по пользовательским предпочтениям

Современные системы мониторинга СМИ и социальных медиаресурсов в большинстве случаев не позволяют конечному пользователю осуществлять непосредственную индивидуальную настройку процедур фильтрации данных, которая давала бы ему возможность отслеживать публикации по созданным этим пользователям темам с учетом показателей охвата интернет-аудитории публикациями и темами. В данной статье описывается подход к решению этой задачи, основанный на методах лингвистической обработки текстов, примененный коллективом разработчиков ООО «Гелайн» при создании программного комплекса «СМиРТЕО».

Н. Л. Сомс, А. В. Добров, А. Е. Доброва

Автоматическая рубрикация текстов средствами комплексного лингвистического анализа

В статье рассматриваются современные методы автоматической рубрикации текстов и их недостатки. Предлагается комплексный лингвистический подход, позволяющий избежать этих недостатков. Описывается разработанный алгоритм автоматической обработки текстов и основанный на нем алгоритм выявления и ранжирования релевантных тексту рубрик.

А. В. Добров

К вопросу об универсальном представлении концептуальных структур в системах индексирования и автоматической рубрикации текстов

В работе рассматривается универсальный подход к представлению концептуальных структур, которые можно использовать в системах семантического поиска в качестве индексируемых структур.

А. В. Добров

К вопросу о методике оценки эффективности автоматической рубрикации текстов: психолингвистический аспект

В данной статье рассматриваются некоторые писхолингвистические факторы, ограничивающие точность принятой на сегодняшний день методики оценки эффективности автоматической рубрикации текстов. Предлагаются некоторые усовершенствования этой методики, направленные на приведение ее в соответствие с правилами организации психолингвистического эксперимента и преодоление этих факторов.

А. В. Добров

Комплексный лингвистический подход к автоматической рубрикации новостных сообщений

Непрерывный рост объемов информации в средствах массовой коммуникации приводит к повышению трудоемкости ручной классификации текстов. Для автоматизации этой деятельности создан ряд компьютерных средств, но уровень их эффективности недостаточно высок для того, чтобы упростить деятельность экспертов. Предлагается подход к созданию систем автоматической рубрикации новостных сообщений, основанный на компьютерных методах комплексного лингвистического анализа текстов, анализируются способы оценки эффективности таких систем.

А. В. Добров

Технологии интеллектуального поиска и способы оценки их эффективности

В данной статье осуществляется попытка изучить существующие теории и реализации интеллектуальных информационно-поисковых систем (ИИПС) и выделить набор факторов, определяющих их эффективность. Рассматриваются принятые на сегодняшний день методики оценки эффективности информационного поиска. На основании различных реализаций идеи ИИПС предлагается комплексный лингвистический подход к выявлению факторов, влияющих на эффективность решения этой задачи, и методика оценки релевантности в применении к ИИПС, основанная на концептуальном рейтинговании и авторубрикации.

А. В. Добров

