О проекте

Автор проекта - Протасов Сергей, аспирант МФТИ

Идея создания создания русскоязычной грамматики и парсера возникла в 2001 году после знакомства с оригинальной англоязычной грамматикой связей и личной практической потребностью семантической обработки русскоязычных текстов. Однако, чем больше автор погружался в задачу, тем больше новых задач давала система. Первой и основной проблемой было отсутствие общедоступных русскоязычных морфологических словарей. Наконец в 2002 году благодаря проекту aot.ru эту проблему удалось решить и примерно через полгода была готова первая работающая версия грамматики и парсера. Однако первая версия грамматики связей для русского языка не давала нужного эффекта, описывала довольно небольшое подмножество явлений в языке и поэтому в дальнейшем претерпела серьезные изменения в части значительно расширения списка разрешенных грамматических явлений. А из-за этого значительно выросли запросы к оперативной памяти и парсер пришлось серьезно переделать. Русскоязычные словари теперь генерятся перед разбором каждого предложения, и 2-ая версия парсера имеет скорость около 1-го предложения в секунду вместо 100/сек в первой версии.

Парсер 2-ой версии корректно разбирал около 50% предложений из корпуса художественных текстов и по этому тесту был сравним с поверхностно-семантическими анализаторами aot.ru и rco.ru

Весной 2004 года к парсеру 2-ой версии был прикручен web-интерфейс http://sz.ru/parser.

Во второй версии используется в основном морфологический словарь от aot.ru.

В 3-ей версии парсера используются несколько семантических словарей (например, многословные наречия), многие высокочастотные слова описываются индивидуально, а для некоторых создается свой собственный тип связи (например, если ... то ... ).

Словари парсера постепенно развиваются в течении нескольких лет, самая последняя версия парсера, после успешного тестирования, выкладывается в web-интерфейс.

Если Вас устраивает качество 3-ой версии парсера, демонстрируемого на сайте - то Вы можете его приобрести вместе с исходниками на unix C, Perl, с годовой поддержкой под лицензией Apache License.

В 2012 году русскоязычные словари грамматики парсера были выложены в свободный доступ.

Sergey Protasov