Russian tagset converters library
Project description
russian-tagsets - библиотека для преобразования между различными форматами обозначения грамматической информации для слов русского языка. Лицензия - MIT.
На данный момент поддерживается (с разной степенью корректности) преобразование между следующими форматами:
A Positional Tagset for Russian (Jirka Hana and Anna Feldman, 2010);
НКРЯ;
Идея такая: для каждого формата в библиотеке определяется несколько функций, которые преобразуют тег в другие форматы; если какое-то преобразование явным образом не определено, russian-tagsets пытается построить цепочку преобразований, приводящую к нужному результату.
Установка
pip install russian-tagsets
Использование
“Автоматический” режим (библиотека пытается найти пути преобразования):
>>> from russian_tagsets import converters >>> to_aot = converters.converter('opencorpora-int', 'aot') >>> to_aot("NOUN,anim,masc plur,nomn") С,од,мр,мн,им
Поддерживаемые напрямую форматы:
>>> converters.get_supported() [(u'positional', u'aot'), (u'opencorpora', u'opencorpora-int'), (u'opencorpora', u'aot'), (u'aot', u'positional'), (u'aot', u'dialog2010'), (u'dialog2010', u'aot'), (u'opencorpora-int', u'ruscorpora'), (u'opencorpora-int', u'opencorpora')]
“Ручной” режим (быстрее, преобразование только напрямую):
>>> import russian_tagsets >>> russian_tagsets.aot.to_positional(u"С,од,мр,мн,им") Tag("NNMAP1-------A--")
Разработка
Репозитории:
Баг-трекер - на гитхабе.
Для запуска тестов выполните
tox
из папки с репозиторием.
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.