Russian tagset converters library
Project description
russian-tagsets - библиотека для преобразования между различными форматами обозначения грамматической информации для слов русского языка. Лицензия - MIT.
На данный момент поддерживается (с разной степенью корректности) преобразование между следующими форматами:
A Positional Tagset for Russian (Jirka Hana and Anna Feldman, 2010);
НКРЯ;
Идея такая: для каждого формата в библиотеке определяется несколько функций, которые преобразуют тег в другие форматы; если какое-то преобразование явным образом не определено, russian-tagsets пытается построить цепочку преобразований, приводящую к нужному результату.
Установка
pip install russian-tagsets
Использование
“Автоматический” режим (библиотека пытается найти пути преобразования):
>>> from russian_tagsets import converters >>> to_aot = converters.converter('opencorpora-int', 'aot') >>> to_aot("NOUN,anim,masc plur,nomn") С,од,мр,мн,им
Поддерживаемые напрямую форматы:
>>> converters.get_supported() [(u'positional', u'aot'), (u'opencorpora-ext', u'opencorpora-int'), (u'opencorpora-ext', u'aot'), (u'aot', u'positional'), (u'aot', u'dialog2010'), (u'dialog2010', u'aot'), (u'opencorpora-int', u'ruscorpora'), (u'opencorpora-int', u'opencorpora-ext')]
“Ручной” режим (быстрее, преобразование только напрямую):
>>> import russian_tagsets >>> russian_tagsets.aot.to_positional(u"С,од,мр,мн,им") Tag("NNMAP1-------A--")
Разработка
Репозитории:
Баг-трекер - на гитхабе.
Для запуска тестов выполните
tox
из папки с репозиторием.
Changes
0.4 (2014-03-14)
Improved OpenCorpora -> RusCorpora rules;
Anph grammeme is added to OpenCorpora rules.
0.3.1 (2013-04-12)
Improved OpenCorpora -> RusCorpora rules.
0.3 (2013-03-21)
Improved OpenCorpora -> RusCorpora rules.
0.2 (2013-02-07)
OpenCorpora -> RusCorpora conversion;
DSL for writing conversion routines.
0.1 (2012-10-07)
Initial release
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.