A sentence paraphraser based on dependency syntax and word embeddings
Project description
dependency-paraphraser
A sentence paraphraser based on dependency parsing and word embedding similarity.
How the paraphraser works:
- Create a random projection of the dependency tree
- Replace several words with simialar ones
The basic usage (for Russian language) is based on Natasha library:
pip install dependency-paraphraser natasha
import dependency_paraphraser.natasha
import random
random.seed(42)
text = 'каждый охотник желает знать где сидит фазан'
for i in range(3):
print(dependency_paraphraser.natasha.paraphrase(text, tree_temperature=2))
# желает знать сидит фазан где каждый охотник
# каждый охотник желает знать где фазан сидит
# знать где фазан сидит каждый охотник желает
You can provide your own w2v model to replace words with similar ones:
import compress_fasttext
small_model = compress_fasttext.models.CompressedFastTextKeyedVectors.load(
'https://github.com/avidale/compress-fasttext/releases/download/v0.0.1/ft_freqprune_100K_20K_pq_100.bin'
)
random.seed(42)
for i in range(3):
print(dependency_paraphraser.natasha.paraphrase(text, w2v=small_model, p_rep=0.8, min_sim=0.55))
# стремится каждый охотник знать рябчик где усаживается
# каждый охотник хочет узнать фазан где просиживает
# каждый охотник хочет узнать фазан где восседает
Alternatively, you can expand and use the w2v model from Natasha (aka navec
):
navec_model = dependency_paraphraser.natasha.emb.as_gensim
random.seed(42)
for i in range(3):
print(dependency_paraphraser.natasha.paraphrase(text, w2v=navec_model, p_rep=0.5, min_sim=0.55))
# желает каждый охотник помнить фазан где лежит
# каждый охотник желает знать фазан где сидит
# каждый охотник оставляет понять где фазан лежит
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
File details
Details for the file dependency-paraphraser-0.0.2.tar.gz
.
File metadata
- Download URL: dependency-paraphraser-0.0.2.tar.gz
- Upload date:
- Size: 28.7 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/3.1.1 pkginfo/1.5.0.1 requests/2.23.0 setuptools/46.1.3 requests-toolbelt/0.9.1 tqdm/4.45.0 CPython/3.7.6
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | b805eb6837dc8bcb1298595980040fcf3c2c9f6114a61b13cb1a1b60e3dcc64f |
|
MD5 | 77349a11fa87140d958c398e5b080082 |
|
BLAKE2b-256 | 32a53cccb1f9c13421a3fdde49c7d0205aa72ba1a95327e3da4764c1c5f955ed |