Python NLP package

Posté le : 07/02/2020

Partager

Aide à l’installation du package Polyglot en environnement Windows

La librairie Polyglot a été développée en environnement Linux et, contrairement à d’autres librairies Python, son installation sur nos machines Windows demeure un vrai parcours du combattant.

 

Les messages d’erreurs sur votre cmd se suivent mais, ne se ressemblent pas, suivez le guide ci-dessous qui devrait vous aider à enfin reprendre le contrôle de votre machine !

Les étapes d’installation

Merci à Alibek Jakupov qui a effectué un gros travail de recherche !  Source :https://www.alirookie.com/blog/install-polyglot-on-windows

 

1. Aller sur Polyglot PyPI : ​https://pypi.org/project/polyglot/#files

2. Télécharger le dossier : ​polyglot-16.7.4.tar.gz

3. Dézipper tar.gz ainsi que le tar.gz à l’intérieur

4. Aller dans le dossier :​ ..\polyglot-16.7.4.tar\dist\polyglot-16.7.4\polyglot-16.7.4

5. Installer Polyglot via la commande “pip install” :
○ pip install polyglot

 

 

Message d’erreur concernant le PyICU :

6. Aller sur : https://www.lfd.uci.edu/~gohlke/pythonlibs/

7. Télécharger les deux fichiers ci-dessous :

○ PyICU‑2.3.1‑cp36‑cp36m‑win_amd64.whl

○ Pycld2‑0.31‑cp36‑cp36m‑win_amd64.whl

 

Conseil :

● Les noms des fichiers varient en fonction des mises à jour. L’important est de prendre les fichiers de cette version : “cp36‑cp36m‑win_amd64.whl”
○ Exemple : PyICU‑2.3.1 est devenu 2.4.2 à l’heure de l’écriture de cet article.

● Normalement il n’y a pas besoin de créer de variables d’environnement.

 

8. Lancer pip install des deux fichiers dans le cmd :

○ pip install  PyICU‑2.3.1‑cp36‑cp36m‑win_amd64.whl

○ pip install  pycld2‑0.31‑cp36‑cp36m‑win_amd64.whl

9. Lancer le script :

import polyglot

from polyglot.text import Text, Word

 

Message d’erreur concernant la variable “Charmap” :

● Aller dans le fichier setup.py

● Ajouter encoding utf8 sur les lignes 14 et 17.

 

 

● Polyglot est enfin installé sur votre machine !

Télécharger les modèles

Afin de pouvoir récupérer les stopwords et POS tagging en français par exemple, il faut télécharger le bon modèle en amont.

 

1. Aller dans le dossier : C:\Users\___nom_utilisateur___\AppData\Local\Programs\Python\Python36\Lib\site-pac kages\polyglot-16.7.4-py3.6.egg\polyglot

2. Ouvrir le fichier​ _main_.py

3. Mettre en commentaire la ligne (ligne 28) qui appelle SIGNAL (c’est une fonctionnalité Linux dont Windows n’a pas besoin)

 

 

4. Lancer dans le cmd le package de la langue qui vous intéresse :

a. polyglot download LANG:fr ​ pour le français

b. polyglot download LANG:en ​ pour l’anglais

 

Je vous conseille de télécharger également le package pour l’anglais car Polyglot peut en avoir besoin pour certaines méthodes.

 

Liste pour les autres langues : https://polyglot.readthedocs.io/en/latest/Download.html

 

Message d’erreur “List_out_of_range” :

● Aller dans le dossier ​downloader.py

○ Rappel du chemin : C:\Users\___nom_utilisateur___\AppData\Local\Programs\Python\Python36\Lib\s ite-packages\polyglot-16.7.4-py3.6.egg\polyglot

● Remplacer tous les path.sep dans le script par “/”.

 

 

● Lancer ​!polyglot download LANG:en ​ et ​ !polyglot download LANG:fr ​ dans votre cmd

● Vous êtes prêts pour explorer vos corpus de texte avec Polyglot !

 

Ecrit par Laetitia Rémy

Contactez-nous Postuler Nos offres d'emploi