Améiloration de documentation #27

Gaet81 · 2019-04-03T21:55:55Z

Bonjour,

J'ai amélioré la documentation. Dites-moi ce que vous en pensez et si c'est bien correct.

J'ai également des questions:

Length.py: ne semble pas être utilisé, ne faut il pas supprimer ce fichier ou est-il en cours de développement?
Y a-t-il une vérification de doublon sur le sentence collector pour être certains que quelqu'un qui ferait tourner ces scripts sur des textes déjà parsés et les soumettraient dans le sentence collector serait d'office écarté?

Ne faut-il pas ouvrir des issues pour :

demander de créer un parseur pour le site http://www.cuisine-libre.fr/
demander de créer un parseur pour le site http://www.inlibroveritas.net/ (même si je m'interroge sur comment parser un PDF...)
Expliquer ce qu'il reste à faire pour le parseur http://libretheatre.fr/

Il faudrait également un wiki pour

Expliquer quelles sont les règles pour le parseur. (nombre de mots min/max par phrase, les abréviations à changer, etc)
Expliquer que faire des résultats, comment les soumettre.

Sur le projet Gutenberg il y a un lien vers librivox (https://librivox.org/search?primary_key=2&search_category=language&search_page=1&search_form=get_results). Est il possible de parser ces audio books qui sont dans le domaine public pour les incorporés à la validation common voice? Existe t'il déjà un tavail en ce sens pour d'autres langues?

Description de ce dépôt et de comment aider

Ajout de détails sur Adresses et Débats assemblée nationale

lissyx · 2019-04-04T07:53:08Z

Bonjour,

J'ai amélioré la documentation. Dites-moi ce que vous en pensez et si c'est bien correct.

Merci !

J'ai également des questions:

* Length.py: ne semble pas être utilisé, ne faut il pas supprimer ce fichier ou est-il en cours de développement?

En fait c'est utile pour vérifier la répartition des tailles et des mots par rapport à une référence (wikipedia)

* Y a-t-il une vérification de doublon sur le sentence collector pour être certains que quelqu'un qui ferait tourner ces scripts sur des textes déjà parsés et les soumettraient dans le sentence collector serait d'office écarté?

Bonne question, le dépôt date d'avant l'existence de Sentence Collector, et visait justement à centraliser l'origine du texte pour éviter des doublons.

Au pire, c'est une bonne contribution à faire à Sentence Collector s'il ne vérifie pas déjà ça

Ne faut-il pas ouvrir des issues pour :
* demander de créer un parseur pour le site http://www.cuisine-libre.fr/

Probablement

* demander de créer un parseur pour le site http://www.inlibroveritas.net/  (même si je m'interroge sur comment parser un PDF...)

Parser un PDF, j'ai déjà fait, c'est tellement pénible qu'à mon avis mieux vaut éviter

* Expliquer ce qu'il reste à faire pour le parseur http://libretheatre.fr/

Il reste normalement pas grand chose, à part vérifier la qualité du texte de ce qui sort, et produire d'autres textes

Il faudrait également un wiki pour

* Expliquer quelles sont les règles pour le parseur. (nombre de mots min/max par phrase, les abréviations à changer, etc)

C'est déjà fait / en cours sur Common Voice

* Expliquer que faire des résultats, comment les soumettre.

Peut-être plutôt dans README.md du coup ?

Sur le projet Gutenberg il y a un lien vers librivox (https://librivox.org/search?primary_key=2&search_category=language&search_page=1&search_form=get_results). Est il possible de parser ces audio books qui sont dans le domaine public pour les incorporés à la validation common voice? Existe t'il déjà un tavail en ce sens pour d'autres langues?

Il y a déjà @nicolaspanel qui fait ça: https://gitlab.com/nicolaspanel/TrainingSpeech

lissyx

C'est pas mal mais du coup deux-trois petits changements. Faudrait éviter aussi le mélange anglais / français. Le code peut servir à d'autres communautés, donc à mon avis c'est pas mal de rester sur de l'anglais pour ça.

README.md

lissyx · 2019-04-04T07:59:01Z

Dernier point que tu peux vouloir améliorer @Gaet81, avec le temps je me suis rendu compte que l'extracteur de livres du projet Gutenberg nettoie assez mal les données. Il y aurait beaucoup de travail à faire pour l'améliorer (Projet Gutenberg est très lâche sur les contraintes de formattage, c'est un peu chacun fait comme il veut, du coup c'est assez pénible à parser).

Gaet81 · 2019-04-08T20:17:14Z

C'est pas mal mais du coup deux-trois petits changements. Faudrait éviter aussi le mélange anglais / français. Le code peut servir à d'autres communautés, donc à mon avis c'est pas mal de rester sur de l'anglais pour ça.

J'y ai réfléchis avant d'écrire la doc. Mais ce dépot est spécifique à la langue fançaise donc pour moi devrait rester en français. Vos issues sont en français également.
Je comprends que les outils doivent être compréhensible pour d'autres mais pour l'utilisateur lambda la première page est la plus accessible.
Si on veut une documentation plus techniques alors je suis d'accord que l'anglais devrait être la langue de la doc mais pour de la doc technique on peut faire le faire dans le wiki et mettre un lien dans le readme.

Gaet81 · 2019-04-08T20:44:40Z

Dernier point que tu peux vouloir améliorer @Gaet81, avec le temps je me suis rendu compte que l'extracteur de livres du projet Gutenberg nettoie assez mal les données. Il y aurait beaucoup de travail à faire pour l'améliorer (Projet Gutenberg est très lâche sur les contraintes de formattage, c'est un peu chacun fait comme il veut, du coup c'est assez pénible à parser).

j'ai vu que Nicolas Panel dans son projet utilisait le format epub plutot que le texte brut. Je n'ai pas encore testé le code sur des livres du projet gutenberg mais ça peut éventuellement aider d'avoir des tags qui structurent le texte. Même si je reconnais qu'il n'y a pas de standardisation et que ça restera difficile.

lissyx · 2019-04-08T20:50:50Z

Si on veut une documentation plus techniques alors je suis d'accord que l'anglais devrait être la langue de la doc mais pour de la doc technique on peut faire le faire dans le wiki et mettre un lien dans le readme.

À l'utilisation c'est pénible, le README c'est un fichier à part. On peut utiliser un autre fichier, CONTRIBUTING.md pour le côté code, si ça t'arranges de séparer les deux

lissyx · 2019-04-08T20:51:34Z

Je n'ai pas encore testé le code sur des livres du projet gutenberg mais ça peut éventuellement aider d'avoir des tags qui structurent le texte.

Possible mais quand j'avais regardé les bouquins par rapport à la licence, sur gutenberg en ePub y'avait pas grand chose de mémoire :/

lissyx · 2019-04-08T20:52:20Z

@Gaet81 du coup tu bouges la partie code dans un CONTRIBUTING.md et après je re-review ?

Gaet81 · 2019-04-11T19:11:47Z

@Gaet81 du coup tu bouges la partie code dans un CONTRIBUTING.md et après je re-review ?

Tu veux dire renommer readme du répertoire CommonVoice-Data vers contributing.md?

Gaet81 · 2019-04-11T19:21:30Z

Je n'ai pas encore testé le code sur des livres du projet gutenberg mais ça peut éventuellement aider d'avoir des tags qui structurent le texte.

Possible mais quand j'avais regardé les bouquins par rapport à la licence, sur gutenberg en ePub y'avait pas grand chose de mémoire :/

Je ne comprends pas ce que tu dis ici...tous les livres me semblent en epub et si le livre est dans le domaine publique il y reste quelque soit le format ou je me trompe?

lissyx · 2019-04-11T19:31:46Z

Tu veux dire renommer readme du répertoire CommonVoice-Data vers contributing.md?

Par ex

Je ne comprends pas ce que tu dis ici...tous les livres me semblent en epub et si le livre est dans le domaine publique il y reste quelque soit le format ou je me trompe?

J'ai appris que pour Gutenberg, chacun fait un peu comme il veut et du coup les bouquins sont pas forcément dans tous les formats.

Je suis pas contre l'idée de parser de l'ePub, mais faut juste voir le ratio travail / bénéfice :)

change la déscription de length

Gaet81 · 2019-04-11T20:01:24Z

Ok, j'ai renommé le fichier readme

lissyx · 2019-04-12T08:57:58Z

Ok, j'ai renommé le fichier readme

Heu t'as renommé et tout mis en français ?

lissyx · 2019-04-12T08:58:09Z

@Gaet81 Faut que tu rebases, désolé :/

lissyx · 2019-04-18T09:21:16Z

@Gaet81 Dès que tu peux rebase sur master et corriger la partie qui doit rester en anglais, c'est bon pour moi :)

Gaet81 · 2019-04-18T17:36:19Z

Salut,

J'ai retiré les phrases en anglais.
Pour le rebase je ne sais ni le faire depuis mon browser ni depuis github desktop...
Il semble que ce soit à toi de le faire lorsque tu merges: https://github.blog/2016-09-26-rebase-and-merge-pull-requests/

lissyx · 2019-04-18T17:42:35Z

Cette option ne fonctionne pas dans le cas de conflits comme actuellement 😕, je connais pas github desktop

lissyx · 2019-04-18T17:43:38Z

Mais il faut tout mettre en anglais et pas en français 😕

Gaet81 added 6 commits March 29, 2019 20:24

Ajout d'information

510f927

Description de ce dépôt et de comment aider

Update README.md

e245c9d

Update README.md

0ddb3ee

Amélioration de la documentation

559122d

Ajout de détails

3f33c9b

Ajout de détails sur Adresses et Débats assemblée nationale

Add more info over the files

15a0021

lissyx requested changes Apr 4, 2019

View reviewed changes

README.md Outdated Show resolved Hide resolved

README.md Outdated Show resolved Hide resolved

Gaet81 added 2 commits April 8, 2019 21:45

Supprime la ligne demandée

91966d9

Modification pour enlever la référence à deepspeech

0401df6

Gaet81 added 2 commits April 11, 2019 20:49

Rename README.md to CONTRIBUTING.md

3529242

Update CONTRIBUTING.md

cd071f1

change la déscription de length

traduction des textes anglais en français

7fa664c

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Améiloration de documentation #27

Améiloration de documentation #27

Gaet81 commented Apr 3, 2019 •

edited

lissyx commented Apr 4, 2019

lissyx left a comment

lissyx commented Apr 4, 2019

Gaet81 commented Apr 8, 2019

Gaet81 commented Apr 8, 2019

lissyx commented Apr 8, 2019

lissyx commented Apr 8, 2019

lissyx commented Apr 8, 2019

Gaet81 commented Apr 11, 2019

Gaet81 commented Apr 11, 2019

lissyx commented Apr 11, 2019

Gaet81 commented Apr 11, 2019

lissyx commented Apr 12, 2019

lissyx commented Apr 12, 2019

lissyx commented Apr 18, 2019

Gaet81 commented Apr 18, 2019

lissyx commented Apr 18, 2019

lissyx commented Apr 18, 2019

Améiloration de documentation #27

Are you sure you want to change the base?

Améiloration de documentation #27

Conversation

Gaet81 commented Apr 3, 2019 • edited

lissyx commented Apr 4, 2019

lissyx left a comment

Choose a reason for hiding this comment

lissyx commented Apr 4, 2019

Gaet81 commented Apr 8, 2019

Gaet81 commented Apr 8, 2019

lissyx commented Apr 8, 2019

lissyx commented Apr 8, 2019

lissyx commented Apr 8, 2019

Gaet81 commented Apr 11, 2019

Gaet81 commented Apr 11, 2019

lissyx commented Apr 11, 2019

Gaet81 commented Apr 11, 2019

lissyx commented Apr 12, 2019

lissyx commented Apr 12, 2019

lissyx commented Apr 18, 2019

Gaet81 commented Apr 18, 2019

lissyx commented Apr 18, 2019

lissyx commented Apr 18, 2019

Gaet81 commented Apr 3, 2019 •

edited