Filtrer les symboles indésirables #50

dbsaymen · 2019-06-14T12:16:52Z

No description provided.

lissyx · 2019-06-14T12:26:14Z

CommonVoice-Data/bano.py

@@ -38,6 +38,7 @@
    (re.compile(r'(\s|^)0(\s|$|,)'), r'\g<1>zéro\g<2>'),
    (re.compile(r'(\s|^)0(\s|$|,)'), r'\g<1>zéro\g<2>'),
 ]
+FILTER_SYMBOLES_REG=re.compile(r'[\{\}\[\]«»_\|\(\)\\…(^—)=&\*/µ#’@℗`~¹½¼¾¿º±↨↑↓▼→▲←↔∟§°‼¸‰‘¶“”•—´☺☻♥♦♠♣•◘○◙♂►♀☼♫♪¢¦Ξ≈˜†√ƒοΔδΛΓκιςζυσρΣγτθΘφΦηχξβωγΩΨ◊░▒▓│├╚┼┬┴└┐┤╝╗╬╣║ßÞ═™›³ª¯¬®]+')


Haha, on a tout ça, ou t'as généré une liste au cas où?

hhh j'ai commencé par des symboles qui existe déja puis j'ajoute d'autres au cas où

Les simples quotes (littéraires) ne doivent pas être strippées. Nombre de phrases en dépendent lourdement et deviendraient illisibles sans elles.

Les doubles quotes (littéraires) (2239) : Je suggérerais d'uniformiser sur les double-quote anglaises mais sans stripper. Je pense qu'elles aident à la lecture plus qu'elles ne la gêne. Ex: On parle alors de “taux spécial” ou Un jour, ils seront réunis dans un jardin, appelé “le jardin des âges”.

Les & : doivent être substitués par "et", exemple (Cocktail & Culture). 700 phrases deviendraient illisibles sans eux. Cas particulier, les expressions telles que Tara Sports & Entertainment se disent Tara Sports and Entertainment. Je pense qu'il faut donc les préserver.

Les ß : 239 noms propres allemands. Je suis d'avis de tout bonne supprimer ces phrases où à défaut de remplacer par "ss".

Les — (dashes littéraires) : Ambigu. 2253 occurrences. Parfois utilisé comme séparateur comme -, ex Saskatoon—Rosetown—Biggar mais le plus souvent comme césure Il reliait les fortifications — aujourd’hui disparues — de la ville telle une parenthèse et le plus souvent une virgule. Quelque soit le décision, ce n'est pas à supprimer.

ω et multiples autres lettres grecques (251): A remplacer par "omega" sans quoi les phrases deviennent incompréhensibles. Ex: Par exemple, le type d'ordre des nombres naturels est ω. ou Il utilise bien sûr également la notation ∼, mais jamais ω ou Θ

Pour les symboles, à supprimer je dirais. Ex: Le symbole † indique un taxon éteint.

Les = (100) : Supprimer les phrases. Elle sont le plus souvent incompréhensibles. Ex: ==JOURNEE un SCENE un== Le bord de la Tamise. ou Bas latin traucum = trou, d’origine gauloise. Parfois remplacer par "égal" aurait eu du sens, eg: Quand K=R, elle fournit aussi des informations sur le groupe de Lie associé mais identifier ces cas est impossible.

Les 5694 … : À supprimer en fin de phrase (ils n'apportent pas grand chose en prononciation). Eg: Très vite, la fête dégénère…. Ils indiquent parfois une phrase inadéquate (coupure), eg: Cette panne est née ….. En milieu de phrase, il indique une pause utile à la diction, ex: Mais, en vain… Esseulé et démuni, André dissimule ses problèmes à sa famille.

Les 164 () peuvent se substituer par des virgules dans certains cas mais elles sont largement utilisées pour les didascalies (assemblée-nationale) et certaines adresses.

Le ° et º (93) peut être remplacé par "numéro" lorsque précédé d'un "n". Autrement, la phrase devrait être supprimée complètement (ex douzeº pour douzième).

Le reste (229 occurrences) indique systématiquement des phrases à supprimer. Formule mathématique, OCR/template ou formatage erroné,

drzraf · 2020-12-31T14:25:30Z

On parle de filtrer les symboles avant de proposer les phrases aux utilisateurs.
N'est-ce pas là une perte de sens qui rend la diction plus difficiles ?
Ces symboles (hormis, µ, @, et les lettres grecques) ne seraient de toute façon pas prononcés par le locuteurs.

Ne serait-il pas plus judicieux de conserver certains de ces symboles dans le voice-collector, mais de les filtrer au moment de l'entraînement.

Les parenthèses ou les accolades par exemple, ont un rôle de ponctuation (et donc d'intonation) parfois important.
D'autres symboles peuvent aussi aider le locuteur à percevoir le contexte de la phrase.

lissyx · 2020-12-31T15:43:19Z

On parle de filtrer les symboles avant de proposer les phrases aux utilisateurs.
N'est-ce pas là une perte de sens qui rend la diction plus difficiles ?
Ces symboles (hormis, µ, @, et les lettres grecques) ne seraient de toute façon pas prononcés par le locuteurs.

Ne serait-il pas plus judicieux de conserver certains de ces symboles dans le voice-collector, mais de les filtrer au moment de l'entraînement.

Les parenthèses ou les accolades par exemple, ont un rôle de ponctuation (et donc d'intonation) parfois important.
D'autres symboles peuvent aussi aider le locuteur à percevoir le contexte de la phrase.

L'expérience a montré le contraire :

laisser les symboles induits les gens erreur, ils ne savent pas ce qu'ils doivent faire, certains vont les lires, certains non
les filtrer au moment de l'entraînement, c'est "trop tard", l'ambiguité est déjà présente
la ponctuation est plutôt un soucis en cas de synthèse vocale, mais pas vraiment en cas de reconnaissance vocale

On a vraiment besoin que les données présentées aux personnes qui s'enregistrent soient non ambigûes, parce que quelque chose d'ambigu ça va dégrader la qualité de la reconnaissance par la suite : si on a des caractères surnuméraires (les symboles dont tu parles précédemment) qui sont aléatoirement prononcés ou pas, ça va apprendre n'importe comment.

drzraf · 2020-12-31T17:54:22Z

Ok.
Si le process impliquant CommonVoice-Data/bano.py est lancé à nouveau, alors un nouveau set de phrases (correctes) sera importé dans le sentence collector.
Mais les nouvelles phrases (strippées) ne remplaceront pas les phrases non-strippées, mais s'y ajouteront, n'est-ce pas ?

Donc in-fine, les phrases non-strippées déjà importées actuellement continueront d'être proposées aux utilisateurs, avec les ambiguïtés que cela représente.

Sur cette PR (comme sur d'autres issues relatives aux typos), semble se poser la question de la facilité à supprimer des phrases une fois qu'elles sont dans la DB du sentence-collector. Pourtant, d'après https://github.com/common-voice/sentence-collector/ les phrases ont toutes un Sentence.ID qui devrait permettre leur mise à jour.

Dans le cas suppression/réimport:

Idéalement, la regexp devrait être donc être utilisée pour extraire les phrases contenant ces caractères et les rejeter en batch.
Ça se passe comment ? Il ne semble pas y avoir de endpoint, mais si on produit un .txt avec les phrases à rejeter, il vous est possible de faire l'opération manuellement dans la DB?

Dans le cas mise-à-jour (qui semble possible étant donné que ces transformation ne devaient pas rendre caduques les clips déjà enregistrées), il doit y avoir des script qui font ça, n'est-ce pas ?

Filtrer les symboles indésirables

8027cc8

lissyx reviewed Jun 14, 2019

View reviewed changes

Merge branch 'master' into filter_data

07860ed

drzraf mentioned this pull request Mar 30, 2023

[dataset] French, proper nouns. garbage sentence removal common-voice/common-voice#3785

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Filtrer les symboles indésirables #50

Filtrer les symboles indésirables #50

dbsaymen commented Jun 14, 2019

lissyx Jun 14, 2019

dbsaymen Jun 14, 2019

drzraf Mar 30, 2023

drzraf commented Dec 31, 2020

lissyx commented Dec 31, 2020

drzraf commented Dec 31, 2020

Filtrer les symboles indésirables #50

Are you sure you want to change the base?

Filtrer les symboles indésirables #50

Conversation

dbsaymen commented Jun 14, 2019

lissyx Jun 14, 2019

Choose a reason for hiding this comment

dbsaymen Jun 14, 2019

Choose a reason for hiding this comment

drzraf Mar 30, 2023

Choose a reason for hiding this comment

drzraf commented Dec 31, 2020

lissyx commented Dec 31, 2020

drzraf commented Dec 31, 2020