Training data should include bullet-like characters #45

wollmers · 2021-08-17T13:35:10Z

Modern texts especially business documents contain bullet-like symbols e. g. for lists. Also middle dot is used with some frequency. While the recognition results for eng and deu are nearly perfect, the results for these symbols are "random".

For a next release of trained models the training data should be improved in this direction and maybe other symbols as well.

Test image:

Tesseract result with -l eng:

List of vehicles:
* Trucks
* vans
* bicycles
Liste von Fahrzeugen:
e Lastwagen
e Transporter
e Fahrrader

Result with -l deu:

List of vehicles:
« Trucks
« vans
+ bicycles
Liste von Fahrzeugen:
e Lastwagen
e Transporter
e Fahrräder

The text was updated successfully, but these errors were encountered:

wollmers mentioned this issue Aug 18, 2021

Wordlists and training texts contain lots of errors #1

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Training data should include bullet-like characters #45

Training data should include bullet-like characters #45

wollmers commented Aug 17, 2021

Training data should include bullet-like characters #45

Training data should include bullet-like characters #45

Comments

wollmers commented Aug 17, 2021