Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

NER post processing stap toevoegen #44

Open
kosloot opened this issue Nov 30, 2017 · 3 comments
Open

NER post processing stap toevoegen #44

kosloot opened this issue Nov 30, 2017 · 3 comments
Assignees
Labels

Comments

@kosloot
Copy link
Collaborator

kosloot commented Nov 30, 2017

Naast de gazeteers, is er behoefte aan een lijst van NE's die in een Post=processing stap alsnog keihard over de standaard NE's heen gezet worden.

  • Dit moet optioneel zijn.
  • Toegekende NE's moeten netjes overschreven worden. Langere kunnen vervangen worden.
  • de lijst moet wel zorgvuldig opgesteld worden. Liefst alleen woorden die NIET al als een gewone NE getagd zijn.
@kosloot kosloot added the NER label Nov 30, 2017
@kosloot kosloot changed the title NER post procession stap toevoegen NER post processing stap toevoegen Nov 30, 2017
@kosloot
Copy link
Collaborator Author

kosloot commented Dec 6, 2017

Een eerste versie is nu geïmplementeerd.

Nu wachten op een serieuze test

@proycon
Copy link
Member

proycon commented Aug 21, 2018

Dit sluit een beetje aan bij een vraag die ik heb dus ik stel het hier maar: hoe zit het met de precendence/volgorde van de gazetteers? Ik zie dat ze in ners.known staan, geldt hier "de eerst match wint" of de "de laatste match wint"? (in geval van ambiguiteit tussen meerdere gazetteers dus). En zoals ik nu begrijp komen de gazetteers altijd na de gewone context-sensitive tagging? (het zou misschien helemaal mooi zijn als ook dit configureerbaar is)

@kosloot
Copy link
Collaborator Author

kosloot commented Aug 22, 2018

wel: bij inlezen van de gazeteers, worden de entities opgeslagen op lengte.
Daardoor wordt geregeld dat de NE 'New York Airport' zal winnen van 'New York'
Daarnaast is het per lengte gewoon een map. dus de laatste entry wordt bewaard.
Dus als 'New York loc(city)' komt NA 'New York loc' in welke gazeteerlijst dan ook, dan wordt alleen de eeste gebruikt.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

3 participants