Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

http error abort #47

Closed
ablaette opened this issue Mar 31, 2024 · 2 comments
Closed

http error abort #47

ablaette opened this issue Mar 31, 2024 · 2 comments

Comments

@ablaette
Copy link
Contributor

get_dbpedia_uris() aborts when processing the following string.

[2024-03-31 04:44:30.073019] Der Gesetzentwurf Änderung Bürgerlichen Gesetzbuch
Der Gesetzentwurf Änderung Bürgerlichen Gesetzbuchs Gesetze — Drucksache 7/63 — Rechtsausschuß Ausschuß Raumordnung Bauwesen Städtebau Gesetzentwurf Übereinkommen Internationale Fernmeldesatellitenorganisation „ INTELSAT " — Drucksache 7/120 — Auswärtigen Ausschuß — federführend — Ausschuß Forschung Technologie Post Fernmeldewesen Gesetzentwurf Abkommen Parteien Nordatlantikvertrags Rechtsstellung Truppen hinsichtlich Bundesrepublik Deutschland stationierten ausländischen Truppen — Drucksache 7/119 — Auswärtigen Ausschuß — federführend — Verteidigungsausschuß Ausschuß Arbeit Sozialordnung Gesetzentwurf Abkommen Bundesrepublik Deutschland Republik Singapur Vermeidung Doppelbesteuerung Gebiete Steuern Einkommen Vermögen — Drucksache 7/106 — Finanzausschuß Gesetzentwurf Vereinbarung Bundesrepublik Deutschland italienischen Republik Erleichterungen fiskalischen Behandlung grenzüberschreitenden deutsch italienischen Straßengüterverkehrs — Drucksache 7/113 — Finanzausschuß — federführend — Ausschuß Verkehr Gesetzentwurf Abkommen Regierung Bundesrepublik Deutschland Regierung Vereinigten Königreichs Großbritanniens Nordirland steuerliche Behandlung Straßenfahrzeugen internationalen Verkehr — Drucksache 7/107 — Finanzausschuß — federführend — Ausschuß Verkehr Gesetzentwurf Abkommen Bundesrepublik Deutschland Republik Island Vermeidung Doppelbesteuerung Gebiete Steuern Einkommen Vermögen — Drucksache 7/99 — Finanzausschuß Gesetzentwurf Abkommen Bundesrepublik Deutschland Königreich Niederlande Krankenversicherung alte Rentner — Drucksache 7/110 — Ausschuß Arbeit Sozialordnung Gesetzentwurf Übereinkommen Internationalen Arbeitsorganisation Arbeitsaufsicht Landwirtschaft — Drucksache 7/109 — Ausschuß Arbeit Sozialordnung — federführend — Ausschuß Ernährung Landwirtschaft Forsten Gesetzentwurf Vereinbarung Bundesrepublik Deutschland Sozialistischen Föderativen Republik Jugoslawien Durchführung Abkommens Soziale Sicherheit — Drucksache 7/108 — Ausschuß Arbeit Sozialordnung Gesetzentwurf Übereinkommen Internationalen Arbeitsorganisation Schutz Arbeitnehmer ionisierenden Strahlen — Drucksache 7/105 — Ausschuß Arbeit Sozialordnung Gesetzentwurf internationalen Einheits Übereinkommen Suchtstoffe — Drucksache 7/126 — Ausschuß Jugend Familie Gesundheit — federführend — Rechtsausschuß Haushaltsausschuß gemäß § 96 GO Gesetzentwurf Übereinkommen Ausarbeitung Europäischen Arzneibuches — Drucksache 7/125 — Ausschuß Jugend Familie Gesundheit Gesetzentwurf Europäischen Übereinkommen Schutz Tieren beim internationalen Transport Drucksache 7/127 — Ausschuß Ernährung Landwirtschaft Forsten Gesetzentwurf Übereinkommen Schutz Hersteller Tonträgern unerlaubte Vervielfältigung Tonträger — Drucksache 7/121 — Rechtsausschuß Gesetzentwurf Haager Kaufrechtsübereinkommen — Drucksache 7/115 Rechtsausschuß Gesetzentwurf Vertrag Bundesrepublik Deutschland Republik Österreich Führung geschlossenen Zügen Österreichischen Bundesbahnen Strecken Deutschen Bundesbahn Bundesrepublik Deutschland — Drucksache 7/134 — Ausschuß Verkehr Gesetzentwurf Abkommen Bundesrepublik Deutschland Mauritius Förderung gegenseitigen Schutz Kapitalanlagen — Drucksache 7/104 — Ausschuß Wirtschaft — federführend — Ausschuß wirtschaftliche Zusammenarbeit Gesetzentwurf Abkommen Assoziation betreffend Beitritt Mauritius Assoziierungsabkommen Europäischen Wirtschaftsgemeinschaft Gemeinschaft assoziierten afrikanischen Staaten Madagaskar sowie Änderung Internen Abkommens Finanzierung Verwaltung Hilfe Gemeinschaft — Drucksache 7/132 — Ausschuß Wirtschaft — federführend — Ausschuß wirtschaftliche Zusammenarbeit Entwurf Konsulargesetzes — Drucksache 7/131 — Auswärtigen Ausschuß — federführend — Rechtsausschuß Entwurf Einheitlichen Gesetzes internationalen Kauf beweglicher Sachen — Drucksache 7/123 — Rechtsausschuß Entwurf einheitlichen Gesetzes Abschluß internationalen Kaufverträgen bewegliche Sachen — Drucksache 7/124 — Rechtsausschuß Gesetzentwurf Änderung Hypothekenbankgesetzes Schiffsbankgesetzes — Drucksache 7/114 — Finanzausschuß — federführuend — Ausschuß Wirtschaft Rechtsausschuß Ausschuß Raumordnung Bauwesen Städtebau Gesetzentwurf Änderung Gesetzes Beaufsichtigung privaten Versicherungsunternehmungen Bausparkassen Drucksache 7/100 — Finanzausschuß federführend — Ausschuß Wirtschaft Rechtsausschuß Ausschuß Raumordnung Bauwesen Städtebau Gesetzentwurf Änderung Börsengesetzes — Drucksache 7/101 — Finanzausschuß — federführend — Ausschuß Wirtschaft Rechtsausschuß Gesetzentwurf Änderung Gesetzes Pfandbriefe verwandte Schuldverschreibungen öffentlich rechtlicher Kreditanstalten — Drucksache 7/112 Finanzausschuß — federführend — Ausschuß Wirtschaft Rechtsausschuß Ausschuß Raumordnung Bauwesen Städtebau Gesetzentwurf Änderung Gesetzes Finanzstatistik — Drucksache 7/98 — Haushaltsausschuß — federführend — Finanzausschuß Innenausschuß Ausschuß Arbeit Sozialordnung Gesetzentwurf Änderung Eichgesetzes — Drucksache 7/103 — Ausschuß Wirtschaft Gesetzentwurf Änderung Gesetzes Einheiten Meßwesen — Drucksache 7/102 — Ausschuß Wirtschaft Entwurf Zweiten Gesetzes Änderung Viehzählungsgesetzes — Drucksache 7/128 — Ausschuß Ernährung Landwirtschaft Forsten — federführend — Innenausschuß Haushaltsausschuß gemäß § 96 GO Gesetzentwurf Beruf Diätassistenten — Drucksache 7/116 — Ausschuß Jugend Familie Gesundheit Gesetzentwurf Änderung Fleischbeschaugesetzes — Drucksache 7/122 — Ausschuß Jugend Familie Gesundheit — federführend — Ausschuß Ernährung Landwirtschaft Forsten Gesetzentwurf Änderung Unterhaltssicherungsgesetzes Arbeitsplatzschutzgesetzes — Drucksache 7/129 — Verteidigungsschuß
request 60 failed, waiting for retry
CONTAINER ID NAME CPU % MEM USAGE / LIMIT MEM % NET I/O BLOCK I/O PIDS
d6b9b798e0e3 dbpedia-spotlight.de 0.33% 7.169GiB / 27.86GiB 25.73% 2.39GB / 14.9GB 2.32GB / 126MB 30
used (Mb) gc trigger (Mb) limit (Mb) max used (Mb)
Ncells 102161828 5456.1 160160022 8553.5 NA 160160022 8553.5
Vcells 839448126 6404.5 1309906545 9993.8 32768 1088650679 8305.8
[2024-03-31 04:44:53.774239] Der Gesetzentwurf Änderung Bürgerlichen Gesetzbuch

@ablaette
Copy link
Contributor Author

ablaette commented Mar 31, 2024

This is a reproducible example to provoke the abort.

library(polmineR)
library(dplyr)

# result is: 866887 871830
villain_paras <- corpus("GERMAPARL2") %>%
  hits(
    query = '"Gesetzentwurf" []* "Änderung" []* "Bürgerlichen" []* "Gesetzbuchs" []* "Gesetze" "—" "Drucksache" "7/63"',
    cqp = TRUE,
    s_attribute = "p",
    decode = FALSE
  ) %>%
  as.data.table() %>%
  pull("p")
  
villain_subcorpora <- corpus("GERMAPARL2") %>%
  subset(p %in% !!villain_paras) %>%
  split(s_attribute = "p")

# check that we got correct para (stopwords missing!)
villain_subcorpora %>%
  .[[1]] %>%
  get_token_stream(p_attribute = "word", collapse = " ")

# provoke abort
uritab <- get_dbpedia_uris(
  x = villain_subcorpora[[1]],
  language = getOption("dbpedia.lang"),
  max_len = 5600L,
  confidence = 0.35,
  support = 20, 
  api = getOption("dbpedia.endpoint"),
  logfile = logfile,
  retry = 1,
  verbose = FALSE,
  expand_to_token = TRUE,
  s_attribute = "ne_type"
)

@ChristophLeonhardt
Copy link
Collaborator

I think that after the observations described in #51, we are quite confident that these errors are related to the length of the document. Accordingly, the solution proposed in #51 should address this issue here and thus we might consider closing it?

@ablaette ablaette closed this as completed May 9, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants