Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Oftest kombinert med #33

Open
jarib opened this issue Feb 22, 2015 · 5 comments
Open

Oftest kombinert med #33

jarib opened this issue Feb 22, 2015 · 5 comments

Comments

@jarib
Copy link
Member

jarib commented Feb 22, 2015

Hadde vært gøy å kunne se hvilke andre ord som oftest kombineres med søkeordet:

"kapital" -> "arbeidende kapital"

@ivarref
Copy link
Contributor

ivarref commented Feb 23, 2015

God idé det.

Kom over dette forøvrig:

http://www.hf.uio.no/iln/forskning/grupper/digital-humaniora/arrangementer/2015/hvilke-muligheter-gir-digitalisering.html

On Sunday, February 22, 2015, Jari Bakken notifications@github.com wrote:

Hadde vært gøy å kunne se hvilke andre ord som oftest kombineres med
søkeordet:

"kapital" -> "arbeidende kapital"


Reply to this email directly or view it on GitHub
#33.

@jarib
Copy link
Member Author

jarib commented Feb 23, 2015

Jeg skrev til elasticsearch-lista for å høre om de hadde noen tips til hvordan dette kunne gjøres, men har ikke fått all verden respons.

Var det sånn at du hadde jobbet litt med Lucene direkte? Kanskje vi kunne laget en plugin til elastiscsearch som gir oss det vi vil. Det er dessuten en veldig kul erfaring å ha med videre.

Det arrangementet er jo midt i blinken. Tror jeg skal prøve å komme meg på det.

@jarib
Copy link
Member Author

jarib commented Feb 24, 2015

Alternativt kan vi lage en slags versjon av dette vha significant_terms. Det blir ikke ord som kommer rett før / etter, men «sammen med» søkeordet. For «kapital» returnerer significant_terms f.eks.:

"kapital",
"arbeidende",
"formuesskatten",
"risikovillig",
"kapitalen",
"bedrifter",
"formuesskatt",
"innovasjon",
"såkornfond",
"næringsliv",

@jarib
Copy link
Member Author

jarib commented Feb 25, 2015

Vogue-analysen fra Yale har en interessant side med topic modeling, som viser fram relaterte ord for et diverse søkeord:

image

Her er det også interessant å vise forskjeller over tid. I Vogue-eksempelet kan f.eks. språket som brukes rundt søket "art" endre seg fra en redaktør til en annen.

Vi kan se for oss at språket om et gitt tema (søkeordet) endrer seg mellom stortingsperioder / regjeringer.

@jarib
Copy link
Member Author

jarib commented Feb 25, 2015

Nasjonalbibliotekets Ngram viewer lar en søke etter Ngram-fraser ved å sette * i søkefeltet.

F.eks.:

image

Ser ut som de her først finner de topp 10 Ngrammene som matcher, og gjør de som individuelle søk.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants