Skip to content

d009/EstNLP

Repository files navigation

Eesti keele töötlus Pythonis

TÜ eesti ja üldkeeleteaduse instituudi aine Eesti keele töötlus Pythonis (HVEE.04.004) jaoks loodud õppematerjalid ja ülesanded. Materjalid on kokku pannud Siim Orasmaa, Kristiina Vaik, Sandra Eiche ja Dage Särg. Küsimusi ja kommentaare võib julgesti saata aadressile: siim.orasmaa {at} ut.ee .

Praktikumide teemad

  1. praktikum: Pythoni virtuaalkeskkonnad, JupyterLab ja Pythoni baasteadmiste kordamine
  2. praktikum: Teksti segmenteerimine, morfoloogiline analüüs, õigekirjakontroll. Sõnapilved
  3. praktikum: Morfoloogilise analüüsi erijuhud: korpusepõhine ühestamine, analüüs kasutajasõnastiku abil, Giellatekno märgendid
  4. praktikum: Csv-failid. Pandas. Andmete puhastamine. Lihtsad nimisõnafraasid. Märgenduste visualiseerimine I
  5. praktikum: Käsureaprogrammid ja kodeeringud, morfoloogiline süntees ja nimeüksuste tuvastamine
  6. praktikum: Json andmeformaat ja märgendatud tekstide salvestamine failidesse / laadimine failidest. Ajaväljendite tuvastamine ja visualiseerimine
  7. praktikum: Wordnet. Heatmap'i loomine. Word2vec. Pdf-i lugemine Pythonis
  8. praktikum: Süntaktiline analüüs. Univesal Dependencies ja CoNLL-U formaat. XML ja HTML sisendi lugemine
  9. praktikum: Tekstitöötluse koodi pakendamine märgendajate abil. Osalausestamine. Lisad: Sissejuhatus objekt-orienteeritud programmeerimisse. Märgenduste visualiseerimine II
  10. praktikum: Veebiga suhtlemine ja tekstiandmete kogumine veebist. Lisad: Verbiahelate tuvastamine. Serialiseerimine.
  11. praktikum: Info eraldamine. Suurte andmetega töötamine. Twitter'i säutsude analüüs. Vikipeedia artiklite töötlus. Fraasimärgendaja ja grammatikad
  12. praktikum: Dokumentide vektoresitus, klasterdamine ja visualiseerimine. Lisad: Optilise tekstituvastuse katsetamine. Berti katsetamine

Materjalidega tutvumine

  • Kui soovid materjalidega tutvumisel koodinäiteid käivitada ja katsetada, siis on vaja kõigepealt luua enda arvutisse sobiv töökeskkond. Juhised selleks leiad esimesest praktikumist.
  • Materjalide veebis lugemiseks on soovitatav kasutada nbviewer.jupyter.org veebilehte, kuna seal on garanteeritud Jupyter-i märkmike korrektne kuvamine. Alustada võib näiteks siit.
  • Praktikumide materjalid on olemas ka HTML failidena siin kaustas. Neid saad veebis lugeda htmlpreview.github.io abil ning vajadusel ka alla laadida ja avada oma arvuti veebilehitseja abil.

Õppematerjalide uuendamist on toetanud HITSA

HITSA logo