Skip to content

Ohjeita tietokoneavusteiseen oikolukuun

aapo edited this page Nov 3, 2012 · 5 revisions

Ohjeita oikolukuun

(Ubuntu specifiset ohjelmien asennusohjeet).

###HAE aputiedostot, jos eivät vielä virallisessa versiossa mukana

wget https://raw.github.com/aapo/oppikirjamaraton-maa1/a79f557de0d2fbf0f12daeeaa68fbeb3236a7e0e/sisalto/falset_pois.sh
wget https://raw.github.com/aapo/oppikirjamaraton-maa1/a79f557de0d2fbf0f12daeeaa68fbeb3236a7e0e/sisalto/false_positive_words.txt

##MUUTA pdf tekstimuotoiseksi (helpompi kuin copy-paste käsin)

#sudo apt-get install poppler-utils
pdftotext kirja.pdf kirja.txt

HUOM: varsinkin monipalstaiset (eli marginaalimerkinnät ja kaavat) saattavat aiheuttaa ylimääräisiä kirjaimia sanoihin.

###Muodosta LISTA virheellisistä sanoista (ilman kontekstia)

#sudo apt-get install libvoikko-dev voikko-fi
voikkogc --tokenize < kirja.txt | grep  --color=no W: | sed 's/W://g' | sed 's/"//g' | sed 's/ //g' >   sanalista.txt
voikkospell < sanalista.txt | grep --color=no W: | sed 's/W: //g'  | uniq > virheelliset_sanat.txt

###KARSI listasta tunnetut väärät hälytykset (numerosarjat+nimet+englanti+ruotsi+jne) pois. sh falset_pois.sh

###Virheelliset sanat löytyvät tiedostosta: virheelliset_sanat.txt cat virheelliset_sanat.txt

###virheellisen sanan voi sitten ETSIÄ lähdekoodista vaikkapa näin (esimerkiksi 'rational')

find 0* -wholename -prune -o -type f -print0 | xargs -0 grep -niI --color=yes rational

##Tai käy INTERAKTIIVISESTI tekstimuotoinen läpi.

# Tämä voi muuttua puuduttavaksi koska numerosarjoja on jonkin verran (esim K2006)
#   Karsiminen helpottaa.
#sudo apt-get install aspell aspell-fi
aspell check kirja.txt