Skip to content

kemalcanbora/zemberek_parser

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

84 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Zemberek Parser

Zemberek NLP kütüphanesini Python 3 ile kullanabilmenizi sağlar.

Kullanım

Eğer ubuntu ve java-8-openjdk kullanıyorsanız otomatik olarak çalışacaktır diğer durumlarda setting.py içerisinde libjvmpath argümanı için kendi yolunuzu yazın. libjvm.so dosyasının Windows muadili jvm.dll'dir. Bu argümana bir değer verilmez ise JAVA_HOME veya JRE_HOME ortam değişkenlerine göre otomatik olarak bulunmaya çalışılacaktır. Bu repo ile gelen zemberek-tum-2.0.jar dosyasını farklı bir klasöre taşıdıysanız bu yolu da zemberekJarpath argümanına atamalısınız. stopwords.words('turkish') komutu ile Türkçe stopwords kullanmak istiyorsanız, ~/nltk_data/corpora/stopwords/turkish dosyasının var olduğuna emin olunuz. Ek hatırlatma eğer isterseniz ZemberekTool() içerisine libjvmpath, zemberekJarpath değişkenleri aracılığı ile path verebilirsiniz.

zemberekTool = ZemberekTool(libjvmpath = libpath, 
                            zemberekJarpath = zemberekJaryolu )

MacOS'da otomatik olarak jar dosyasını bulamıyor zemberek_python içerisinde ekli olan dosyanın yolunu verebilirsiniz. Settings.py dosyasını editleyebilirsiniz.

Genel Bakış

# Tool'da bulunan bazı fonksiyonlar
    - KELIMEYI_OGELERINE_AYIR
    - CUMLEDE_GECEN_KOKLERI_BUL
    - CUMLEYI_PARCALARA_AYIR
    - KELIME_ONERICI
    - KELIME_HECELE
    - NLTK_FILES_DOWNLOAD
    - PERSONIFICATION_COPULA
    - INFERENTIAL_MOOD
    - CONVERT_PDF_TO_TXT
    - SENTENCE_CORRECTOR

Örnekler

from zemcore.zemberek.parser import Run, Tool

text = "merhaba"
result = Run(text, Tool.KELIME_HECELE)
print(result)

# output: ['mer', 'ha', 'ba']
from zemcore.zemberek.parser import Run, Tool

text = "gezegnde bi vibüs var"
result = Run(text, Tool.SENTENCE_CORRECTOR)
print(result)
# output:  gezende bir virüs var
Yeni yenilik notları
  • Kefir eklendi!
  • Buglar düzeltildi bir tık daha derli toplu oldu
  • PDFleri metine dönüştürme fonksiyonu eklendi
  • TurkishSpellChecker-Py eklendi
Bug ve Diğer durumlar
  • Kütüphaneyi kullandığınızda karşılaştığınız hataları belirtirseniz (PR, MR açabilirsiniz veya direk bana ulaşabilirsiniz)
  • Tez veya çalışmanızda repoyu kaynak verirseniz başka insanlar da faydalanabilir.

CoLab

  • !apt-get install openjdk-8-jdk-headless -qq > /dev/null
  • !pip install git+https://github.com/kemalcanbora/zemberek_parser.git

Releases

No releases published

Packages

No packages published

Contributors 4

  •  
  •  
  •  
  •  

Languages