Thai Language not working properly #12866
atawur
started this conversation in
Language Support
Replies: 1 comment
-
For Thai spacy currently only supports tokenization through the third-party library python -m pip install spacy[th] import spacy
nlp = spacy.blank("th") The languages supported by If you have a working tokenizer, then I think the sentencizer will work for Thai. I'm not sure whether textrank requires further annotation like POS tags that wouldn't be available without additional pipeline components. |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
How to reproduce the behaviour
I want to extract keywords from Thai language. Since there is no specific support for Thai language, I used xx_ent_wiki_sm as multi-language but could not detect anything for Thai language. If we use xx_ent_wiki_sm in other languages then the rank is always 0.
Here is my code:
import spacy
import pytextrank
import json
text = """
ถ้ายังไม่รู้เลยเหรอ.ไม่รู้ด้วยว่าชอบมาโอ้โห.คุณแม่ของพี่ตอนนี้ถือว่าน่าสนใจมาก.
คุณแม่นี่เปรียบเทียบเหมือนน้องนี้ได้เลยนะ.มีเอมโอชกันนะคะ.ขุ่นขาแบบว่า.เพราะแบบว่าขึ้นหมายถึงปกติปุ๊บ.
ไม่รู้เลยว่า.กิจ.หนึ่ง.ปฏิกิริยาแบบผู้ชายมาปฏิกิริยาแบบนี้โดนด่าลูกคนเลยรู้หมดเลยนะคะ.
คุณฉะนั้นเป็นโน่นนี่หรือเปล่าเพราะฉะนั้นเป็นนอมินีหรือเปล่าเอ่ยออกอากาศแล้วนะคะคุณถนัดรู้เลยฉะนั้นจะเก่งมากจับตามองทุกความเคลื่อนไหวเลยทีเดียวนะคะบอกก่อนนะว่ากล้องเรามีทั้งหมด.แปด.
จากกล้าเอ่ยอะไรสําคัญเลย.เรามีทั้งหมด.แปดเก้า.น่ะ.ชอบตัวไหน.จัดได้เลย.ชอบตัวไหนจัดได้เลยค่ะอาจารย์ชอบ.ส่วนข้อแคปไว้หน่อยแล้วเยอะเลย.ไม่ใช่ทําเรื่องภาษา.
ถ้าการกดใส่ตะกร้ารถต้องแจ้งก่อนนะว่ามันไม่ได้เป็นการจัดเก็บราคาสินค้าไม่ให้ราคาเท่านั้นตลอดไปเมื่อลดลงราคาลงลายไปเนี่ยราคามันจะเด้งขึ้นมาประมาณ.หนึ่งร้อย.ถึง.สองร้อย.บาทเลยทีเดียวนะคะแล้วคูปองตรงนี้ก็จะไม่สามารถใช้ได้ด้วยนะคะเพราะอาจารย์เพราะฉะนั้นแล้วราคาดีที่สุดเลยจะเป็นราคาตอนรถอยู่ในไลฟ์จะได้ราคาดีที่สุดเลยค่ะอาจารย์นะเพราะฉันแล้วมาจากซูใช่หรือไม่ใช่ที่ยังอยู่.เพราะว่าผู้ชายน่ะค่ะภาษาที่ยังอยู่กับผู้ชายให้รู้ไว้เลยรายงานเดียว.ใครก็ตามที่ช่วยลดวันนี้นะคะ.ขอให้เป็นบนหลังนั้น.ขอให้ไม่ปวดหัวมัน.ปวดฟันนะคะขอให้มีความสุขอายุยืนหนึ่งพัน.ปีหนึ่งพัน.ปีนะ.โอ้ยอายุยืน.หนึ่งพัน.ปีเลยมาจานะแต่ว่าถ้าเกิดว่าคุณค่าจ้างอยากได้ความปังต้อง.เจ็ดสิบ.หมายจริงเพราะว่ายังไงเขาเป็นรับการศูนย์ไทย.หนึ่งร้อย.ปีเอ้ยงานนี้เลยขอให้นายนะรู้.โอ้ย.สาธุค่ะแม่โอ๋นะคะ.คุณภาษาขอให้.ตามวันนี้นะคะ.บอกเลยนะคะว่าแม่ตื่นมาโอนเงินให้เรียบร้อยแล้วแม่ก็นอนต่อ.แล้วก็เข้ามาดูแลตัวตอนเช่า.โดยแม่เป็นกําลังใจที่ดีมากเลยนะ.จริงจริงคือแบบว่าเข้ามาดูแลตลอดทุกวันเลย.เวลาว่าง.แต่ถ้าไม่ว่างก็ไม่ดูไงถ้ารู้อยู่แล้ว.เรารู้กันอยู่แล้วไงก็ได้.อุ้ยน่ารักมากเลยค่ะ.แมวส่งวันนี้ส่งของวันไหนรับสั่งวันนี้เราส่งให้วันจันทร์แน่นอนนะถ้าเกิดว่าจะได้ของรถแน่ใจว่าจะส่งของวันในขณะที่คลังสินค้า.แต่ว่าขนส่งส่วนใหญ่แล้วจะไม่ทํางานเสาร์.อาทิตย์.เพราะฉะนั้นแล้วว่าจ้างรถขอยืนพื้นเป็นเวลาทําการจันทร์ถึงศุกร์นะกรุงเทพปริมณฑลประมาณ.หนึ่ง.ถึง.สอง.วันต่างจังหวัดขออนุญาต.สอง.วันถึง.สาม.วันนะคะคุณจริงน้า.ถูกต้องไม่เกินวันจันทร์วันอังคารเลยได้รับของแน่นอนนะคะ.เพราะว่าทรงไว้เหมือนติดจรวดเลย.ไม่ใช่บาปกรรมนะคะแต่เป็นเจ็ด.สิบ.หมื่น.ห้า.ภาษาสองวันมันติดจรวดเลยมาจ่าส่งถึงหน้าบ้านคุณนะคะ.เลือกได้เลยว่าจะเจอเรื่องแบบไหน.เก็บเงินปลายทางหรือว่าโอนผ่านธนาคารนะคะหรือว่าเก็บพันธุ์บัตรเครดิตนะคะโดยทุกวันนี้ไว้ได้และมีหลายเพลงได้นะคะต้องทําเลยคุณอาจารย์ฉ่ําเวอร์อยากได้จัดได้มาสามบอกได้เลยว่าวันนี้มีแต่ได้กับได้ได้กับได้ได้โดนนะคะเพราะว่าโดนแน่นะคะอาจารย์นี่เลยจัดไปเลยราคาตัวนี้นะคะรถไปสี่ร้อย.บาทหรือไล่วิ่งมากแล้วรถก็เลยเสียร้อยบาทซื้อวันนี้โคตรคุ้มปกติไม่ค่อยพูดคํานี้นะไม่ค่อยพูดคําว่าโค้ชเท่าไหร่จะพูดคําหยาบคนอื่นแทนนั้นแต่วันนี้ขออนุญาตพูดนิดนึงน้ํามันหลุดปากไปนะคะแต่จริงแล้วคือคุ้มจริงคุณค่าจากหลุมมากเลยซื้อวันนี้นะคุณรู้สึกสุดซึ่งวันนี้ลดสูงสุดถึง.สี่ร้อย.บาทวาจาแล้ว.กล้องมันเป็นกล้องที่ใช้ได้ยาวนานนะถึงแม้ว่าเราจะรับประกันหนึ่งปีเนี่ยก็ถือว่ายาวนานนะแต่กล้องอุ้ยยาวนานกว่านั้นอีก.ไม่มีแบบนี้อยู่ประมาณห้าปี.คุณลูกค้าจ้า.แล้วเขาซื้ออะไรลงมาเข้าซื้อน้อง.ตอนนี้น้องมีอะไรอ่ะ.น้องวันเอสค่ะน้องเขาซื้อน้องวัน.เอสไปแต่ว่าทั้งนี้ทั้งนั้น.รถต้องแจ้งก่อนนะว่าอาจจะขึ้นอยู่กับการใช้งานของคุณ.
"""
load a spaCy model, depending on language, scale, etc.
nlp = spacy.load("xx_ent_wiki_sm")
nlp.add_pipe('sentencizer')
nlp.add_pipe("textrank")
doc = nlp(text)
print(doc._.phrases)
Output
[]
Your Environment
Beta Was this translation helpful? Give feedback.
All reactions