-
-
Notifications
You must be signed in to change notification settings - Fork 708
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
WIP- ICU-13219 -u-dx #2676
base: main
Are you sure you want to change the base?
WIP- ICU-13219 -u-dx #2676
Conversation
<line> | ||
# Should no longer break at the dictionary points - it's not Thai language | ||
# Short Test | ||
<data>•โอํน• อะไป •จู่วาม •โล่น•</data> |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
I think this should be
<data>•โอํน •อะไป •จู่วาม •โล่น•</data>
```
the line break should happen after the ' ' not before.
# Should no longer break at the dictionary points - it's not Thai language | ||
# Short Test | ||
<data>•โอํน• อะไป •จู่วาม •โล่น•</data> | ||
#<data>•โอํน• •อะไป• •จู่วาม• •โล่น• •เปี่ยร• •อะลู่วาง• •แมะ,• •ปาย• •อัน• •แบ็จ• •อะโจํน• •ซา• •เมาะ.• •อัน• •ฮะบืน• •ตะ• •เวี่ยะ• •ตะ• •งี่ยาน,• •อัน• •ฮะบืน• •อีว• •อะปายฮ.•</data> |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
I think this should be
<data>•โอํน •อะไป •จู่วาม •โล่น •เปี่ยร •อะลู่วาง •แมะ, •ปาย •อัน •แบ็จ •อะโจํน •ซา •เมาะ. •อัน •ฮะบืน •ตะ •เวี่ยะ •ตะ •งี่ยาน, •อัน •ฮะบืน •อีว •อะปายฮ.•</data>
there should be no line break before the ' ' but only after. right? @eggrobin
#<data>•โอํน• •อะไป• •จู่วาม• •โล่น• •เปี่ยร• •อะลู่วาง• •แมะ,• •ปาย• •อัน• •แบ็จ• •อะโจํน• •ซา• •เมาะ.• •อัน• •ฮะบืน• •ตะ• •เวี่ยะ• •ตะ• •งี่ยาน,• •อัน• •ฮะบืน• •อีว• •อะปายฮ.•</data> | ||
#<word> | ||
# Should no longer break at the dictionary points - it's not the Thai language | ||
#<data>•โอํน• •อะไป• •จู่วาม• •โล่น• •เปี่ยร• •อะลู่วาง• •แมะ,• •ปาย• •อัน• •แบ็จ• •อะโจํน• •ซา• •เมาะ.• •อัน• •ฮะบืน• •ตะ• •เวี่ยะ• •ตะ• •งี่ยาน,• •อัน• •ฮะบืน• •อีว• •อะปายฮ.•</data> |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
For work break, this line should be
<data>•โอํน<200> •อะไป<200> •จู่วาม<200> •โล่น<200> •เปี่ยร<200> •อะลู่วาง<200> •แมะ<200>,• •ปาย<200> •อัน<200> •แบ็จ<200> •อะโจํน<200> •ซา<200> •เมาะ<200>.• •อัน<200> •ฮะบืน<200> •ตะ<200> •เวี่ยะ<200> •ตะ<200> •งี่ยาน<200>,• •อัน<200> •ฮะบืน<200> •อีว<200> •อะปายฮ<200>.•</data>
- the break should have status 200 (notice in the beginning of the test file it said " Break position, status == nnn" and ICU use 200 for "Tag value for words that contain letters, excluding hiragana, katakana or ideographic characters" https://unicode-org.github.io/icu-docs/apidoc/dev/icu4c/ubrk_8h.html#af9836cc79482f82ac12eefb1f70b14b9a945eb6dd49881b36d4e2c9f592d97197 )
- the '.' (fullstop) and ',' (comma) should be a separated word, not attached to the previous token as part of the word, right? @eggrobin
# Should no longer break at the dictionary points - it's not the Thai language | ||
#<data>•โอํน• •อะไป• •จู่วาม• •โล่น• •เปี่ยร• •อะลู่วาง• •แมะ,• •ปาย• •อัน• •แบ็จ• •อะโจํน• •ซา• •เมาะ.• •อัน• •ฮะบืน• •ตะ• •เวี่ยะ• •ตะ• •งี่ยาน,• •อัน• •ฮะบืน• •อีว• •อะปายฮ.•</data> | ||
|
||
#<locale sss@dx=zyyy> |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
using dx=zyyy is very troublesome . I filed a CLDR bug in https://unicode-org.atlassian.net/browse/CLDR-17247 for that. From my point of view, that is a very bad way to exclude "all scripts"
#<locale sss@dx=zyyy> | ||
#<line> | ||
# Should no longer break at the dictionary points - it's not Thai language | ||
#<data>•โอํน• •อะไป• •จู่วาม• •โล่น• •เปี่ยร• •อะลู่วาง• •แมะ,• •ปาย• •อัน• •แบ็จ• •อะโจํน• •ซา• •เมาะ.• •อัน• •ฮะบืน• •ตะ• •เวี่ยะ• •ตะ• •งี่ยาน,• •อัน• •ฮะบืน• •อีว• •อะปายฮ.•</data> |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
This should be
<data>•โอํน •อะไป •จู่วาม •โล่น •เปี่ยร •อะลู่วาง •แมะ, •ปาย •อัน •แบ็จ •อะโจํน •ซา •เมาะ. •อัน •ฮะบืน •ตะ •เวี่ยะ •ตะ •งี่ยาน, •อัน •ฮะบืน •อีว •อะปายฮ.•</data>
there should have no line break before the " " SPACE
#<data>•โอํน• •อะไป• •จู่วาม• •โล่น• •เปี่ยร• •อะลู่วาง• •แมะ,• •ปาย• •อัน• •แบ็จ• •อะโจํน• •ซา• •เมาะ.• •อัน• •ฮะบืน• •ตะ• •เวี่ยะ• •ตะ• •งี่ยาน,• •อัน• •ฮะบืน• •อีว• •อะปายฮ.•</data> | ||
#<word> | ||
# Should no longer break at the dictionary points - it's not the Thai language | ||
#<data>•โอํน• •อะไป• •จู่วาม• •โล่น• •เปี่ยร• •อะลู่วาง• •แมะ,• •ปาย• •อัน• •แบ็จ• •อะโจํน• •ซา• •เมาะ.• •อัน• •ฮะบืน• •ตะ• •เวี่ยะ• •ตะ• •งี่ยาน,• •อัน• •ฮะบืน• •อีว• •อะปายฮ.•</data> |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
It should be
<data>•โอํน<200> •อะไป<200> •จู่วาม<200> •โล่น<200> •เปี่ยร<200> •อะลู่วาง<200> •แมะ<200>,• •ปาย<200> •อัน<200> •แบ็จ<200> •อะโจํน<200> •ซา<200> •เมาะ<200>.• •อัน<200> •ฮะบืน<200> •ตะ<200> •เวี่ยะ<200> •ตะ<200> •งี่ยาน<200>,• •อัน<200> •ฮะบืน<200> •อีว<200> •อะปายฮ<200>.•</data>
there should be a break before the . (fullstop) and , (comma), right? (see above)
Checklist