「湯」默認讀音係棄用音 #5

AlienKevin · 2023-08-08T20:50:01Z

>>> ToJyutping.get_jyutping_text("湯")
'soeng1

上游標識soeng1係「湯」字嘅棄用音，唔知點解ToJyutping會默認輸出soeng1？

湯,joeng4,罕見,,,
湯,soeng1,棄用,,,
湯,tong1,預設,,,
湯,tong3,罕見,,,

https://github.com/CanCLID/rime-cantonese-upstream/blob/ba155365c8671ca51848224dec933d5b91091d05/char.csv#L17524C1-L17528C1

graphemecluster · 2023-08-09T10:53:11Z

因為仲用緊發音優先順序幾乎係 random 嘅舊版詞表，冇人得閒整……
我其實之前寫過 CanCLID/to-jyutping#3 ，但係 test 得唔夠唔敢亂咁 merge
如果你得閒，可以幫我哋 review 下 test 下同埋 reflect 啲 change 過嚟 Python 版🙇🏻‍♂️

AlienKevin · 2023-08-10T17:36:34Z

我用粵典嘅33,043句例句發音嚟test咗而家嘅ToJyutping，測試結果Syllable Error Rate係7.33%。我覺得可以通過分析error嘅類型嚟提升準確率，同埋呢個test set可以作為一個regression test，以避免將來update詞表或者改變排序算法而引發新問題。我可以新建個repo叫類似to-jyutping-tests，將而家所有粵典同ToJyutping標注相同嘅句子作為regression test嘅基礎，測試下你嘅PR有冇break之前通過嘅句子。Python同JS嘅版本未來都可以reference同一個test。

我粗略睇咗下test結果，總結出大致6類error：

常用詞嘅發音唔同

嘞 laak3 vs la3
呢 ni1 vs nei1/ne1

多音字聲調問題

反轉件衫着
ToJyutping: faan2 zyun3 gin6 saam1 zoek6
words.hk: faan2 zyun3 gin5 saam1 zoek3
下盤要穩
ToJyutping: haa6 pun2 jiu3 wan2
words.hk: haa6 pun4 jiu3 wan2

變調問題：

咁多人嘅
ToJyutping: gam3 do1 jan4 ge3
words.hk: gam3 do1 jan4 ge2
子女免税額
ToJyutping: zi2 neoi5 min5 seoi3 aak6
words.hk: zi2 neoi5 min5 seoi3 aak2

a vs aa

疑心生暗鬼
ToJyutping: ji4 sam1 saang1 am3 gwai2
words.hk: ji4 sam1 sang1 am3 gwai2

錯誤標註罕見讀音

蓮藕瘦肉湯
ToJyutping: lin4 au5 sau3 juk6 soeng1
words.hk: lin4 au5 sau3 juk6 tong1

words.hk筆誤

讚詞宣讀員
ToJyutping: zaan3 ci4 syun1 duk6 jyun4
words.hk: zaan3 cin4 syun1 duk6 jyun4

更多結果

AlienKevin · 2023-08-19T19:24:24Z

@graphemecluster I added a draft PR #6 which addresses some of the most pressing issues. See the PR for a summary of the improvements.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

「湯」默認讀音係棄用音 #5

「湯」默認讀音係棄用音 #5

AlienKevin commented Aug 8, 2023

graphemecluster commented Aug 9, 2023

AlienKevin commented Aug 10, 2023 •

edited

AlienKevin commented Aug 19, 2023

「湯」默認讀音係棄用音 #5

「湯」默認讀音係棄用音 #5

Comments

AlienKevin commented Aug 8, 2023

graphemecluster commented Aug 9, 2023

AlienKevin commented Aug 10, 2023 • edited

AlienKevin commented Aug 19, 2023

AlienKevin commented Aug 10, 2023 •

edited