Skip to content

nrchan/TaigiWordlist

Repository files navigation

TaigiWordlist 台語字詞集散地

一個儲存了台語 {字詞,發音} pair 的 repo。

目前共 37625 條。

關於內容

每一個 pair 都包含了「漢字」和「台羅」兩個部分。Column name 分別為 Hanji 以及 TL。

  • Hanji:使用推薦用字。外來語的部分若原日文漢字字數相同、發音接近,則另收錄漢字版本。(詳見下方「關於外來語」。)
  • TL:為了方便收集、簡潔呈現,拼音使用台羅。白話字的部分未來可能打算使用轉換工具。(有的方言使用了第六聲和第九聲,轉換時要注意~)

如果因為方言差而出現一詞多音的情況,就會收成兩個詞組(如「大人」可讀 tāi-jîn 或 tāi-lîn)。 所以實際上無法得知確切獨特的詞語數,畢竟可能也會有同漢字因文白異讀而成為兩詞的情境(如「大人」的文讀音 tāi-jîn 和白讀音 tuā-lâng 應該算兩個詞)。

來源

教育部台語辭典為主要來源。(約 30000 條)

除了整理成 csv,也修補了一些部份:

  • 一些原儲存於私人編碼區的字元改為正式的 unicode。
    • (疒哥)和(足百)在多數情況仍無法顯示,但他們的編碼應該是正確的了。
  • 原檔案有約 3000 詞沒有標音,只好刪除。
  • 合併了字、詞方言差的檔案。
  • 原檔案 10000 多句例句中可單獨成詞的部分也收了進來。這個部分是手工的,可能會有錯。

剩下預計是想到就會慢慢加進去,參考來源可能會是維基百科等地方:

  • 新增 儒家 相關詞彙
  • 新增教育部「學科術語閩客語對譯成果
  • 新增教育部字典 2023/06 新收錄的 250 詞
  • 新增多數國家名稱
  • 新增常見城市名稱
  • 新稱公視台語台新收詞

關於外來語

外來語的的漢字與拼音欄位皆使用擬本調的音標。 舉例來說,如果外來語某音節原本的調值為51,則視為發第二聲的音。若為最後一字則標為第二聲,否則標為第三聲。

  • an51 nai33 -> àn-nai
  • lin35 jin51 -> lin-jín

部分調值為35或33者,雖實際發音近第五聲,但因無法推回擬本調,改視為轉調後發第七聲,本調標第一聲。(更新)依新版教育部字典,視情況改為第九調。

  • kha33 bang51 -> khang-páng
  • kha33 bang51 -> khng-páng

若原日文漢字字數與音節數相同,且漢字發音接近、字型不致與華台語混淆者,另收錄以日文漢字為漢字、擬本調音標為台羅音標的版本。 這些詞包含:

  • 案内
  • 黴菌
  • 漫画
  • 牛蒡
  • 風呂
  • 羊羹
  • 予備
  • 上等
  • 勘定(結帳)
  • 看板
  • 休憩
  • 昆布
  • 練炭(蜂窩煤)
  • 人参(紅蘿蔔)
  • 林檎(蘋果)
  • 名刺(名片)
  • 味噌
  • 写真
  • 寿司
  • 箪笥(衣櫥)
  • 天麩羅
  • 天婦羅
  • 酸素(氧氣)

Releases

No releases published

Packages

No packages published

Languages