結巴(jieba)斷詞台灣繁體版本
採用和原始jieba相同的演算法,替換其詞庫及HMM機率表製做出針對台灣繁體的jieba斷詞器
- 相容python2和python3
- 將jieba資料夾放在你程式的資料夾底下
import jieba
操作方法同原始jieba
import jieba
#如果您的電腦同時要使用兩個版本的jieba,請自訂cache檔名,避免兩個cache互相蓋住對方
#jieba.dt.cache_file = 'jieba.cache.new'
seg_list = jieba.cut("在非洲,每六十秒,就有一分鐘過去")
print("|".join(seg_list))
# 在|非洲|,|每|六十秒|,|就|有|一分鐘|過去
尚未替換機率表,輸出的結果非常不可靠
應該是一跑就會噴錯的狀態
拿本份程式碼去和jieba轉簡體後斷詞、jieba直接斷繁體字這兩個方法,去斷這篇台灣記者寫的新聞。並以中研院中文斷詞系統作為標準答案,以詞為單位,去計算這三個方法和中研院的結果的Edit distance
Edit distance | 第一段(92) | 第二段(136) | 第三段(75) | 第四段(52) | 第五段(63) |
---|---|---|---|---|---|
jieba zh_TW | 9 | 20 | 12 | 12 | 9 |
jieba轉簡體後斷詞 | 44 | 43 | 31 | 23 | 21 |
jieba直接斷繁體字 | 53 | 74 | 43 | 34 | 34 |
(括號內為中研院斷出來的詞彙數) |
- 中央研究院資訊科學所詞庫小組中文斷詞線上服務
使用本份程式碼請遵守中研院斷詞服務之服務條款其中的衍生資料相關規定
詳見我Blog上的這篇文章:關於結巴(Jieba)斷詞的幾個問題