🔍 BERT 繁體中文分類器
區分「大陸繁體」與「台灣繁體」的 BERT 分類模型
- 支援長文本自動分塊處理(max_len=384)
 - 提供單次推論與多次投票(MC Dropout)模式
 
 範例文本
    範例文本
   模型資訊
- 模型: ckiplab/bert-base-chinese
 - 任務: 繁體中文文本分類(大陸繁體 vs 台灣繁體)
 - 準確率: 87.71%
 - 訓練樣本: 156,824
 
標籤定義
- 大陸繁體(中國繁體): 使用「软件、视频、程序、计算机」等詞彙
 - 台灣繁體: 使用「軟體、影片、程式、電腦」等詞彙
 
功能特色
- ✅ 長文本自動分塊處理(384 tokens,stride 128)
 - ✅ Focal Loss 處理類別不平衡
 - ✅ Multi-Sample Dropout 提升泛化
 - ✅ MC Dropout 投票提升穩健性
 
使用建議
- 對於重要決策,建議使用「投票推論」模式並設定 5-10 次投票
 - 信心度 ≥ 85% 的預測較為可靠
 - 混用詞彙、專業術語或極短文本可能影響準確度
 
📦 模型倉庫: renhehuang/bert-traditional-chinese-classifier
📄 授權: Apache 2.0