🔍 BERT 繁體中文分類器
區分「大陸繁體」與「台灣繁體」的 BERT 分類模型
- 支援長文本自動分塊處理(max_len=384)
- 提供單次推論與多次投票(MC Dropout)模式
範例文本
範例文本
模型資訊
- 模型: ckiplab/bert-base-chinese
- 任務: 繁體中文文本分類(大陸繁體 vs 台灣繁體)
- 準確率: 87.71%
- 訓練樣本: 156,824
標籤定義
- 大陸繁體(中國繁體): 使用「软件、视频、程序、计算机」等詞彙
- 台灣繁體: 使用「軟體、影片、程式、電腦」等詞彙
功能特色
- ✅ 長文本自動分塊處理(384 tokens,stride 128)
- ✅ Focal Loss 處理類別不平衡
- ✅ Multi-Sample Dropout 提升泛化
- ✅ MC Dropout 投票提升穩健性
使用建議
- 對於重要決策,建議使用「投票推論」模式並設定 5-10 次投票
- 信心度 ≥ 85% 的預測較為可靠
- 混用詞彙、專業術語或極短文本可能影響準確度
📦 模型倉庫: renhehuang/bert-traditional-chinese-classifier
📄 授權: Apache 2.0