Taiwan Tongues/臺灣華語開源語料庫
外觀
- 台灣多源預訓練集-9.1B: https://huggingface.co/datasets/benchang1110/Taiwan-pretrain-9B | 整合台灣新聞、科學等來源的繁中語料,共9.1B tokens。
- 萌典中文辭典: https://www.moedict.tw/萌 | 開放源碼的中文字詞典網站,整合教育部國語及臺灣閩南語等多部詞典。
- TAIDE-14-tasks: https://huggingface.co/datasets/taide/TAIDE-14-tasks | 涵蓋14種繁中文本生成任務的測評集,包含140個專家驗證提示與標準回應。
- Taide-bench: https://huggingface.co/datasets/taide/taide-bench | 五項繁中生成能力測試集,每項500個樣本,涵蓋寫信、寫作、摘要和雙向翻譯任務。
- 台灣本地化對話集: https://huggingface.co/datasets/yentinglin/TaiwanChat | 由yentinglin創建的台灣對話資料。
- 台灣LLM訓練資料集: https://huggingface.co/datasets/yentinglin/twllm-data | yentinglin建立的台灣大型語言模型訓練資料。
- 繁中維基新聞集: https://huggingface.co/datasets/erhwenkuo/wikinews-zhtw | erhwenkuo整理的繁體中文維基新聞資料集,收錄維基新聞的繁中文章內容。
- 繁中C4語料庫: https://huggingface.co/datasets/erhwenkuo/c4-chinese-zhtw | erhwenkuo整理的繁體中文C4語料,基於Google的Colossal Clean Crawled Corpus清理版。
- 繁中Dolly資料集-15K: https://huggingface.co/datasets/erhwenkuo/dolly-15k-chinese-zhtw | erhwenkuo整理的Databricks Dolly資料繁中版,包含15,000筆對話。
- 繁中維基文庫集: https://huggingface.co/datasets/erhwenkuo/zhwikisource-zhtw | erhwenkuo整理的繁體中文維基文庫資料,收錄各類文學、古籍與公版著作文本。
- 繁中閱讀理解問答集: https://huggingface.co/datasets/erhwenkuo/squad-cmrc2018-zhtw | erhwenkuo整理的繁體中文閱讀理解資料,結合SQuAD與CMRC2018格式評測標準。
- 繁中詩詞文集: https://huggingface.co/datasets/erhwenkuo/poetry-chinese-zhtw | erhwenkuo整理的繁體中文詩詞資料集,收錄古典與現代中文詩詞作品。
- 繁中通用預訓練集: https://huggingface.co/datasets/erhwenkuo/pretrain-chinese-zhtw | erhwenkuo整理的繁體中文預訓練資料,適用於語言模型基礎訓練的通用文本集。
- 繁中流螢訓練集: https://huggingface.co/datasets/erhwenkuo/firefly-train-chinese-zhtw | erhwenkuo整理的Firefly(流螢)項目繁體中文版,包含23種中文NLP任務的115萬筆高品質資料。
- 繁中MOSS對話資料集: https://huggingface.co/datasets/erhwenkuo/moss-003-sft-chinese-zhtw | erhwenkuo整理的MOSS模型繁體中文版對話數據,基於110萬條多輪對話內容轉換。
- coig-pc-zhtw: https://huggingface.co/datasets/erhwenkuo/coig-pc-zhtw | erhwenkuo整理的資料集。
- 繁中過濾爬蟲集: https://huggingface.co/datasets/jed351/Traditional-Chinese-Common-Crawl-Filtered | jed351整理的繁體中文Common Crawl過濾資料,從網路爬蟲中篩選的高品質內容。
- 台灣多領域理解測試+: https://huggingface.co/datasets/ikala/tmmluplus | ikala開發的繁中多選題測試集,涵蓋66個學科領域。
- 繁中模型評測基準v2: https://huggingface.co/datasets/MediaTek-Research/TCEval-v2 | 聯發科研究團隊開發的繁體中文模型評測套件,涵蓋情境問答、知識、分類與表格理解能力。
- 繁中台語平行語料: https://huggingface.co/datasets/Bohanlu/iCorpus-100 | Bohanlu整理的台灣華語與台語平行語料,包含100句手動校正的漢字與台羅對照。
- 繁中角色扮演對話集: https://huggingface.co/datasets/Tarklanse/Traditional_Chinese_roleplay_chat_Dataset | Tarklanse整理的繁體中文角色扮演對話資料,用於訓練支援角色扮演的語言模型。
- 繁中OpenOrca資料集: https://huggingface.co/datasets/lchakkei/OpenOrca-Traditional-Chinese | lchakkei整理的OpenOrca繁體中文版,開源資料集。
- 繁中Aya模型資料集: https://huggingface.co/datasets/Heng666/Traditional_Chinese-aya_collection | Heng666從CohereForAI的Aya集合中篩選出的64個繁體與簡體中文子集,專為繁中NLP應用優化。
- 繁中Aya訓練數據集: https://huggingface.co/datasets/Heng666/Traditional_Chinese-aya_dataset | Heng666從CohereForAI的兩個Aya子集中篩選的繁體和簡體中文語料,便於直接應用於繁中NLP項目。
- 台灣專利語料庫: https://huggingface.co/datasets/Heng666/Taiwan-patent-corpus | Heng666整理的臺灣專利與商標文本語料集,含28筆Parquet格式資料。
- 台灣專利問答評測集: https://huggingface.co/datasets/Heng666/Taiwan-patent-qa-eval | Heng666收集的專利師考試題目,包含8年192道題目,用於評測模型在台灣專利領域表現。
- 台灣開放字幕語料庫: https://huggingface.co/datasets/Heng666/OpenSubtitles-TW- Corpus | Heng666整理的多語言字幕資料集,包含繁中與英日韓等多國語言對照,用於機器翻譯訓練。
- 台灣專利問答資料集: https://huggingface.co/datasets/Heng666/Taiwan-patent-qa | Heng666收集的智慧財產局開放問答,約1000筆問答內容,提升模型在台灣專利領域應用能力。
- 台灣多語言對齊語料: https://huggingface.co/datasets/Heng666/MultiCCAligned-TW- Corpus | Heng666整理的OPUS多語言翻譯資料,包含繁中與英日韓等多國語言對照文本。
- 桃園機場捷運翻譯集: https://huggingface.co/datasets/Heng666/Taoyuan-Airport-MRT-MT-Challenge | Heng666整理的桃園機場捷運英中對照語料,用於機器翻譯測試與應用。
- TED演講繁中語料: https://huggingface.co/datasets/Heng666/TED2020-TW-Corpus | Heng666整理的TED演講(1984-2020)多語言翻譯集,包含繁中與英日韓等語言對照。
- 中文對聯資料集: https://huggingface.co/datasets/stuser2023/couplet-json | stuser2023整理的中文對聯資料,使用OpenCC轉換為繁體中文,JSON格式儲存。
- 政府採購考試題庫: https://huggingface.co/datasets/wuulong/purchasing_exam_questions | wuulong整理的台灣採購法規考題集,2025年3月更新版,含各類採購法考試題目。
- 思考能力任務列表: https://huggingface.co/datasets/wuulong/tasks_list_think | wuulong整理的思考能力評測集,包含85種推理子類與多難度測試題目,2025年版本。
- VisTai 多選題文本資料集: https://huggingface.co/datasets/VisTai/mcq-text | VisTai整理的繁中多選題資料集。
- VisTW 多模態選擇題資料集: https://huggingface.co/datasets/VisTai/vistw-mcq | VisTai整理的繁中圖文選擇題資料集。
- VisTW 圖文對話資料集: https://huggingface.co/datasets/VisTai/vistw-dialogue | VisTai整理的繁中圖文對話資料集。
- 台灣法律推理評測集: https://huggingface.co/datasets/lianghsun/tw-legal-benchmark-v1 | lianghsun整理的台灣法律推理評測集。
- 台灣急診醫學評測集: https://huggingface.co/datasets/lianghsun/tw-emergency-medicine-bench | lianghsun整理的台灣急診醫學專科試題資料集。
- 台灣法律合成問答資料集: https://huggingface.co/datasets/lianghsun/tw-legal-synthetic-qa | lianghsun整理的繁中法律對話合成集。
- 台灣法律條文上下文資料集: https://huggingface.co/datasets/lianghsun/tw-processed-law-ctx | lianghsun整理的合併版法律條文資料集。
- 台灣律師考試對話資料集: https://huggingface.co/datasets/lianghsun/tw-bar-examination-2020-chat | lianghsun整理的繁中律師考試對話資料集。
- 中英技術專利詞彙資料集: https://huggingface.co/datasets/lianghsun/chinese-english-technical-patent-glossary | lianghsun整理的中華民國專利技術名詞中英對照詞庫。
- 台灣法律NLP資料集: https://huggingface.co/datasets/lianghsun/tw-legal-nlp | lianghsun整理的繁中法律NLP任務資料集。
- 台灣智慧財產雙語詞彙資料集: https://huggingface.co/datasets/lianghsun/tw-ipo-bilingual-vocab | lianghsun整理的繁中智慧財產雙語詞彙資料集。
- 台灣繁中圖像標註資料集: https://huggingface.co/datasets/lianghsun/coco-caption-zh_tw-val | lianghsun整理的COCO圖像繁中標註資料集。
- 台灣資安問答資料集: https://huggingface.co/datasets/lianghsun/vulnerability-mitigation-qa-zh_tw | lianghsun整理的繁中資安防護問答資料集。
- 寶可夢圖像標註資料集: https://huggingface.co/datasets/lianghsun/pokemon-blip-captions-en-zh_tw | lianghsun整理的繁中寶可夢圖像標註資料集。
- 台灣法律條文資料集: https://huggingface.co/datasets/lianghsun/tw-processed-law-article | lianghsun整理的繁中法律條文資料集。
- 台灣小說語料資料集: https://huggingface.co/datasets/lianghsun/tw-novel-1.1B | lianghsun整理的繁中小說語料集,含1.1B tokens。
- 台灣判決書精選資料集: https://huggingface.co/datasets/lianghsun/tw-processed-judgments-14B | lianghsun整理的繁中判決書資料集。
- 台灣兒童故事語料集: https://huggingface.co/datasets/lianghsun/tw-kid-story-0.26M | lianghsun整理的繁中兒童故事語料集。
- 台灣知識問答評測集: https://huggingface.co/datasets/lianghsun/Formosa-bench | lianghsun整理的繁中台灣知識問答評測集,涵蓋歷史、地理、社會與政府等領域。
- 台灣繁中維基語料集: https://huggingface.co/datasets/lianghsun/wikipedia-zh-742M | lianghsun整理的繁中維基語料集。
- 台灣文本格式化資料集: https://huggingface.co/datasets/lianghsun/tw-text-fixer-20 | lianghsun整理的繁中排版修復對話資料集。
- 台灣繁中維基過濾語料集: https://huggingface.co/datasets/lianghsun/wikipedia-zh-filtered | lianghsun整理的繁中維基過濾語料集。
- 自然推理資料集: https://huggingface.co/datasets/lianghsun/Natural-Reasoning-R1- 10k-dpo | lianghsun整理的繁中推理偏好資料集。
- 台灣線上健康諮詢資料集: https://huggingface.co/datasets/NeroUCH/online-health-chating | NeroUCH整理的繁中健康問答資料集。
- 台灣語料清洗資料集: https://huggingface.co/datasets/minyichen/tw-instruct-500k-cleaned | minyichen整理的繁中對話清洗語料,修正繁轉誤差與無窮回覆。
- 台灣工具調用對話資料集: https://huggingface.co/datasets/minyichen/glaive_toolcall_zh_tw | minyichen整理的繁中工具調用對話資料集。
- 台灣多輪對話資料集: https://huggingface.co/datasets/benchang1110/multiturn_chat_0.8m-chinese-zhtw | benchang1110整理的繁中多輪對話資料集。
- 繁中對話資料集: https://huggingface.co/datasets/benchang1110/WildChat-Chinese | benchang1110整理的GPT對話資料集(繁中轉換版)。
- 台灣對話語料資料集: https://huggingface.co/datasets/benchang1110/ChatTaiwan | benchang1110整理的繁中對話語料集。
- 台灣合成對話資料集(TaiwanChat-Taide): https://huggingface.co/datasets/benchang1110/TaiwanChat-Taide | benchang1110整理的繁中合成對話資料集,基於TaiwanChat提示語生成。
- 台灣合成對話資料集(Guanaco-Taide): https://huggingface.co/datasets/benchang1110/Guanaco-Taide | benchang1110整理的繁中合成對話資料集,基於Guanaco提示語生成。
- 台灣合成對話資料集(Belle-Taide): https://huggingface.co/datasets/benchang1110/Belle-Taide | benchang1110整理的繁中合成對話資料集,基於Belle提示語生成。
- 台灣偏好優化對話資料集(DPO-Taide): https://huggingface.co/datasets/benchang1110/DPO-Taide | benchang1110整理的繁中偏好優化對話資料集。
- 台灣視覺語言資料集: https://huggingface.co/datasets/benchang1110/Vision-Taiwan-595k | benchang1110整理的繁中圖文對話資料集。
- 台灣圖文對話預訓練集(LLaVA zh_tw): https://huggingface.co/datasets/benchang1110/llava_pretrain_zhtw | benchang1110整理的繁中圖文預訓練資料集,基於LLaVA格式。
- 台灣圖文預訓練大規模語料(TaiVision 1M): https://huggingface.co/datasets/benchang1110/TaiVision-pretrain-1M-v1.0 | benchang1110整理的繁中圖文預訓練資料集,含百萬筆樣本。
- 台灣圖文對話資料集(LLaVA-Instruct-150K zh_tw): https://huggingface.co/datasets/benchang1110/LLaVA-Instruct-150K-zhtw | benchang1110整理的繁中圖文對話資料集。
- 台灣視覺語言預訓練資料集: https://huggingface.co/datasets/benchang1110/TaiVision-pretrain-1M-v2.0 | benchang1110整理的繁中圖文預訓練資料集,基於ShareGPT4V轉換。
- 台灣旅遊圖文資料集: https://huggingface.co/datasets/benchang1110/TaiVision-TaiTravel | benchang1110整理的繁中旅遊圖文資料集。
- 台灣書籍語料資料集: https://huggingface.co/datasets/benchang1110/Taiwan-book-1B | benchang1110整理的繁中好讀的書本語料集,含1.3B tokens。
- 台灣合成對話資料集(Guanaco-DeepSeek-R1-Distill-Qwen-1.5B): https://huggingface.co/datasets/benchang1110/Guanaco-DeepSeek-R1-Distill-Qwen-1.5B | benchang1110整理的繁中合成對話資料集,基於DeepSeek-R1-Distill-Qwen模型生成。
- 台灣繁中R1蒸餾資料集: https://huggingface.co/datasets/benchang1110/Chinese-DeepSeek-R1-Distill-data-110k-opencc | benchang1110整理的繁中R1蒸餾資料集,含數學與通用任務。
- 台灣數學強化學習資料集: https://huggingface.co/datasets/benchang1110/Big-Math-RL-Verified-zhtw | benchang1110整理的繁中數學推理資料集。
- 台灣數學評測資料集: https://huggingface.co/datasets/benchang1110/MATH-500-zhtw | benchang1110整理的繁中數學評測資料集。
- 台灣數學競賽資料集(AIME 2024 zh_tw): https://huggingface.co/datasets/benchang1110/aime-2024-zhtw | benchang1110整理的繁中AIME 2024數學競賽題庫。
- 台灣數學競賽資料集(AIME 2025 zh_tw): https://huggingface.co/datasets/benchang1110/aime-2025-zhtw | benchang1110整理的繁中AIME 2025數學競賽題庫。
- 台灣數學推理資料集(GSM8K zh_tw): https://huggingface.co/datasets/benchang1110/GSM8K-zhtw | benchang1110整理的繁中小學數學推理資料集。
- 台灣小學數學資料集(CMATH zh_tw): https://huggingface.co/datasets/benchang1110/cmath-zhtw| benchang1110整理的繁中小學數學應用題資料集。
- 繁中知識型問答資料集(CoIGNeo zh_tw): https://huggingface.co/datasets/voidful/coigneo | voidful 整理的繁體中文知識型問答資料集,涵蓋多樣知識主題,適用於訓練與評估繁中問答系統。
- 繁中高難度測驗資料集(TW Exam Hard zh_tw): https://huggingface.co/datasets/voidful/tw_exam_hard | voidful 整理的繁體中文高難度測驗題庫,適合語言模型在理解與推理能力上的挑戰性評估。
- 中譯問答資料集(QD zh_tw): https://huggingface.co/datasets/voidful/qd-zh | voidful 整理的中譯問答對資料集,原始資料為英文問答對,翻譯成繁體中文,支援語言模型在繁中語境下的問答訓練。
- Ruozhiba QA 繁體資料集(Ruozhiba S2T zh_tw): https://huggingface.co/datasets/voidful/ruozhiba_s2t | voidful 整理的簡體轉繁體問答資料,來源包含社群問答平台,適合實用問答訓練。
- 粵切對齊資料集(Yueqie zh_tw): https://huggingface.co/datasets/voidful/yueqie | voidful 整理的粵語與繁中之間的斷句對齊資料集,用於研究語言切詞與語料比對。
- 繁中閱讀理解資料集(DRCDC zh_tw): https://huggingface.co/datasets/voidful/DRCDC | voidful 整理的繁體中文閱讀理解資料集,加強對段落理解與問題解答的能力評估。
- 繁中閱讀理解資料集(DRCD zh_tw): https://huggingface.co/datasets/voidful/DRCD | voidful 整理的繁體中文閱讀理解資料集,加強對段落理解與問題解答的能力評估。