跳转到内容

Taiwan Tongues/台湾华语开源语料库

来自维基学院
  • 台湾多源预训练集-9.1B: https://huggingface.co/datasets/benchang1110/Taiwan-pretrain-9B | 整合台湾新闻、科学等来源的繁中语料,共9.1B tokens。
  • 萌典中文辞典: https://www.moedict.tw/萌 | 开放源码的中文字词典网站,整合教育部国语及台湾闽南语等多部词典。
  • TAIDE-14-tasks: https://huggingface.co/datasets/taide/TAIDE-14-tasks | 涵盖14种繁中文本生成任务的测评集,包含140个专家验证提示与标准回应。
  • Taide-bench: https://huggingface.co/datasets/taide/taide-bench | 五项繁中生成能力测试集,每项500个样本,涵盖写信、写作、摘要和双向翻译任务。
  • 台湾本地化对话集: https://huggingface.co/datasets/yentinglin/TaiwanChat | 由yentinglin创建的台湾对话资料。
  • 台湾LLM训练资料集: https://huggingface.co/datasets/yentinglin/twllm-data | yentinglin建立的台湾大型语言模型训练资料。
  • 繁中维基新闻集: https://huggingface.co/datasets/erhwenkuo/wikinews-zhtw | erhwenkuo整理的繁体中文维基新闻资料集,收录维基新闻的繁中文章内容。
  • 繁中C4语料库: https://huggingface.co/datasets/erhwenkuo/c4-chinese-zhtw | erhwenkuo整理的繁体中文C4语料,基于Google的Colossal Clean Crawled Corpus清理版。
  • 繁中Dolly资料集-15K: https://huggingface.co/datasets/erhwenkuo/dolly-15k-chinese-zhtw | erhwenkuo整理的Databricks Dolly资料繁中版,包含15,000笔对话。
  • 繁中维基文库集: https://huggingface.co/datasets/erhwenkuo/zhwikisource-zhtw | erhwenkuo整理的繁体中文维基文库资料,收录各类文学、古籍与公版著作文本。
  • 繁中阅读理解问答集: https://huggingface.co/datasets/erhwenkuo/squad-cmrc2018-zhtw | erhwenkuo整理的繁体中文阅读理解资料,结合SQuAD与CMRC2018格式评测标准。
  • 繁中诗词文集: https://huggingface.co/datasets/erhwenkuo/poetry-chinese-zhtw | erhwenkuo整理的繁体中文诗词资料集,收录古典与现代中文诗词作品。
  • 繁中通用预训练集: https://huggingface.co/datasets/erhwenkuo/pretrain-chinese-zhtw | erhwenkuo整理的繁体中文预训练资料,适用于语言模型基础训练的通用文本集。
  • 繁中流萤训练集: https://huggingface.co/datasets/erhwenkuo/firefly-train-chinese-zhtw | erhwenkuo整理的Firefly(流萤)项目繁体中文版,包含23种中文NLP任务的115万笔高品质资料。
  • 繁中MOSS对话资料集: https://huggingface.co/datasets/erhwenkuo/moss-003-sft-chinese-zhtw | erhwenkuo整理的MOSS模型繁体中文版对话数据,基于110万条多轮对话内容转换。
  • coig-pc-zhtw: https://huggingface.co/datasets/erhwenkuo/coig-pc-zhtw | erhwenkuo整理的资料集。
  • 繁中过滤爬虫集: https://huggingface.co/datasets/jed351/Traditional-Chinese-Common-Crawl-Filtered | jed351整理的繁体中文Common Crawl过滤资料,从网络爬虫中筛选的高品质内容。
  • 台湾多领域理解测试+: https://huggingface.co/datasets/ikala/tmmluplus | ikala开发的繁中多选题测试集,涵盖66个学科领域。
  • 繁中模型评测基准v2: https://huggingface.co/datasets/MediaTek-Research/TCEval-v2 | 联发科研究团队开发的繁体中文模型评测套件,涵盖情境问答、知识、分类与表格理解能力。
  • 繁中台语平行语料: https://huggingface.co/datasets/Bohanlu/iCorpus-100 | Bohanlu整理的台湾华语与台语平行语料,包含100句手动校正的汉字与台罗对照。
  • 繁中角色扮演对话集: https://huggingface.co/datasets/Tarklanse/Traditional_Chinese_roleplay_chat_Dataset | Tarklanse整理的繁体中文角色扮演对话资料,用于训练支援角色扮演的语言模型。
  • 繁中OpenOrca资料集: https://huggingface.co/datasets/lchakkei/OpenOrca-Traditional-Chinese | lchakkei整理的OpenOrca繁体中文版,开源资料集。
  • 繁中Aya模型资料集: https://huggingface.co/datasets/Heng666/Traditional_Chinese-aya_collection | Heng666从CohereForAI的Aya集合中筛选出的64个繁体与简体中文子集,专为繁中NLP应用优化。
  • 繁中Aya训练数据集: https://huggingface.co/datasets/Heng666/Traditional_Chinese-aya_dataset | Heng666从CohereForAI的两个Aya子集中筛选的繁体和简体中文语料,便于直接应用于繁中NLP项目。
  • 台湾专利语料库: https://huggingface.co/datasets/Heng666/Taiwan-patent-corpus | Heng666整理的台湾专利与商标文本语料集,含28笔Parquet格式资料。
  • 台湾专利问答评测集: https://huggingface.co/datasets/Heng666/Taiwan-patent-qa-eval | Heng666收集的专利师考试题目,包含8年192道题目,用于评测模型在台湾专利领域表现。
  • 台湾开放字幕语料库: https://huggingface.co/datasets/Heng666/OpenSubtitles-TW- Corpus | Heng666整理的多语言字幕资料集,包含繁中与英日韩等多国语言对照,用于机器翻译训练。
  • 台湾专利问答资料集: https://huggingface.co/datasets/Heng666/Taiwan-patent-qa | Heng666收集的智慧财产局开放问答,约1000笔问答内容,提升模型在台湾专利领域应用能力。
  • 台湾多语言对齐语料: https://huggingface.co/datasets/Heng666/MultiCCAligned-TW- Corpus | Heng666整理的OPUS多语言翻译资料,包含繁中与英日韩等多国语言对照文本。
  • 桃园机场捷运翻译集: https://huggingface.co/datasets/Heng666/Taoyuan-Airport-MRT-MT-Challenge | Heng666整理的桃园机场捷运英中对照语料,用于机器翻译测试与应用。
  • TED演讲繁中语料: https://huggingface.co/datasets/Heng666/TED2020-TW-Corpus | Heng666整理的TED演讲(1984-2020)多语言翻译集,包含繁中与英日韩等语言对照。
  • 中文对联资料集: https://huggingface.co/datasets/stuser2023/couplet-json | stuser2023整理的中文对联资料,使用OpenCC转换为繁体中文,JSON格式储存。
  • 政府采购考试题库: https://huggingface.co/datasets/wuulong/purchasing_exam_questions | wuulong整理的台湾采购法规考题集,2025年3月更新版,含各类采购法考试题目。
  • 思考能力任务列表: https://huggingface.co/datasets/wuulong/tasks_list_think | wuulong整理的思考能力评测集,包含85种推理子类与多难度测试题目,2025年版本。
  • VisTai 多选题文本资料集: https://huggingface.co/datasets/VisTai/mcq-text | VisTai整理的繁中多选题资料集。
  • VisTW 多模态选择题资料集: https://huggingface.co/datasets/VisTai/vistw-mcq | VisTai整理的繁中图文选择题资料集。
  • VisTW 图文对话资料集: https://huggingface.co/datasets/VisTai/vistw-dialogue | VisTai整理的繁中图文对话资料集。
  • 台湾法律推理评测集: https://huggingface.co/datasets/lianghsun/tw-legal-benchmark-v1 | lianghsun整理的台湾法律推理评测集。
  • 台湾急诊医学评测集: https://huggingface.co/datasets/lianghsun/tw-emergency-medicine-bench | lianghsun整理的台湾急诊医学专科试题资料集。
  • 台湾法律合成问答资料集: https://huggingface.co/datasets/lianghsun/tw-legal-synthetic-qa | lianghsun整理的繁中法律对话合成集。
  • 台湾法律条文上下文资料集: https://huggingface.co/datasets/lianghsun/tw-processed-law-ctx | lianghsun整理的合并版法律条文资料集。
  • 台湾律师考试对话资料集: https://huggingface.co/datasets/lianghsun/tw-bar-examination-2020-chat | lianghsun整理的繁中律师考试对话资料集。
  • 中英技术专利词汇资料集: https://huggingface.co/datasets/lianghsun/chinese-english-technical-patent-glossary | lianghsun整理的中华民国专利技术名词中英对照词库。
  • 台湾法律NLP资料集: https://huggingface.co/datasets/lianghsun/tw-legal-nlp | lianghsun整理的繁中法律NLP任务资料集。
  • 台湾智慧财产双语词汇资料集: https://huggingface.co/datasets/lianghsun/tw-ipo-bilingual-vocab | lianghsun整理的繁中智慧财产双语词汇资料集。
  • 台湾繁中图像标注资料集: https://huggingface.co/datasets/lianghsun/coco-caption-zh_tw-val | lianghsun整理的COCO图像繁中标注资料集。
  • 台湾资安问答资料集: https://huggingface.co/datasets/lianghsun/vulnerability-mitigation-qa-zh_tw | lianghsun整理的繁中资安防护问答资料集。
  • 宝可梦图像标注资料集: https://huggingface.co/datasets/lianghsun/pokemon-blip-captions-en-zh_tw | lianghsun整理的繁中宝可梦图像标注资料集。
  • 台湾法律条文资料集: https://huggingface.co/datasets/lianghsun/tw-processed-law-article | lianghsun整理的繁中法律条文资料集。
  • 台湾小说语料资料集: https://huggingface.co/datasets/lianghsun/tw-novel-1.1B | lianghsun整理的繁中小说语料集,含1.1B tokens。
  • 台湾判决书精选资料集: https://huggingface.co/datasets/lianghsun/tw-processed-judgments-14B | lianghsun整理的繁中判决书资料集。
  • 台湾儿童故事语料集: https://huggingface.co/datasets/lianghsun/tw-kid-story-0.26M | lianghsun整理的繁中儿童故事语料集。
  • 台湾知识问答评测集: https://huggingface.co/datasets/lianghsun/Formosa-bench | lianghsun整理的繁中台湾知识问答评测集,涵盖历史、地理、社会与政府等领域。
  • 台湾繁中维基语料集: https://huggingface.co/datasets/lianghsun/wikipedia-zh-742M | lianghsun整理的繁中维基语料集。
  • 台湾文本格式化资料集: https://huggingface.co/datasets/lianghsun/tw-text-fixer-20 | lianghsun整理的繁中排版修复对话资料集。
  • 台湾繁中维基过滤语料集: https://huggingface.co/datasets/lianghsun/wikipedia-zh-filtered | lianghsun整理的繁中维基过滤语料集。
  • 自然推理资料集: https://huggingface.co/datasets/lianghsun/Natural-Reasoning-R1- 10k-dpo | lianghsun整理的繁中推理偏好资料集。
  • 台湾线上健康咨询资料集: https://huggingface.co/datasets/NeroUCH/online-health-chating | NeroUCH整理的繁中健康问答资料集。
  • 台湾语料清洗资料集: https://huggingface.co/datasets/minyichen/tw-instruct-500k-cleaned | minyichen整理的繁中对话清洗语料,修正繁转误差与无穷回复。
  • 台湾工具调用对话资料集: https://huggingface.co/datasets/minyichen/glaive_toolcall_zh_tw | minyichen整理的繁中工具调用对话资料集。
  • 台湾多轮对话资料集: https://huggingface.co/datasets/benchang1110/multiturn_chat_0.8m-chinese-zhtw | benchang1110整理的繁中多轮对话资料集。
  • 繁中对话资料集: https://huggingface.co/datasets/benchang1110/WildChat-Chinese | benchang1110整理的GPT对话资料集(繁中转换版)。
  • 台湾对话语料资料集: https://huggingface.co/datasets/benchang1110/ChatTaiwan | benchang1110整理的繁中对话语料集。
  • 台湾合成对话资料集(TaiwanChat-Taide): https://huggingface.co/datasets/benchang1110/TaiwanChat-Taide | benchang1110整理的繁中合成对话资料集,基于TaiwanChat提示语生成。
  • 台湾合成对话资料集(Guanaco-Taide): https://huggingface.co/datasets/benchang1110/Guanaco-Taide | benchang1110整理的繁中合成对话资料集,基于Guanaco提示语生成。
  • 台湾合成对话资料集(Belle-Taide): https://huggingface.co/datasets/benchang1110/Belle-Taide | benchang1110整理的繁中合成对话资料集,基于Belle提示语生成。
  • 台湾偏好优化对话资料集(DPO-Taide): https://huggingface.co/datasets/benchang1110/DPO-Taide | benchang1110整理的繁中偏好优化对话资料集。
  • 台湾视觉语言资料集: https://huggingface.co/datasets/benchang1110/Vision-Taiwan-595k | benchang1110整理的繁中图文对话资料集。
  • 台湾图文对话预训练集(LLaVA zh_tw): https://huggingface.co/datasets/benchang1110/llava_pretrain_zhtw | benchang1110整理的繁中图文预训练资料集,基于LLaVA格式。
  • 台湾图文预训练大规模语料(TaiVision 1M): https://huggingface.co/datasets/benchang1110/TaiVision-pretrain-1M-v1.0 | benchang1110整理的繁中图文预训练资料集,含百万笔样本。
  • 台湾图文对话资料集(LLaVA-Instruct-150K zh_tw): https://huggingface.co/datasets/benchang1110/LLaVA-Instruct-150K-zhtw | benchang1110整理的繁中图文对话资料集。
  • 台湾视觉语言预训练资料集: https://huggingface.co/datasets/benchang1110/TaiVision-pretrain-1M-v2.0 | benchang1110整理的繁中图文预训练资料集,基于ShareGPT4V转换。
  • 台湾旅游图文资料集: https://huggingface.co/datasets/benchang1110/TaiVision-TaiTravel | benchang1110整理的繁中旅游图文资料集。
  • 台湾书籍语料资料集: https://huggingface.co/datasets/benchang1110/Taiwan-book-1B | benchang1110整理的繁中好读的书本语料集,含1.3B tokens。
  • 台湾合成对话资料集(Guanaco-DeepSeek-R1-Distill-Qwen-1.5B): https://huggingface.co/datasets/benchang1110/Guanaco-DeepSeek-R1-Distill-Qwen-1.5B | benchang1110整理的繁中合成对话资料集,基于DeepSeek-R1-Distill-Qwen模型生成。
  • 台湾繁中R1蒸馏资料集: https://huggingface.co/datasets/benchang1110/Chinese-DeepSeek-R1-Distill-data-110k-opencc | benchang1110整理的繁中R1蒸馏资料集,含数学与通用任务。
  • 台湾数学强化学习资料集: https://huggingface.co/datasets/benchang1110/Big-Math-RL-Verified-zhtw | benchang1110整理的繁中数学推理资料集。
  • 台湾数学评测资料集: https://huggingface.co/datasets/benchang1110/MATH-500-zhtw | benchang1110整理的繁中数学评测资料集。
  • 台湾数学竞赛资料集(AIME 2024 zh_tw): https://huggingface.co/datasets/benchang1110/aime-2024-zhtw | benchang1110整理的繁中AIME 2024数学竞赛题库。
  • 台湾数学竞赛资料集(AIME 2025 zh_tw): https://huggingface.co/datasets/benchang1110/aime-2025-zhtw | benchang1110整理的繁中AIME 2025数学竞赛题库。
  • 台湾数学推理资料集(GSM8K zh_tw): https://huggingface.co/datasets/benchang1110/GSM8K-zhtw | benchang1110整理的繁中小学数学推理资料集。
  • 台湾小学数学资料集(CMATH zh_tw): https://huggingface.co/datasets/benchang1110/cmath-zhtw| benchang1110整理的繁中小学数学应用题资料集。
  • 繁中知识型问答资料集(CoIGNeo zh_tw): https://huggingface.co/datasets/voidful/coigneo | voidful 整理的繁体中文知识型问答资料集,涵盖多样知识主题,适用于训练与评估繁中问答系统。
  • 繁中高难度测验资料集(TW Exam Hard zh_tw): https://huggingface.co/datasets/voidful/tw_exam_hard | voidful 整理的繁体中文高难度测验题库,适合语言模型在理解与推理能力上的挑战性评估。
  • 中译问答资料集(QD zh_tw): https://huggingface.co/datasets/voidful/qd-zh | voidful 整理的中译问答对资料集,原始资料为英文问答对,翻译成繁体中文,支援语言模型在繁中语境下的问答训练。
  • Ruozhiba QA 繁体资料集(Ruozhiba S2T zh_tw): https://huggingface.co/datasets/voidful/ruozhiba_s2t | voidful 整理的简体转繁体问答资料,来源包含社群问答平台,适合实用问答训练。
  • 粤切对齐资料集(Yueqie zh_tw): https://huggingface.co/datasets/voidful/yueqie | voidful 整理的粤语与繁中之间的断句对齐资料集,用于研究语言切词与语料比对。
  • 繁中阅读理解资料集(DRCDC zh_tw): https://huggingface.co/datasets/voidful/DRCDC | voidful 整理的繁体中文阅读理解资料集,加强对段落理解与问题解答的能力评估。
  • 繁中阅读理解资料集(DRCD zh_tw): https://huggingface.co/datasets/voidful/DRCD | voidful 整理的繁体中文阅读理解资料集,加强对段落理解与问题解答的能力评估。