跳转到内容

Taiwan Tongues

来自维基学院

Taiwan Tongues 專案,是IMA(中華民國資訊經理人協會)所倡議,旨在彙整台灣各通行語言語料庫,盡可能建立完整索引,並透過台灣民間的力量,擴充台灣本土語言的語料庫,亦旨在讓世界各地的大型語言模型可以藉此索引及語料庫,更有效率地取得語料庫以進行合作,提升台灣語言在AI時代的影響力。

專案架構

[编辑 | 编辑源代码]

本專案核心目標為開放、跨語種、可供AI模型訓練與研究使用的語料庫。目前蒐集方式包括:文學創作者作品授權、既有語料資料庫導入,以及Taiwan Wiki 大修訂計畫。

文學創作者作品授權計畫

[编辑 | 编辑源代码]

本計畫在邀請台灣本土語言作家,以CC BY-NC 4.0方式捐贈著作權。

Taiwan Wiki 大修訂計畫

[编辑 | 编辑源代码]

社群共同修訂、擴展華語、台語、客語等百科內容,為 AI 建立真實且在地的語境資源。

開源語料列表

[编辑 | 编辑源代码]

合作訓練成果

[编辑 | 编辑源代码]