TAIDE

TAIDE
开发者	中华民国国家科学及技术委员会
首次发布	2023年6月14日，16个月前
当前版本	2024年4月29日，6个月前
引擎	LLaMA、Llama 3
语言	繁体中文、台湾台语、客语等3种语言
类型	聊天机器人
网站	https://taide.tw

可信任人工智慧对话引擎（英语：Trustworthy AI Dialog Engine，简称TAIDE^[1]），是由台湾国科会主导的生成式AI计画，于2023年6月14日首次推出模型。^[2]

概要

TAIDE模型的训练素材具有台湾本土特色，涵盖了政府与民间多元领域的资料。这些素材包括大量通用文本，如中央社、光华杂志、公共电视、各部会公开资料、法规资料库及国家文化记忆库等，以及字辞典资料，如台湾语料库和各领域常用字辞典，还有来自民间出版社提供的文本。在算力方面，先期已建置9台共72片最新的NVIDIA H100晶片运算资源，并整合国家高速网路与计算中心的超级电脑“台湾杉二号”。^[3]此外，TAIDE团队还与产学研伙伴合作，将TAIDE模型应用于农业知识检索系统“神农TAIDE”及中小学生台语教学等七个领域，推动多元应用发展。^[4]

背景

自ChatGPT于2022年底问世后，中国百度宣布推出中文版聊天机器人文心一言，引发了台湾对开发自身繁体中文大语言模型的广泛讨论。万幼筠指出，AI聊天机器人的一大特征是其“文化侵略性质极强”，而李育杰则表示：“以台湾目前的民主化程度来看，抖音尚且无法被禁止，更何况是文心一言。如果台湾的年轻人如同使用抖音般广泛使用文心一言，这将会带来严重问题。”

为了减缓中国科技业日益增长的影响力并在台湾新兴的人工智慧生态系统中稳固地位，台湾政府计划至2026年编列约新台币174亿元（约5.56亿美元）用于发展相关专业知识和技术。此外，台湾政府还投入约新台币2亿元（约740万美元）开发TAIDE，这是一种语言模型，旨在协助企业、银行、医院及政府部门执行如撰写电子邮件和会议摘要等工作任务，并期望借此工具减少中国的政治影响。在这样的危机感驱使下，李育杰迅速提出开发台湾LLM的研究计划。国科会主委吴政忠于2023年1月底接获该计划后，立即从科技会报跨部会署科发基金中拨出超过两亿元的预算，目标是在2024年3月前完成繁体中文对话引擎TAIDE的开发，并建立人工智慧评测中心。李育杰表示：“我们或许无法立即与大型引擎抗衡，但拥有自己的对话引擎，至少能让大家有选择的空间。”^[5]^[6]

历史

为了保护台湾的文化并加强自主技术的发展，台湾政府自2023年4月27日起推动“可信任生成式AI对话引擎”（Trustworthy AI Dialogue Engine, TAIDE），旨在促进台湾生成式AI的应用与产业发展，并提升其国际竞争力。^[3]^[4]

2023年12月，隶属于数位发展部的台湾人工智慧评测中心正式成立并挂牌运作，TAIDE成为首个接受检测的大型语言模型（LLM）。^[5]

2024年4月15日，国科会推动的可信任生成式AI发展先期计画（简称TAIDE）团队宣布释出商用版TAIDE LX-7B模型及学研版TAIDE LX-13B模型。这两款模型基于Meta的开源模型LLaMA 2，经由繁体中文及在地文本的搜集与训练开发而成。TAIDE LX-7B和LX-13B在文章撰写、信件撰写、摘要生成、英中翻译及中英翻译等方面表现卓越，并具备多轮对话能力及阻断不恰当回应的功能。此次模型的推出旨在协助台湾政府推动生成式AI技术的发展，提供更多元与多样化的服务，并支持各领域快速导入生成式AI技术。^[7]^[3]

2024年4月29日，TAIDE开发团队发布了以Meta Llama 3为基础训练的“升级版”Llama 3-TAIDE-LX-8B-Chat-Alpha1模型，这是一款具台湾文化的大型繁体中文模型，并已完成基本测试。国科会主委吴政忠对于TAIDE团队在仅4天内完成模型训练并迅速推出可商用版本表示高度肯定。此举旨在因应Meta最新释出的Llama 3，以迅速回应外界的期待。^[8]^[3]

参考资料

^ ^1.0 ^1.1 國科會台版AI對話引擎初代模型主打可信賴4功能. 中央社. 2023-06-14 [2024-05-03]. （原始内容存档于2024-05-03）.
^ 發展AI對話引擎國科會擬推基礎模型供加值應用. 中央社. 2023-03-30 [2024-05-03]. （原始内容存档于2024-05-03）.
^ ^3.0 ^3.1 ^3.2 ^3.3 完善臺灣AI基礎建設—打造可信任AI對話引擎TAIDE. 行政院全球资讯网. 2024-06-21 [2024-08-28] （中文（台湾））.
^ ^4.0 ^4.1 完善臺灣AI基礎建設打造可信任AI對話引擎TAIDE. 行政院全球资讯网. 2014-05-23 [2024-08-28] （中文（台湾））.
^ ^5.0 ^5.1 洪家宁. 「防止中國AI文化侵略」台灣第一個繁體中文大語言模型TAIDE，能做什麼？. 天下杂志（中文）.
^ 臺灣建立自己的人工智慧語言模型以對抗中國的影響. taide.tw. 2024-01-25 （中文）.
^ TAIDE-LX-7B模型正式發佈：探索更本土化的大型語言模型. https://taide.tw/. 2024-4-15 （中文）. 请检查|date=中的日期值 (帮助)
^ TAIDE團隊釋出Llama 3-TAIDE-LX-8B-Chat-Alpha1模型，具臺灣文化的大型語言模型再升級. https://taide.tw/. 2024-4-29 （中文）. 请检查|date=中的日期值 (帮助)

参见

外部链接

[國-1] 1.0 ^1.1 國科會台版AI對話引擎初代模型主打可信賴4功能. 中央社. 2023-06-14 [2024-05-03]. （原始内容存档于2024-05-03）.

[2] 發展AI對話引擎國科會擬推基礎模型供加值應用. 中央社. 2023-03-30 [2024-05-03]. （原始内容存档于2024-05-03）.

[:0-3] 3.0 ^3.1 ^3.2 ^3.3 完善臺灣AI基礎建設—打造可信任AI對話引擎TAIDE. 行政院全球资讯网. 2024-06-21 [2024-08-28] （中文（台湾））.

[:2-4] 4.0 ^4.1 完善臺灣AI基礎建設打造可信任AI對話引擎TAIDE. 行政院全球资讯网. 2014-05-23 [2024-08-28] （中文（台湾））.

[:1-5] 5.0 ^5.1 洪家宁. 「防止中國AI文化侵略」台灣第一個繁體中文大語言模型TAIDE，能做什麼？. 天下杂志（中文）.

[6] 臺灣建立自己的人工智慧語言模型以對抗中國的影響. taide.tw. 2024-01-25 （中文）.

[7] TAIDE-LX-7B模型正式發佈：探索更本土化的大型語言模型. https://taide.tw/. 2024-4-15 （中文）. 请检查|date=中的日期值 (帮助)

[8] TAIDE團隊釋出Llama 3-TAIDE-LX-8B-Chat-Alpha1模型，具臺灣文化的大型語言模型再升級. https://taide.tw/. 2024-4-29 （中文）. 请检查|date=中的日期值 (帮助)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

查论编机器学习同数据挖掘主题
基本概念	学习 · 图灵测试 · 运算学习论
数学模型	回归模型 · 人工神经网络（深度学习） · 生成对抗网络 · Transformer模型 · 大语言模型 · 决策树 · 贝氏网路 · 支持向量机 · 关联规则学习
学习范式	机器学习 · 深度学习 · 迁移学习 · 微调 (深度学习) · 监督学习 · 半监督学习 · 无监督学习 · 强化学习 · Q学习 · 遗传演算法
主要应用	统计分类 · 表征学习 · 降维 · 聚类分析 · 异常检测
相关领域	计算科学 · 人工智能 · 通用人工智慧 · 生成式人工智慧 · 提示工程 · 统计学 · 数据科学 · 计算机科学 · 信息与计算科学 · 神经科学 · 认知科学

查论编自然语言处理
一般术语	语料库口语语料库停用词词袋完全人工智慧（英语：AI-complete） n元语法（双字母组、三元语法（英语：Trigrams））
文本挖掘	文本分割词性标注（英语：Part-of-speech tagging）拆句处理（英语：Shallow parsing）复合词处理（英语：Compound term processing）搭配提取（英语：Collocation extraction）词干提取词形还原命名实体识别指代文本情感分析概念挖掘（英语：Concept mining）语法分析词义消歧术语提取（英语：Terminology extraction）真实大小写处理（英语：Truecasing）
自动摘要（英语：Automatic summarization）	多文档摘要（英语：Multi-document summarization）句子抽取（英语：Sentence extraction）文本简化（英语：Text simplification）
分布语义（英语：Distributional semantics）模型	潜在语义学 Seq2Seq模型 Word2vec 语言模型大型语言模型基础模型 LLaMA ChatGPT GPT-4 文心一言词嵌入
机器翻译	电脑辅助翻译基于实例（英语：Example-based machine translation）基于规则（英语：Rule-based machine translation）
自动识别与数据采集	语音识别语音合成光学字符识别自然语言生成提示工程
主题模型	弹珠分布（英语：Pachinko allocation）隐含狄利克雷分布潜在语义索引
计算机辅助审查（英语：Computer-assisted reviewing）	自动作文评分（英语：Automated essay scoring）语料库检索工具（英语：Concordancer）文法检查器（英语：Grammar checker）预测文本（英语：Predictive text）拼写检查语法猜测（英语：Syntax guessing）
自然语言用户界面（英语：Natural language user interface）	自动在线助手聊天机器人文字冒险游戏问答系统