TAIDE

TAIDE
開發者	中華民國國家科學及技術委員會
首次發布	2023年6月14日，16個月前
目前版本	2024年4月29日，6個月前
引擎	LLaMA、Llama 3
語言	繁體中文、台灣台語、客語等3種語言
類型	聊天機器人
網站	https://taide.tw

可信任人工智慧對話引擎（英語：Trustworthy AI Dialog Engine，簡稱TAIDE^[1]），是由台灣國科會主導的生成式AI計畫，於2023年6月14日首次推出模型。^[2]

概要

TAIDE模型的訓練素材具有臺灣本土特色，涵蓋了政府與民間多元領域的資料。這些素材包括大量通用文字，如中央社、光華雜誌、公共電視、各部會公開資料、法規資料庫及國家文化記憶庫等，以及字辭典資料，如臺灣語料庫和各領域常用字辭典，還有來自民間出版社提供的文字。在算力方面，先期已建置9臺共72片最新的NVIDIA H100晶片運算資源，並整合國家高速網路與計算中心的超級電腦「臺灣杉二號」。^[3]此外，TAIDE團隊還與產學研夥伴合作，將TAIDE模型應用於農業知識檢索系統「神農TAIDE」及中小學生台語教學等七個領域，推動多元應用發展。^[4]

背景

自ChatGPT於2022年底問世後，中國百度宣布推出中文版聊天機器人文心一言，引發了台灣對開發自身繁體中文大語言模型的廣泛討論。萬幼筠指出，AI聊天機器人的一大特徵是其「文化侵略性質極強」，而李育傑則表示：「以台灣目前的民主化程度來看，抖音尚且無法被禁止，更何況是文心一言。如果台灣的年輕人如同使用抖音般廣泛使用文心一言，這將會帶來嚴重問題。」

為了減緩中國科技業日益增長的影響力並在台灣新興的人工智慧生態系統中穩固地位，台灣政府計劃至2026年編列約新臺幣174億元（約5.56億美元）用於發展相關專業知識和技術。此外，台灣政府還投入約新臺幣2億元（約740萬美元）開發TAIDE，這是一種語言模型，旨在協助企業、銀行、醫院及政府部門執行如撰寫電子郵件和會議摘要等工作任務，並期望藉此工具減少中國的政治影響。在這樣的危機感驅使下，李育傑迅速提出開發台灣LLM的研究計劃。國科會主委吳政忠於2023年1月底接獲該計劃後，立即從科技會報跨部會署科發基金中撥出超過兩億元的預算，目標是在2024年3月前完成繁體中文對話引擎TAIDE的開發，並建立人工智慧評測中心。李育傑表示：「我們或許無法立即與大型引擎抗衡，但擁有自己的對話引擎，至少能讓大家有選擇的空間。」^[5]^[6]

歷史

為了保護台灣的文化並加強自主技術的發展，台灣政府自2023年4月27日起推動「可信任生成式AI對話引擎」（Trustworthy AI Dialogue Engine, TAIDE），旨在促進台灣生成式AI的應用與產業發展，並提升其國際競爭力。^[3]^[4]

2023年12月，隸屬於數位發展部的台灣人工智慧評測中心正式成立並掛牌運作，TAIDE成為首個接受檢測的大型語言模型（LLM）。^[5]

2024年4月15日，國科會推動的可信任生成式AI發展先期計畫（簡稱TAIDE）團隊宣布釋出商用版TAIDE LX-7B模型及學研版TAIDE LX-13B模型。這兩款模型基於Meta的開源模型LLaMA 2，經由繁體中文及在地文字的蒐集與訓練開發而成。TAIDE LX-7B和LX-13B在文章撰寫、信件撰寫、摘要生成、英中翻譯及中英翻譯等方面表現卓越，並具備多輪對話能力及阻斷不恰當回應的功能。此次模型的推出旨在協助台灣政府推動生成式AI技術的發展，提供更多元與多樣化的服務，並支援各領域快速匯入生成式AI技術。^[7]^[3]

2024年4月29日，TAIDE開發團隊發佈了以Meta Llama 3為基礎訓練的「升級版」Llama 3-TAIDE-LX-8B-Chat-Alpha1模型，這是一款具台灣文化的大型繁體中文模型，並已完成基本測試。國科會主委吳政忠對於TAIDE團隊在僅4天內完成模型訓練並迅速推出可商用版本表示高度肯定。此舉旨在因應Meta最新釋出的Llama 3，以迅速回應外界的期待。^[8]^[3]

參考資料

^ ^1.0 ^1.1 國科會台版AI對話引擎初代模型主打可信賴4功能. 中央社. 2023-06-14 [2024-05-03]. （原始內容存檔於2024-05-03）.
^ 發展AI對話引擎國科會擬推基礎模型供加值應用. 中央社. 2023-03-30 [2024-05-03]. （原始內容存檔於2024-05-03）.
^ ^3.0 ^3.1 ^3.2 ^3.3 完善臺灣AI基礎建設—打造可信任AI對話引擎TAIDE. 行政院全球資訊網. 2024-06-21 [2024-08-28] （中文（臺灣））.
^ ^4.0 ^4.1 完善臺灣AI基礎建設打造可信任AI對話引擎TAIDE. 行政院全球資訊網. 2014-05-23 [2024-08-28] （中文（臺灣））.
^ ^5.0 ^5.1 洪家寧. 「防止中國AI文化侵略」台灣第一個繁體中文大語言模型TAIDE，能做什麼？. 天下雜誌（中文）.
^ 臺灣建立自己的人工智慧語言模型以對抗中國的影響. taide.tw. 2024-01-25 （中文）.
^ TAIDE-LX-7B模型正式發佈：探索更本土化的大型語言模型. https://taide.tw/. 2024-4-15 （中文）. 請檢查|date=中的日期值 (幫助)
^ TAIDE團隊釋出Llama 3-TAIDE-LX-8B-Chat-Alpha1模型，具臺灣文化的大型語言模型再升級. https://taide.tw/. 2024-4-29 （中文）. 請檢查|date=中的日期值 (幫助)

參見

外部連結

[國-1] 1.0 ^1.1 國科會台版AI對話引擎初代模型主打可信賴4功能. 中央社. 2023-06-14 [2024-05-03]. （原始內容存檔於2024-05-03）.

[2] 發展AI對話引擎國科會擬推基礎模型供加值應用. 中央社. 2023-03-30 [2024-05-03]. （原始內容存檔於2024-05-03）.

[:0-3] 3.0 ^3.1 ^3.2 ^3.3 完善臺灣AI基礎建設—打造可信任AI對話引擎TAIDE. 行政院全球資訊網. 2024-06-21 [2024-08-28] （中文（臺灣））.

[:2-4] 4.0 ^4.1 完善臺灣AI基礎建設打造可信任AI對話引擎TAIDE. 行政院全球資訊網. 2014-05-23 [2024-08-28] （中文（臺灣））.

[:1-5] 5.0 ^5.1 洪家寧. 「防止中國AI文化侵略」台灣第一個繁體中文大語言模型TAIDE，能做什麼？. 天下雜誌（中文）.

[6] 臺灣建立自己的人工智慧語言模型以對抗中國的影響. taide.tw. 2024-01-25 （中文）.

[7] TAIDE-LX-7B模型正式發佈：探索更本土化的大型語言模型. https://taide.tw/. 2024-4-15 （中文）. 請檢查|date=中的日期值 (幫助)

[8] TAIDE團隊釋出Llama 3-TAIDE-LX-8B-Chat-Alpha1模型，具臺灣文化的大型語言模型再升級. https://taide.tw/. 2024-4-29 （中文）. 請檢查|date=中的日期值 (幫助)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

閱論編機器學習同資料探勘主題
基本概念	學習 · 圖靈測試 · 運算學習論
數學模型	迴歸模型 · 類神經網路（深度學習） · 生成對抗網路 · Transformer模型 · 大語言模型 · 決策樹 · 貝氏網路 · 支持向量機 · 關聯規則學習
學習範式	機器學習 · 深度學習 · 遷移學習 · 微調 (深度學習) · 監督學習 · 半監督學習 · 無監督學習 · 強化學習 · Q學習 · 遺傳演算法
主要應用	統計分類 · 表徵學習 · 降維 · 聚類分析 · 異常檢測
相關領域	計算科學 · 人工智慧 · 通用人工智慧 · 生成式人工智慧 · 提示工程 · 統計學 · 數據科學 · 電腦科學 · 資訊與計算科學 · 神經科學 · 認知科學

閱論編自然語言處理
一般術語	語料庫口語語料庫停用詞詞袋完全人工智慧（英語：AI-complete） n元語法（雙字母組、三元語法（英語：Trigrams））
文字挖掘	文字分割詞性標註（英語：Part-of-speech tagging）拆句處理（英語：Shallow parsing）複合詞處理（英語：Compound term processing）搭配提取（英語：Collocation extraction）詞幹提取詞形還原命名實體辨識指代文字情感分析概念挖掘（英語：Concept mining）語法分析詞義消歧術語提取（英語：Terminology extraction）真實大小寫處理（英語：Truecasing）
自動摘要（英語：Automatic summarization）	多文件摘要（英語：Multi-document summarization）句子抽取（英語：Sentence extraction）文字簡化（英語：Text simplification）
分佈語義（英語：Distributional semantics）模型	潛在語意學 Seq2Seq模型 Word2vec 語言模型大型語言模型基礎模型 LLaMA ChatGPT GPT-4 文心一言詞嵌入
機器翻譯	電腦輔助翻譯基於實例（英語：Example-based machine translation）基於規則（英語：Rule-based machine translation）
自動辨識與資料採集	語音辨識語音合成光學字元辨識自然語言生成提示工程
主題模型	彈珠分布（英語：Pachinko allocation）隱含狄利克雷分布潛在語意索引
電腦輔助審查（英語：Computer-assisted reviewing）	自動作文評分（英語：Automated essay scoring）語料庫檢索工具（英語：Concordancer）文法檢查器（英語：Grammar checker）預測文字（英語：Predictive text）拼寫檢查語法猜測（英語：Syntax guessing）
自然語言使用者介面（英語：Natural language user interface）	自動線上助手聊天機器人文字冒險遊戲問答系統