大型語言模型

人工智能模型型式
上級分類	語言模型
用途	對話型AI
話題方面	人工智能
簡稱	LLM
詳情描述網址	https://www.youtube.com/watch?v=WqYBx2gB6vA
使用	AI提示、變換器
EntitySchema for this class	Entity schema not supported yet (E434)
相對概念	小型語言模型

大語言模型（英語：large language model，LLM）是一種語言模型，由具有許多參數（通常數十億個權重或更多）的人工神經網絡組成，使用自監督學習或半監督學習對大量未標記文本進行訓練^[1]。大語言模型在2018年左右出現，並在各種任務中表現出色^[2]。

儘管這個術語沒有正式的定義，但它通常指的是參數數量在數十億或更多數量級的深度學習模型^[3]。大語言模型是通用模型，在廣泛的任務中表現出色，而不是針對一項特定任務（例如情感分析、命名實體識別或數學推理）進行訓練^[2]。

儘管大語言模型僅在預測句子中的下一個單詞等簡單任務上接受過訓練，但發現具有足夠訓練和參數計數的神經語言模型可以捕獲人類語言的大部分句法和語義。此外大語言模型還展示了相當多的關於世界的常識，並且能夠在訓練期間「記住」大量事實^[2]。

雖然 ChatGPT 為代表的大語言模型在生成類人文本方面表現出了卓越的能力，但它們很容易繼承和放大訓練數據中存在的偏差。這可能表現為對不同人口統計數據的歪曲表述或不公平待遇，例如基於種族^[4]、性別^[5]、語言^[6]和文化群體^[6]的不同觀點與態度。

偏差和局限性

大語言模型偏差和局限性是自然語言處理（NLP）領域正在進行的研究。雖然大語言模型在生成類人文本方面表現出了卓越的能力，但他們很容易繼承和放大訓練數據中存在的偏見。這可能表現為對不同人口統計數據的不公平待遇，例如基於種族、性別、語言和文化群體的統計數據。此外，這些模型通常面臨事實準確性的限制。研究和緩解這些偏見和限制對於人工智能在不同社會和專業領域的道德發展和應用至關重要。

語言偏差

語言偏差是指與語言相關的一種統計抽樣偏差，也就是說在信息抽樣中，查詢語言導致的系統偏差會使其無法準確呈現數據中的各種不同主題和觀點。當前的大型語言模型主要是根據英語數據進行訓練的，因此通常將英語觀點視為真實可靠的觀點，而系統地將非英語觀點視為不相關、錯誤或噪音。當被問到諸如「什麼是自由主義？」之類的政治意識形態的問題時，ChatGPT以英美角度為中心，而對例如說越南的「反對國家干預個人和經濟生活」與中國的「限制政府權力」等視而不見。同樣，回覆中也沒有日本、韓國、法國和德國語料庫中的主流政治觀點。^[6]

性別偏差

性別偏差是指這些模型產生的結果傾向於對一種性別產生不公平的偏見。這種偏差通常源於訓練這些模型的數據。例如，大型語言模型通常根據傳統的性別規範來分配角色和特徵；它可能會將護士或秘書主要與女性聯繫起來，將工程師或行政總裁與男性聯繫起來。^[4]^[7]

政治偏差

政治偏差是指算法系統地傾向於某些政治觀點、意識形態或結果，也可能表現出政治偏見。由於訓練數據包含廣泛的政治觀點和覆蓋範圍，因此模型可能會生成傾向於特定政治意識形態或觀點的響應，具體取決於數據中這些觀點的普遍程度。^[8]

文化偏差

文化偏見是指大語言模型對特定的文化實踐、信仰或傳統持有偏見，由於受到訓練數據中文化信息的不均衡、誤導性或歧視性影響。例如，若模型的訓練數據中某種文化的觀點被過度代表，模型就繼承這種偏差形成一定的偏見。^[9]

地域偏差

地域偏差是指大語言模型根據地理位置或國籍對人們的行為、習慣或特徵做出偏見性的假設。這種偏差可能導致對特定地區的知識、成就、問題、潛力等方面的誤解、低估或過度放大。^[10]

年齡偏差

年齡偏差是指大語言模型在處理或生成與年齡相關的話題時，根據年齡做出刻板印象化的假設，例如認為年長者不懂技術或年輕人缺乏責任感。^[11]

職業偏差

職業偏差是指大語言模型對特定職業持有刻板印象，將某些職業視為比其他職業更有價值或重要，或對特定職業的人群做出性格或能力上的假設。^[12]

大型語言模型列表

GPT（OpenAI）
GPT-3（OpenAI）
GPT-4（OpenAI）
LaMDA（谷歌）
PaLM（谷歌）（英語：PaLM）
Gemini（谷歌）
Claude（Anthropic）
LLaMA（Meta）
Titan（亞馬遜）
Mistral（Mistral AI）
BLOOM（Hugging Face）
文心一言（百度）
通義千問（阿里雲）
混元（騰訊）
盤古（華為）
星火（科大訊飛）
商量 SenseChat（商湯科技）
百川（百川智能）
豆包（抖音）
GLM（清華智譜）

參見

外部連接

Open LLM Leaderboard（開放LLM排行榜旨在跟蹤、排名和評估開放LLM和聊天機械人）（頁面存檔備份，存於互聯網檔案館）
最全大語言模型--偏見測評測評匯集 https://blog.sciencenet.cn/blog-3429562-1426223.html

參考資料

^ Goled, Shraddha. Self-Supervised Learning Vs Semi-Supervised Learning: How They Differ. Analytics India Magazine. May 7, 2021 [2023-06-08]. （原始內容存檔於2023-06-18）.
^ ^2.0 ^2.1 ^2.2 Manning, Christopher D. Human Language Understanding & Reasoning. Daedalus. 2022, 151 (2): 127–138 [2023-06-08]. S2CID 248377870. doi:10.1162/daed_a_01905. （原始內容存檔於2023-03-09）.
^ Carlini, Nicholas; Tramer, Florian; Wallace, Eric; Jagielski, Matthew; Herbert-Voss, Ariel; Lee, Katherine; Roberts, Adam; Brown, Tom B; Song, Dawn; Erlingsson, Ulfar. Extracting Training Data from Large Language Models (PDF). USENIX Security Symposium 6. 2021 [2023-06-08]. （原始內容存檔 (PDF)於2023-12-21）.
^ ^4.0 ^4.1 Kotek, Hadas; Dockum, Rikker; Sun, David. Gender bias and stereotypes in Large Language Models. Proceedings of The ACM Collective Intelligence Conference. CI '23 (New York, NY, USA: Association for Computing Machinery). 2023-11-05. ISBN 979-8-4007-0113-9. doi:10.1145/3582269.3615599.
^ Davidson, Thomas; Bhattacharya, Debasmita; Weber, Ingmar. Roberts, Sarah T.; Tetreault, Joel; Prabhakaran, Vinodkumar; Waseem, Zeerak , 編. Racial Bias in Hate Speech and Abusive Language Detection Datasets. Proceedings of the Third Workshop on Abusive Language Online (Florence, Italy: Association for Computational Linguistics). 2019-08. doi:10.18653/v1/W19-3504.
^ ^6.0 ^6.1 ^6.2 Queenie Luo; Michael J. Puett; Michael D. Smith. A Perspectival Mirror of the Elephant: Investigating Language Bias on Google, ChatGPT, Wikipedia, and YouTube. arXiv. （原始內容存檔於2024-04-16）.
^ Yucong Duan; Fuliang Tang; Zhendong Guo; Yingtian Mei; Yuxing Wang; Kunguang Wu; Zeyu Yang; Shuaishuai Huang; Shiming Gong. Global Large Language Model EQ and IQ Bias Evaluation -Released by DIKWP -AC Research Group. ResearchGate. 2023. doi:10.13140/RG.2.2.12894.61762 –透過ResearchGate （英語）.
^ Zhou, Karen; Tan, Chenhao. Bouamor, Houda; Pino, Juan; Bali, Kalika , 編. Entity-Based Evaluation of Political Bias in Automatic Summarization. Findings of the Association for Computational Linguistics: EMNLP 2023 (Singapore: Association for Computational Linguistics). 2023-12 [2023-12-26]. doi:10.18653/v1/2023.findings-emnlp.696. （原始內容存檔於2024-04-24）.
^ Yucong Duan; Fuliang Tang; Kunguang Wu; Zhendong Guo; Shuaishuai Huang; Yingtian Mei; Yuxing Wang; Zeyu Yang; Shiming Gong. "Ranking of Large Language Model (LLM) Cultural Bias" --DIKWP Research Group International Standard Evaluation. ResearchGate. 2024. doi:10.13140/RG.2.2.26652.67200 –透過ResearchGate.
^ Yucong Duan; Fuliang Tang; Kunguang Wu; Zhendong Guo; Shuaishuai Huang; Yingtian Mei; Yuxing Wang; Zeyu Yang; Shiming Gong. "Ranking of Large Language Model (LLM) Regional Bias" --DIKWP Research Group International Standard Evaluation. ResearchGate. 2024. doi:10.13140/RG.2.2.10019.63529 –透過ResearchGate.
^ Yucong Duan; Fuliang Tang; Kunguang Wu; Zhendong Guo; Shuaishuai Huang; Yingtian Mei; Yuxing Wang; Zeyu Yang; Shiming Gong. "The Large Language Model (LLM) Bias Evaluation (Age Bias)" --DIKWP Research Group International Standard Evaluation. ResearchGate. 2024. doi:10.13140/RG.2.2.26397.12006 –透過ResearchGate.
^ Yucong Duan; Fuliang Tang; Kunguang Wu; Zhendong Guo; Shuaishuai Huang; Yingtian Mei; Yuxing Wang; Zeyu Yang; Shiming Gong. "The Large Language Model (LLM) Bias Evaluation (Occupational Bias)" --DIKWP Research Group International Standard Evaluation. ResearchGate. 2024. doi:10.13140/RG.2.2.23041.67689 –透過ResearchGate.

[1] Goled, Shraddha. Self-Supervised Learning Vs Semi-Supervised Learning: How They Differ. Analytics India Magazine. May 7, 2021 [2023-06-08]. （原始內容存檔於2023-06-18）.

[Manning-2022-2] 2.0 ^2.1 ^2.2 Manning, Christopher D. Human Language Understanding & Reasoning. Daedalus. 2022, 151 (2): 127–138 [2023-06-08]. S2CID 248377870. doi:10.1162/daed_a_01905. （原始內容存檔於2023-03-09）.

[extracting-3] Carlini, Nicholas; Tramer, Florian; Wallace, Eric; Jagielski, Matthew; Herbert-Voss, Ariel; Lee, Katherine; Roberts, Adam; Brown, Tom B; Song, Dawn; Erlingsson, Ulfar. Extracting Training Data from Large Language Models (PDF). USENIX Security Symposium 6. 2021 [2023-06-08]. （原始內容存檔 (PDF)於2023-12-21）.

[:1-4] 4.0 ^4.1 Kotek, Hadas; Dockum, Rikker; Sun, David. Gender bias and stereotypes in Large Language Models. Proceedings of The ACM Collective Intelligence Conference. CI '23 (New York, NY, USA: Association for Computing Machinery). 2023-11-05. ISBN 979-8-4007-0113-9. doi:10.1145/3582269.3615599.

[5] Davidson, Thomas; Bhattacharya, Debasmita; Weber, Ingmar. Roberts, Sarah T.; Tetreault, Joel; Prabhakaran, Vinodkumar; Waseem, Zeerak , 編. Racial Bias in Hate Speech and Abusive Language Detection Datasets. Proceedings of the Third Workshop on Abusive Language Online (Florence, Italy: Association for Computational Linguistics). 2019-08. doi:10.18653/v1/W19-3504.

[:0-6] 6.0 ^6.1 ^6.2 Queenie Luo; Michael J. Puett; Michael D. Smith. A Perspectival Mirror of the Elephant: Investigating Language Bias on Google, ChatGPT, Wikipedia, and YouTube. arXiv. （原始內容存檔於2024-04-16）.

[7] Yucong Duan; Fuliang Tang; Zhendong Guo; Yingtian Mei; Yuxing Wang; Kunguang Wu; Zeyu Yang; Shuaishuai Huang; Shiming Gong. Global Large Language Model EQ and IQ Bias Evaluation -Released by DIKWP -AC Research Group. ResearchGate. 2023. doi:10.13140/RG.2.2.12894.61762 –透過ResearchGate （英語）.

[8] Zhou, Karen; Tan, Chenhao. Bouamor, Houda; Pino, Juan; Bali, Kalika , 編. Entity-Based Evaluation of Political Bias in Automatic Summarization. Findings of the Association for Computational Linguistics: EMNLP 2023 (Singapore: Association for Computational Linguistics). 2023-12 [2023-12-26]. doi:10.18653/v1/2023.findings-emnlp.696. （原始內容存檔於2024-04-24）.

[9] Yucong Duan; Fuliang Tang; Kunguang Wu; Zhendong Guo; Shuaishuai Huang; Yingtian Mei; Yuxing Wang; Zeyu Yang; Shiming Gong. "Ranking of Large Language Model (LLM) Cultural Bias" --DIKWP Research Group International Standard Evaluation. ResearchGate. 2024. doi:10.13140/RG.2.2.26652.67200 –透過ResearchGate.

[10] Yucong Duan; Fuliang Tang; Kunguang Wu; Zhendong Guo; Shuaishuai Huang; Yingtian Mei; Yuxing Wang; Zeyu Yang; Shiming Gong. "Ranking of Large Language Model (LLM) Regional Bias" --DIKWP Research Group International Standard Evaluation. ResearchGate. 2024. doi:10.13140/RG.2.2.10019.63529 –透過ResearchGate.

[11] Yucong Duan; Fuliang Tang; Kunguang Wu; Zhendong Guo; Shuaishuai Huang; Yingtian Mei; Yuxing Wang; Zeyu Yang; Shiming Gong. "The Large Language Model (LLM) Bias Evaluation (Age Bias)" --DIKWP Research Group International Standard Evaluation. ResearchGate. 2024. doi:10.13140/RG.2.2.26397.12006 –透過ResearchGate.

[12] Yucong Duan; Fuliang Tang; Kunguang Wu; Zhendong Guo; Shuaishuai Huang; Yingtian Mei; Yuxing Wang; Zeyu Yang; Shiming Gong. "The Large Language Model (LLM) Bias Evaluation (Occupational Bias)" --DIKWP Research Group International Standard Evaluation. ResearchGate. 2024. doi:10.13140/RG.2.2.23041.67689 –透過ResearchGate.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

閱論編機器學習同數據挖掘主題
基本概念	學習 · 圖靈測試 · 運算學習論
數學模型	迴歸模型 · 人工神經網絡（深度學習） · 生成對抗網絡 · Transformer模型 · 大語言模型 · 決策樹 · 貝氏網絡 · 支持向量機 · 關聯規則學習
學習範式	機器學習 · 深度學習 · 遷移學習 · 微調 (深度學習) · 監督學習 · 半監督學習 · 無監督學習 · 強化學習 · Q學習 · 遺傳演算法
主要應用	統計分類 · 表徵學習 · 降維 · 聚類分析 · 異常檢測
相關領域	計算科學 · 人工智能 · 通用人工智能 · 生成式人工智能 · 提示工程 · 統計學 · 數據科學 · 計算機科學 · 信息與計算科學 · 神經科學 · 認知科學

閱論編自然語言處理
一般術語	語料庫口語語料庫停用詞詞袋完全人工智能（英語：AI-complete） n元語法（雙字母組、三元語法（英語：Trigrams））
文本挖掘	文本分割詞性標註（英語：Part-of-speech tagging）拆句處理（英語：Shallow parsing）複合詞處理（英語：Compound term processing）搭配提取（英語：Collocation extraction）詞幹提取詞形還原命名實體識別指代文本情感分析概念挖掘（英語：Concept mining）語法分析詞義消歧術語提取（英語：Terminology extraction）真實大小寫處理（英語：Truecasing）
自動摘要（英語：Automatic summarization）	多文檔摘要（英語：Multi-document summarization）句子抽取（英語：Sentence extraction）文本簡化（英語：Text simplification）
分佈語義（英語：Distributional semantics）模型	潛在語義學 Seq2Seq模型 Word2vec 語言模型大型語言模型基礎模型 LLaMA ChatGPT GPT-4 文心一言詞嵌入
機器翻譯	電腦輔助翻譯基於實例（英語：Example-based machine translation）基於規則（英語：Rule-based machine translation）
自動識別與數據採集	語音識別語音合成光學字符識別自然語言生成提示工程
主題模型	彈珠分佈（英語：Pachinko allocation）隱含狄利克雷分佈潛在語義索引
計算機輔助審查（英語：Computer-assisted reviewing）	自動作文評分（英語：Automated essay scoring）語料庫檢索工具（英語：Concordancer）文法檢查器（英語：Grammar checker）預測文本（英語：Predictive text）拼寫檢查語法猜測（英語：Syntax guessing）
自然語言用戶界面（英語：Natural language user interface）	自動在線助手聊天機械人文字冒險遊戲問答系統

閱論編深度學習軟件（英語：Comparison of deep learning software）
開源軟件	Apache Singa（英語：Apache Singa） Blocks（英語：Blocks） Caffe Deeplearning4j Dlib（英語：Dlib） Microsoft Cognitive Toolkit MXNet OpenNN PyTorch scikit-learn LangChain Gradio RETURNN（英語：RETURNN） TensorFlow Keras Theano Torch（英語：Torch (machine learning)）
專有	Neural Designer（英語：Neural Designer） Wolfram Mathematica
分類比較