微調 (深度學習)

微調（又稱大模型微調，英語：fine-tuning）是深度學習中遷移學習的一種方法，其中預訓練模型的權重會在新數據上進行訓練^[1]。微調可以在整個神經網絡上執行，也可以僅在其部分層上執行，此時未進行微調的層會被「凍結」（在反向傳播步驟中不更新）^[2]。模型還可以通過「適配器」進行增強，適配器的參數遠少於原始模型，通過調整適配器的權重並保持模型的其餘權重不變的方式，以參數有效的方式進行微調^[3]。

對於一些體系結構，比如卷積神經網絡，通常會將較早的層（靠近輸入層的層）凍結，因為它們捕捉到較低層次的特徵，而較後的層通常能夠識別更高層次的特徵，這些特徵可能更相關於模型訓練的任務。^[2]^[4]

對於在大型和通用語料庫上進行預訓練的模型，通常通過重用模型的參數作為起點，並添加一個從頭開始訓練的任務特定層進行微調。^[5] 對整個模型進行微調也很常見，通常會產生更好的結果，但計算成本更高。^[6]

微調通常通過監督學習完成，但也有使用弱監督（英語：Weak supervision）進行模型微調的技術。^[7] 微調可以與基於人類反饋的強化學習目標相結合，以生成像ChatGPT（GPT-3的微調版本）和Sparrow（英語：Sparrow (bot)）等語言模型。^[8]^[9]

變種

低秩適應

低秩適應(英語：Low-rank adaptation, LoRA)是一種基於適配器的有效微調模型的技術。其基本思想是設計一個低秩矩陣，然後將其添加到原始矩陣中。^[10] 在這個背景下，「適配器」是一組低秩矩陣，當添加到基礎模型時，產生一個微調模型。它允許在更少的空間需求下接近全模型微調的性能。擁有數十億參數的語言模型可能只需數百萬參數進行LoRA微調。

LoRA-based微調在Stable Diffusion社區中變得流行。^[11] 對LoRA的支持正在集成到Hugging Face的Diffusers庫中。^[12] 對LoRA和類似技術的支持也通過Hugging Face的Parameter-Efficient Fine-Tuning（PEFT）軟件包提供給廣泛的其他模型。^[13]

應用領域

自然語言處理

微調在自然語言處理（NLP）中很常見，特別是在語言建模領域。像OpenAI的GPT基礎模型系列這樣的大型語言模型可以在特定下游NLP任務的數據上進行微調（使用預訓練模型的任務），以提高性能，超過未修改的預訓練模型。^[6]

商業模型

商業化的語言模型，有時提供商提供了微調API，可以進行微調。截至2023年6月19日，OpenAI和Microsoft Azure的「Azure OpenAI Service」為其部分模型提供了語言模型微調API，Google Cloud Platform為其部分PaLM模型提供了API，其他提供商也有類似服務。^[14]^[15]^[16] 但是，並非所有商業模型目前都支持微調。

參見

參考資料

^ Quinn, Joanne. Dive into deep learning: tools for engagement. Thousand Oaks, California. 2020: 551 [January 10, 2023]. ISBN 978-1-5443-6137-6. （原始內容存檔於January 10, 2023）.
^ ^2.0 ^2.1 CS231n Convolutional Neural Networks for Visual Recognition. cs231n.github.io. [9 March 2023]. （原始內容存檔於2023-03-23）.
^ Liu, Haokun; Tam, Derek; Muqeeth, Mohammed; Mohta, Jay; Huang, Tenghao; Bansal, Mohit; Raffel, Colin A. Koyejo, S.; Mohamed, S.; Agarwal, A.; Belgrave, D.; Cho, K.; Oh, A. , 編. Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning (PDF). Advances in Neural Information Processing Systems 35. Curran Associates, Inc.: 1950–1965. 2022 [2023-12-11]. （原始內容存檔 (PDF)於2023-12-26）.
^ Zeiler, Matthew D; Fergus, Rob. Visualizing and Understanding Convolutional Networks. 2013. arXiv:1311.2901 .
^ Dodge, Jesse; Ilharco, Gabriel; Schwartz, Roy; Farhadi, Ali; Hajishirzi, Hannaneh; Smith, Noah. Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping. 2020. arXiv:2002.06305 .
^ ^6.0 ^6.1 Dingliwal, Saket; Shenoy, Ashish; Bodapati, Sravan; Gandhe, Ankur; Gadde, Ravi Teja; Kirchhoff, Katrin. Prompt Tuning GPT-2 language model for parameter-efficient domain adaptation of ASR systems. 2021. arXiv:2112.08718 .
^ Yu, Yue; Zuo, Simiao; Jiang, Haoming; Ren, Wendi; Zhao, Tuo; Zhang, Chao. Fine-Tuning Pre-trained Language Model with Weak Supervision: A Contrastive-Regularized Self-Training Approach. 2020. arXiv:2010.07835 .
^ Introducing ChatGPT. openai.com. [9 March 2023]. （原始內容存檔於2023-03-16）.
^ Glaese, Amelia; McAleese, Nat; Trębacz, Maja; Aslanides, John; Firoiu, Vlad; Ewalds, Timo; Rauh, Maribeth; Weidinger, Laura; Chadwick, Martin; Thacker, Phoebe; Campbell-Gillingham, Lucy; Uesato, Jonathan; Huang, Po-Sen; Comanescu, Ramona; Yang, Fan; See, Abigail; Dathathri, Sumanth; Greig, Rory; Chen, Charlie; Fritz, Doug; Elias, Jaume Sanchez; Green, Richard; Mokrá, Soňa; Fernando, Nicholas; Wu, Boxi; Foley, Rachel; Young, Susannah; Gabriel, Iason; Isaac, William; Mellor, John; Hassabis, Demis; Kavukcuoglu, Koray; Hendricks, Lisa Anne; Irving, Geoffrey. Improving alignment of dialogue agents via targeted human judgements. 2022. arXiv:2209.14375 .
^ Hu, Edward J.; Shen, Yelong; Wallis, Phillip; Allen-Zhu, Zeyuan; Li, Yuanzhi; Wang, Shean; Wang, Lu; Chen, Weizhu. LoRA: Low-Rank Adaptation of Large Language Models. 2022-01-28 [2023-12-12]. arXiv:2106.09685 . （原始內容存檔於2023-03-15）（英語）.
^ Ryu, Simo. Using Low-rank adaptation to quickly fine-tune diffusion models. GitHub. February 13, 2023 [June 19, 2023]. （原始內容存檔於2024-01-06）.
^ Cuenca, Pedro; Paul, Sayak. Using LoRA for Efficient Stable Diffusion Fine-Tuning. Hugging Face. January 26, 2023 [June 19, 2023]. （原始內容存檔於2023-12-31）.
^ Parameter-Efficient Fine-Tuning using 🤗 PEFT. huggingface.co. [2023-06-20]. （原始內容存檔於2023-11-22）.
^ Fine-tuning. OpenAI. [2023-06-19]. （原始內容存檔於2023-12-29）.
^ Learn how to customize a model for your application. Microsoft. [2023-06-19]. （原始內容存檔於2023-06-19）.
^ Tune text foundation models. [2023-06-19]. （原始內容存檔於2023-12-22）.

[d2l-1] Quinn, Joanne. Dive into deep learning: tools for engagement. Thousand Oaks, California. 2020: 551 [January 10, 2023]. ISBN 978-1-5443-6137-6. （原始內容存檔於January 10, 2023）.

[cs231n-2] 2.0 ^2.1 CS231n Convolutional Neural Networks for Visual Recognition. cs231n.github.io. [9 March 2023]. （原始內容存檔於2023-03-23）.

[3] Liu, Haokun; Tam, Derek; Muqeeth, Mohammed; Mohta, Jay; Huang, Tenghao; Bansal, Mohit; Raffel, Colin A. Koyejo, S.; Mohamed, S.; Agarwal, A.; Belgrave, D.; Cho, K.; Oh, A. , 編. Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning (PDF). Advances in Neural Information Processing Systems 35. Curran Associates, Inc.: 1950–1965. 2022 [2023-12-11]. （原始內容存檔 (PDF)於2023-12-26）.

[4] Zeiler, Matthew D; Fergus, Rob. Visualizing and Understanding Convolutional Networks. 2013. arXiv:1311.2901 .

[5] Dodge, Jesse; Ilharco, Gabriel; Schwartz, Roy; Farhadi, Ali; Hajishirzi, Hannaneh; Smith, Noah. Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping. 2020. arXiv:2002.06305 .

[amazon-6] 6.0 ^6.1 Dingliwal, Saket; Shenoy, Ashish; Bodapati, Sravan; Gandhe, Ankur; Gadde, Ravi Teja; Kirchhoff, Katrin. Prompt Tuning GPT-2 language model for parameter-efficient domain adaptation of ASR systems. 2021. arXiv:2112.08718 .

[7] Yu, Yue; Zuo, Simiao; Jiang, Haoming; Ren, Wendi; Zhao, Tuo; Zhang, Chao. Fine-Tuning Pre-trained Language Model with Weak Supervision: A Contrastive-Regularized Self-Training Approach. 2020. arXiv:2010.07835 .

[8] Introducing ChatGPT. openai.com. [9 March 2023]. （原始內容存檔於2023-03-16）.

[9] Glaese, Amelia; McAleese, Nat; Trębacz, Maja; Aslanides, John; Firoiu, Vlad; Ewalds, Timo; Rauh, Maribeth; Weidinger, Laura; Chadwick, Martin; Thacker, Phoebe; Campbell-Gillingham, Lucy; Uesato, Jonathan; Huang, Po-Sen; Comanescu, Ramona; Yang, Fan; See, Abigail; Dathathri, Sumanth; Greig, Rory; Chen, Charlie; Fritz, Doug; Elias, Jaume Sanchez; Green, Richard; Mokrá, Soňa; Fernando, Nicholas; Wu, Boxi; Foley, Rachel; Young, Susannah; Gabriel, Iason; Isaac, William; Mellor, John; Hassabis, Demis; Kavukcuoglu, Koray; Hendricks, Lisa Anne; Irving, Geoffrey. Improving alignment of dialogue agents via targeted human judgements. 2022. arXiv:2209.14375 .

[10] Hu, Edward J.; Shen, Yelong; Wallis, Phillip; Allen-Zhu, Zeyuan; Li, Yuanzhi; Wang, Shean; Wang, Lu; Chen, Weizhu. LoRA: Low-Rank Adaptation of Large Language Models. 2022-01-28 [2023-12-12]. arXiv:2106.09685 . （原始內容存檔於2023-03-15）（英語）.

[11] Ryu, Simo. Using Low-rank adaptation to quickly fine-tune diffusion models. GitHub. February 13, 2023 [June 19, 2023]. （原始內容存檔於2024-01-06）.

[12] Cuenca, Pedro; Paul, Sayak. Using LoRA for Efficient Stable Diffusion Fine-Tuning. Hugging Face. January 26, 2023 [June 19, 2023]. （原始內容存檔於2023-12-31）.

[13] Parameter-Efficient Fine-Tuning using 🤗 PEFT. huggingface.co. [2023-06-20]. （原始內容存檔於2023-11-22）.

[14] Fine-tuning. OpenAI. [2023-06-19]. （原始內容存檔於2023-12-29）.

[15] Learn how to customize a model for your application. Microsoft. [2023-06-19]. （原始內容存檔於2023-06-19）.

[16] Tune text foundation models. [2023-06-19]. （原始內容存檔於2023-12-22）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

閱論編機器學習同數據挖掘主題
基本概念	學習 · 圖靈測試 · 運算學習論
數學模型	迴歸模型 · 人工神經網絡（深度學習） · 生成對抗網絡 · Transformer模型 · 大語言模型 · 決策樹 · 貝氏網路 · 支持向量機 · 關聯規則學習
學習範式	機器學習 · 深度學習 · 遷移學習 · 微調 (深度學習) · 監督學習 · 半監督學習 · 無監督學習 · 強化學習 · Q學習 · 遺傳演算法
主要應用	統計分類 · 表徵學習 · 降維 · 聚類分析 · 異常檢測
相關領域	計算科學 · 人工智能 · 通用人工智慧 · 生成式人工智慧 · 提示工程 · 統計學 · 數據科學 · 計算機科學 · 信息與計算科學 · 神經科學 · 認知科學

閱論編自然語言處理
一般術語	語料庫口語語料庫停用詞詞袋完全人工智慧（英語：AI-complete） n元語法（雙字母組、三元語法（英語：Trigrams））
文本挖掘	文本分割詞性標註（英語：Part-of-speech tagging）拆句處理（英語：Shallow parsing）複合詞處理（英語：Compound term processing）搭配提取（英語：Collocation extraction）詞幹提取詞形還原命名實體識別指代文本情感分析概念挖掘（英語：Concept mining）語法分析詞義消歧術語提取（英語：Terminology extraction）真實大小寫處理（英語：Truecasing）
自動摘要（英語：Automatic summarization）	多文檔摘要（英語：Multi-document summarization）句子抽取（英語：Sentence extraction）文本簡化（英語：Text simplification）
分佈語義（英語：Distributional semantics）模型	潛在語義學 Seq2Seq模型 Word2vec 語言模型大型語言模型基礎模型 LLaMA ChatGPT GPT-4 文心一言詞嵌入
機器翻譯	電腦輔助翻譯基於實例（英語：Example-based machine translation）基於規則（英語：Rule-based machine translation）
自動識別與數據採集	語音識別語音合成光學字符識別自然語言生成提示工程
主題模型	彈珠分布（英語：Pachinko allocation）隱含狄利克雷分布潛在語義索引
計算機輔助審查（英語：Computer-assisted reviewing）	自動作文評分（英語：Automated essay scoring）語料庫檢索工具（英語：Concordancer）文法檢查器（英語：Grammar checker）預測文本（英語：Predictive text）拼寫檢查語法猜測（英語：Syntax guessing）
自然語言用戶界面（英語：Natural language user interface）	自動在線助手聊天機器人文字冒險遊戲問答系統