LLaMA

LLaMA（英語：Large Language Model Meta AI，直譯：大語言模型元AI）是Meta AI公司於2023年2月發布的大型語言模型。它訓練了各種模型，這些模型的參數從70億到650億不等。LLaMA的開發人員報告說，LLaMA運行的130億參數模型在大多數NLP基準測試中的性能超過了更大的、具有1750億參數的GPT-3提供的模型，且LLaMA的模型可以與PaLM和Chinchilla等最先進的模型競爭^[1]。雖然其他強大的大語言模型通常只能通過有限的API訪問，但Meta在非商業許可的情況下發布了LLaMA的模型權重，供研究人員參考和使用。^[2]^[3] ^[4] 2023年7月，Meta推出 Llama 2，這是一種可用於商業應用的開源 AI 模型。^[5]

LLaMA2[編輯]

2023年7月，Facebook母公司Meta推出了LLaMA2，在人工智能 (AI) 行業掀起波瀾，LLaMA2是一種開源大語言模型 (LLM)，旨在挑戰大型科技競爭對手的限制性做法。Meta免費發布 LLaMA2背後的代碼和數據，使世界各地的研究人員能夠利用和改進該技術。 Meta的首席執行官馬克·扎克伯格一直直言不諱地強調開源軟件對於刺激創新的重要性。^[6]^[5]

Meta 訓練並發布了三種模型大小的 Llama 2：70、130 和 700 億個參數。模型架構與 Llama 1 模型基本保持不變，但用於訓練基礎模型的數據增加了 40%。隨附的預印本還提到了一個具有 34B 參數的模型，該模型可能在未來滿足安全目標後發布。

Llama 2 包括基礎模型和針對對話進行微調的模型，稱為 Llama 2 - 聊天。與 Llama 1 進一步不同的是，所有模型都附帶權重，並且對於許多商業用例都是免費的。然而，由於一些剩餘的限制，Llama開源的描述受到了開源倡議組織（以維護開源定義而聞名）的爭議。^[7]

Llama 3[編輯]

2024年4月18日，Meta發布了Llama 3。^[8]

Code Llama[編輯]

2023年8月，Meta繼發布用於生成文本、翻譯語言和創建音頻的人工智能模型之後，開源了 Code Llama。這是一個機器學習系統，可以用自然語言（特別是英語）生成和解釋代碼。可以免費商用和研究。^[9]

Code Llama是從Llama-2基礎模型微調而來，共有三個版本：基礎版、Python版、以及指令遵循。類似於 GitHub Copilot 和 Amazon CodeWhisperer，以及 StarCoder、StableCode 和 PolyCoder 等開源人工智能代碼生成器，Code Llama 可以跨多種編程語言完成代碼並調試現有代碼，包括 Python、C、Java、PHP、 Typescript、C# 和 Bash。^[10]

在訓練 Code Llama 時，Meta 使用了與訓練 Llama 2 相同的數據集——來自網絡的公開可用資源的混合。但可以說，它的模型「強調」了包含代碼的訓練數據的子集。從本質上講，Code Llama 比它的「父」模型 Llama 2 有更多的時間來學習代碼和自然語言之間的關係。每個 Code Llama 模型的大小從 70 億個參數到 340 億個參數不等，均使用 5000 億個代碼標記以及與代碼相關的數據進行訓練。多個 Code Llama 模型可以將代碼插入到現有代碼中，並且所有模型都可以接受大約 100,000 個代碼標記作為輸入，而至少一個（70 億個參數模型）可以在單個 GPU 上運行。（其他模型則需要更強大的硬件。）Meta 聲稱，340 億個參數的模型是迄今為止所有開源代碼生成器中性能最好的，也是參數數量最多的。^[10]

開源/複製[編輯]

2023年4月17日，GitHub的Together啟動了一個名為 RedPajama 的項目，以複製和分發LLaMA數據集的開源版本。^[11]^[12]

外部連結[編輯]

LLaMA2 Chatbot （頁面存檔備份，存於網際網路檔案館）
Perplexity LLaMA2 Chatbot （頁面存檔備份，存於網際網路檔案館）

參見[編輯]

參考資料[編輯]

^ Touvron, Hugo; Lavril, Thibaut; Izacard, Gautier; Martinet, Xavier; Lachaux, Marie-Anne; Lacroix, Timothée; Rozière, Baptiste; Goyal, Naman; Hambro, Eric; Azhar, Faisal; Rodriguez, Aurelien; Joulin, Armand; Grave, Edouard; Lample, Guillaume. LLaMA: Open and Efficient Foundation Language Models. 2023. arXiv:2302.13971  [cs.CL].
^ Introducing LLaMA: A foundational, 65-billion-parameter large language model. Meta AI. 24 February 2023 [2023-06-14]. （原始內容存檔於2023-03-03）.
^ Vincent, James. Meta's powerful AI language model has leaked online — what happens now?. The Verge. 8 March 2023 [2023-06-14]. （原始內容存檔於2023-11-03）.
^ 差一步称霸AI：历史进程中的扎克伯格, 远川研究所, 澎湃. [2023-06-28]. （原始內容存檔於2023-06-28）.
^ ^5.0 ^5.1 Meta launches Llama 2, a source-available AI model that allows commercial applications. [2023-07-21]. （原始內容存檔於2023-11-07）.
^ LLaMA 2: How to access and use Meta’s versatile open-source chatbot right now. [2023-07-20]. （原始內容存檔於2023-11-03）.
^ Maffulli, Stefano. Meta’s LLaMa 2 license is not Open Source. Voices of Open Source. 2023-07-20 [2023-08-29]. （原始內容存檔於2023-10-10）（美國英語）.
^ Wiggers, Kyle. Meta releases Llama 3, claims it's among the best open models available. TechCrunch. 2024-04-18 [2024-04-19].
^ Code Llama: Open Foundation Models for Code, URL=https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/ （頁面存檔備份，存於網際網路檔案館）
^ ^10.0 ^10.1 Meta releases Code Llama, a code-generating AI model, Kyle Wiggers, August 24, 2023 URL=https://techcrunch.com/2023/08/24/meta-releases-code-llama-a-code-generating-ai-model/ （頁面存檔備份，存於網際網路檔案館）
^ RedPajama-Data: An Open Source Recipe to Reproduce LLaMA training dataset. GitHub. Together. [4 May 2023]. （原始內容存檔於2023-11-07）.
^ RedPajama-Data-1T. Hugging Face. Together. [4 May 2023]. （原始內容存檔於2023-11-03）.

[paper-1] Touvron, Hugo; Lavril, Thibaut; Izacard, Gautier; Martinet, Xavier; Lachaux, Marie-Anne; Lacroix, Timothée; Rozière, Baptiste; Goyal, Naman; Hambro, Eric; Azhar, Faisal; Rodriguez, Aurelien; Joulin, Armand; Grave, Edouard; Lample, Guillaume. LLaMA: Open and Efficient Foundation Language Models. 2023. arXiv:2302.13971  [cs.CL].

[blog-2] Introducing LLaMA: A foundational, 65-billion-parameter large language model. Meta AI. 24 February 2023 [2023-06-14]. （原始內容存檔於2023-03-03）.

[verge-leak-3] Vincent, James. Meta's powerful AI language model has leaked online — what happens now?. The Verge. 8 March 2023 [2023-06-14]. （原始內容存檔於2023-11-03）.

[差一步称霸AI-4] 差一步称霸AI：历史进程中的扎克伯格, 远川研究所, 澎湃. [2023-06-28]. （原始內容存檔於2023-06-28）.

[llama-2-5] 5.0 ^5.1 Meta launches Llama 2, a source-available AI model that allows commercial applications. [2023-07-21]. （原始內容存檔於2023-11-07）.

[llama-2_chatbot-6] LLaMA 2: How to access and use Meta’s versatile open-source chatbot right now. [2023-07-20]. （原始內容存檔於2023-11-03）.

[7] Maffulli, Stefano. Meta’s LLaMa 2 license is not Open Source. Voices of Open Source. 2023-07-20 [2023-08-29]. （原始內容存檔於2023-10-10）（美國英語）.

[8] Wiggers, Kyle. Meta releases Llama 3, claims it's among the best open models available. TechCrunch. 2024-04-18 [2024-04-19].

[metaCodeLlama-9] Code Llama: Open Foundation Models for Code, URL=https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/ （頁面存檔備份，存於網際網路檔案館）

[CodeLlama-10] 10.0 ^10.1 Meta releases Code Llama, a code-generating AI model, Kyle Wiggers, August 24, 2023 URL=https://techcrunch.com/2023/08/24/meta-releases-code-llama-a-code-generating-ai-model/ （頁面存檔備份，存於網際網路檔案館）

[red-pajama-11] RedPajama-Data: An Open Source Recipe to Reproduce LLaMA training dataset. GitHub. Together. [4 May 2023]. （原始內容存檔於2023-11-07）.

[red-pajama-download-12] RedPajama-Data-1T. Hugging Face. Together. [4 May 2023]. （原始內容存檔於2023-11-03）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]