LLaMA

維基百科,自由的百科全書

LLaMA(英語:Large Language Model Meta AI直譯:大語言模型元AI)是Meta AI公司於2023年2月發布的大型語言模型。它訓練了各種模型,這些模型的參數從70億到650億不等。LLaMA的開發人員報告說,LLaMA運行的130億參數模型在大多數NLP基準測試中的性能超過了更大的、具有1750億參數的GPT-3提供的模型,且LLaMA的模型可以與PaLMChinchilla等最先進的模型競爭[1]。雖然其他強大的大語言模型通常只能通過有限的API訪問,但Meta在非商業許可的情況下發布了LLaMA的模型權重,供研究人員參考和使用。[2][3] [4] 2023年7月,Meta推出 Llama 2,這是一種可用於商業應用的開源 AI 模型。[5]

LLaMA2[編輯]

2023年7月,Facebook母公司Meta推出了LLaMA2,在人工智能 (AI) 行業掀起波瀾,LLaMA2是一種開源大語言模型 (LLM),旨在挑戰大型科技競爭對手的限制性做法。Meta免費發布 LLaMA2背後的代碼和數據,使世界各地的研究人員能夠利用和改進該技術。 Meta的首席執行官馬克·扎克伯格一直直言不諱地強調開源軟件對於刺激創新的重要性。[6][5]

Meta 訓練並發布了三種模型大小的 Llama 2:70、130 和 700 億個參數。模型架構與 Llama 1 模型基本保持不變,但用於訓練基礎模型的數據增加了 40%。隨附的預印本還提到了一個具有 34B 參數的模型,該模型可能在未來滿足安全目標後發布。

Llama 2 包括基礎模型和針對對話進行微調的模型,稱為 Llama 2 - 聊天。與 Llama 1 進一步不同的是,所有模型都附帶權重,並且對於許多商業用例都是免費的。然而,由於一些剩餘的限制,Llama開源的描述受到了開源倡議組織(以維護開源定義而聞名)的爭議。[7]

Llama 3[編輯]

2024年4月18日,Meta發布了Llama 3。[8]

Code Llama[編輯]

2023年8月,Meta繼發布用於生成文本、翻譯語言和創建音頻的人工智能模型之後,開源了 Code Llama。這是一個機器學習系統,可以用自然語言(特別是英語)生成和解釋代碼。 可以免費商用和研究。[9]

Code Llama是從Llama-2基礎模型微調而來,共有三個版本:基礎版、Python版、以及指令遵循。 類似於 GitHub Copilot 和 Amazon CodeWhisperer,以及 StarCoder、StableCode 和 PolyCoder 等開源人工智能代碼生成器,Code Llama 可以跨多種編程語言完成代碼並調試現有代碼,包括 Python、C、Java、PHP、 Typescript、C# 和 Bash。[10]

在訓練 Code Llama 時,Meta 使用了與訓練 Llama 2 相同的數據集——來自網絡的公開可用資源的混合。但可以說,它的模型「強調」了包含代碼的訓練數據的子集。從本質上講,Code Llama 比它的「父」模型 Llama 2 有更多的時間來學習代碼和自然語言之間的關係。每個 Code Llama 模型的大小從 70 億個參數到 340 億個參數不等,均使用 5000 億個代碼標記以及與代碼相關的數據進行訓練。多個 Code Llama 模型可以將代碼插入到現有代碼中,並且所有模型都可以接受大約 100,000 個代碼標記作為輸入,而至少一個(70 億個參數模型)可以在單個 GPU 上運行。(其他模型則需要更強大的硬件。)Meta 聲稱,340 億個參數的模型是迄今為止所有開源代碼生成器中性能最好的,也是參數數量最多的。[10]

開源/複製[編輯]

2023年4月17日,GitHub的Together啟動了一個名為 RedPajama 的項目,以複製和分發LLaMA數據集的開源版本。[11][12]

外部連結[編輯]

參見[編輯]

參考資料[編輯]

  1. ^ Touvron, Hugo; Lavril, Thibaut; Izacard, Gautier; Martinet, Xavier; Lachaux, Marie-Anne; Lacroix, Timothée; Rozière, Baptiste; Goyal, Naman; Hambro, Eric; Azhar, Faisal; Rodriguez, Aurelien; Joulin, Armand; Grave, Edouard; Lample, Guillaume. LLaMA: Open and Efficient Foundation Language Models. 2023. arXiv:2302.13971可免費查閱 [cs.CL]. 
  2. ^ Introducing LLaMA: A foundational, 65-billion-parameter large language model. Meta AI. 24 February 2023 [2023-06-14]. (原始內容存檔於2023-03-03). 
  3. ^ Vincent, James. Meta's powerful AI language model has leaked online — what happens now?. The Verge. 8 March 2023 [2023-06-14]. (原始內容存檔於2023-11-03). 
  4. ^ 差一步称霸AI:历史进程中的扎克伯格, 远川研究所, 澎湃. [2023-06-28]. (原始內容存檔於2023-06-28). 
  5. ^ 5.0 5.1 Meta launches Llama 2, a source-available AI model that allows commercial applications. [2023-07-21]. (原始內容存檔於2023-11-07). 
  6. ^ LLaMA 2: How to access and use Meta’s versatile open-source chatbot right now. [2023-07-20]. (原始內容存檔於2023-11-03). 
  7. ^ Maffulli, Stefano. Meta’s LLaMa 2 license is not Open Source. Voices of Open Source. 2023-07-20 [2023-08-29]. (原始內容存檔於2023-10-10) (美國英語). 
  8. ^ Wiggers, Kyle. Meta releases Llama 3, claims it's among the best open models available. TechCrunch. 2024-04-18 [2024-04-19]. 
  9. ^ Code Llama: Open Foundation Models for Code, URL=https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/頁面存檔備份,存於網際網路檔案館
  10. ^ 10.0 10.1 Meta releases Code Llama, a code-generating AI model, Kyle Wiggers, August 24, 2023 URL=https://techcrunch.com/2023/08/24/meta-releases-code-llama-a-code-generating-ai-model/頁面存檔備份,存於網際網路檔案館
  11. ^ RedPajama-Data: An Open Source Recipe to Reproduce LLaMA training dataset. GitHub. Together. [4 May 2023]. (原始內容存檔於2023-11-07). 
  12. ^ RedPajama-Data-1T. Hugging Face. Together. [4 May 2023]. (原始內容存檔於2023-11-03).