DeepSeek論文登上《自然》雜志 首次披露訓練R1成本快訊
DeepSeek表示其強大的AI模型R1的成功并非依賴于模仿其他大型語言模型(LLM)生成的示例進行訓練,AI初創(chuàng)公司DeepSeek(深度求索)的論文登上《自然》雜志,R1被認為是第一個經過同行評審過程的主要LLM。
【TechWeb】9月18日消息,據外媒報道,AI初創(chuàng)公司DeepSeek(深度求索)的論文登上《自然》雜志。
DeepSeek表示其強大的AI模型R1的成功并非依賴于模仿其他大型語言模型(LLM)生成的示例進行訓練,這一聲明是隨著R1模型的同行評審版本的發(fā)布而公布的。
論文描述了DeepSeek如何增強標準的大型語言模型以應對推理任務,其補充材料首次揭示了訓練R1的成本:僅為29.4萬美元。這不包括DeepSeek公司在開發(fā)R1所基于的基礎LLM上花費的約600萬美元,但總成本仍然遠低于競爭對手模型被認為花費的數千萬美元。
DeepSeek表示,R1主要使用英偉達的H800芯片進行訓練。
R1被認為是第一個經過同行評審過程的主要LLM。“這是一個非常受歡迎的先例”,Hugging Face的機器學習工程師劉易斯·圖恩斯特爾說,他審閱了《自然》雜志的論文?!叭绻覀儧]有公開分享這一過程的大部分內容,就很難評估這些系統(tǒng)是否構成風險?!?/p>
自1月發(fā)布以來,DeepSeek因其與世界領先的AI應用相比,競爭優(yōu)勢明顯、成本低廉而備受贊譽和關注。Sensor Tower稱,DeepSeek推出的應用在最初的18天內獲得了1600萬次下載,幾乎是OpenAI的ChatGPT首次發(fā)布時900萬次下載量的兩倍。
公開資料顯示,DeepSeek成立于2023年7月,由知名量化資管巨頭幻方量化創(chuàng)立,專注于開發(fā)先進的大語言模型(LLM)和相關技術?;梅搅炕恼崎T人梁文鋒是DeepSeek的創(chuàng)始人。
1.TMT觀察網遵循行業(yè)規(guī)范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創(chuàng)文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創(chuàng)的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。