经典论文研读室
直击前沿,硬核探索。精读改变世界的 AI 大模型学术瑰宝,配合 AI 导师深度理解每一个公式与代码。
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
DeepSeek-R1:通过强化学习激发大语言模型的推理能力 DeepSeek-AI research@deepseek.com 摘要 通用推理是人工智能领域长期存在且艰巨的挑战。以大语言模型(LLMs)(Brown 等人,2020;OpenAI,2023)和思维链提示(Wei 等人,2022b)为代表的近期突破,在基础推理任务上取得了相当大的成功。然而,这种成功在很大程...
StarCoder2 and The Stack v2: The Next Generation
YOLOv9:利用可编程梯度信息学习你想要学习的内容 Chien-Yao Wang$^{1,2}$, I-Hau Yeh$^{2}$, and Hong-Yuan Mark Liao$^{1,2,3}$ $^1$中央研究院资讯科学研究所,台湾 $^2$国立台北科技大学,台湾 $^3$中原大学资讯工程学系,台湾 kinyiu@iis.sinica.edu.tw, ihyeh@emc.c...
DeepSeek-LLM: Scaling Open-Source Language Models with Longtermism
小型大语言模型是弱工具学习者:一种多大语言模型智能体框架 Weizhou Shen $^1$, Chenliang Li $^2$, Hongzhan Chen $^1$, Ming Yan $^{2 }$, Xiaojun Quan $^{1 }$, Hehong Chen $^2$, Ji Zhang $^2$, Fei Huang $^2...
DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
DeepSeek-V2:一种强大、经济且高效的混合专家语言模型 DeepSeek-AI research@deepseek.com 摘要 我们提出了 DeepSeek-V2,这是一种强大的混合专家(MoE)语言模型,其特点是训练经济且推理高效。它总共包含 236B 个参数,其中每个 token 激活 21B 个参数,并支持 128K token 的上下文长度。DeepSeek-V...
DeepSeek-V3 Technical Report
DeepSeek-V3 技术报告 DeepSeek-AI research@deepseek.com --- 摘要 我们推出了 DeepSeek-V3,这是一款强大的混合专家(MoE)语言模型,总参数量为 671B,每个 token 激活 37B 参数。为了实现高效推理和经济的训练,DeepSeek-V3 采用了在 DeepSeek-V2 中经过充分验证的多头潜...
The Llama 3 Herd of Models
Llama 3 模型家族 Llama Team, AI @ Meta $^1$ $^1$详细贡献者名单可在本文附录中找到。 现代人工智能 (AI) 系统由基础模型驱动。本文介绍了一套新的基础模型,称为 Llama 3。这是一个原生支持多语言、编码、推理和工具使用的语言模型家族。我们最大的模型是一个具有 405B 参数和高达 128K token 上下文窗口的稠密 Transforme...
GPT-4o System Card
GPT-4o 系统卡片 OpenAI 2024 年 8 月 8 日 --- 1 引言 GPT-4o [1] 是一种自回归全能(omni)模型,它接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像的任意组合作为输出。它在文本、视觉和音频方面进行了端到端的训练,这意味着所有输入和输出都由同一个神经网络处理。 GPT-4o 对音频输入的响应速度最快可达 232 毫...
LLaMA: Open and Efficient Foundation Language Models
LLaMA:开放且高效的基础语言模型 Hugo Touvron , Thibaut Lavril , Gautier Izacard , Xavier Martinet Marie-Anne Lachaux, Timothee Lacroix, Baptiste Rozière, Naman Goyal Eric Hambro, Faisal Azhar, Aurelien Rodrigue...
Llama 2: Open Foundation and Fine-Tuned Chat Models
Llama 2:开放的基础模型与微调聊天模型 Hugo Touvron Louis Martin† Kevin Stone† Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, Dan Bikel, Lukas B...
FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning
FlashAttention-2:具有更好并行性和工作划分的更快注意力机制 Tri Dao$^{1,2}$ $^1$普林斯顿大学计算机科学系 $^2$斯坦福大学计算机科学系 trid@cs.stanford.edu 2023年7月18日 摘要 在过去几年中,将 Transformer 扩展到更长的序列长度一直是一个主要问题,这有望改善语言建模和高分辨率图像理解的性能,并开启代码...
Tree of Thoughts: Deliberate Problem Solving with Large Language Models
思维树:利用大语言模型进行深思熟虑的问题解决 Shunyu Yao 普林斯顿大学 Dian Yu Google DeepMind Jeffrey Zhao Google DeepMind Izhak Shafran Google DeepMind Thomas L. Griffiths 普林斯顿大学 Yuan Cao Google D...
QLoRA: Efficient Finetuning of Quantized LLMs
QLoRA:量化大语言模型的高效微调 Tim Dettmers , Artidoro Pagnoni , Ari Holtzman, Luke Zettlemoyer 华盛顿大学 {dettmers, artidoro, ahai, lsz}@cs.washington.edu --- 摘要 我们提出了 QLoRA,这是一种高效的微调方法,它能显著降低内存使用量,从...
Mixtral of Experts
LLM in a flash: Efficient Large Language Model Inference with Limited Memory Keivan Alizadeh, Iman Mirzadeh , Dmitry Belenko , S. Karen Khatamifard, Minsik Cho, Carlo C Del Mundo, Mohammad Rast...
Mistral 7B
Mistral 7B Albert Q. Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier,...
Code Llama: Open Foundation Models for Code
LLEMMA:一个用于数学的开放语言模型 Zhangir Azerbayev$^{1,2}$ Hailey Schoelkopf$^{2}$ Keiran Paster$^{3,4}$ Marco Dos Santos$^{5}$ Stephen McAleer$^{6}$ Albert Q. Jiang$^{5}$ Jia Deng$^{1}$ Stella Bider...
MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models
使用 GPT-4 进行指令微调 Baolin Peng , Chunyuan Li , Pengcheng He , Michel Galley, Jianfeng Gao 微软研究院 {bapeng, chunyl, penhe, mgalley, jfgao}@microsoft.com 摘要 先前的工作表明,使用机器生成的指令遵循数据对大型语言模型(LLMs)...
Qwen Technical Report
QWEN 技术报告 Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, Binyuan Hui, Luo Ji, Mei Li, Junyang Lin, Runji Lin, Dayiheng Liu, Gao Liu, Ch...
Voyager: An Open-Ended Embodied Agent with Large Language Models
VOYAGER:基于大语言模型的开放式具身智能体 Guanzhi Wang$^{1, 2}$, Yuqi Xie$^3$, Yunfan Jiang$^{4 }$, Ajay Mandlekar$^{1 }$, Chaowei Xiao$^{1, 5}$, Yuke Zhu$^{1, 3}$, Linxi “Jim” Fan$^{1dagger}$, Anima Anandkumar$^{...
A Survey on Large Language Model based Autonomous Agents
基于大语言模型的自主智能体综述 Lei Wang, Chen Ma , Xueyang Feng , Zeyu Zhang, Hao Yang, Jingsen Zhang, Zhi-Yuan Chen, Jiakai Tang, Xu Chen(✉), Yankai Lin(✉), Wayne Xin Zhao, Zhewei Wei, Ji-Rong Wen 中国人民大学高...
Zephyr: Direct Distillation of LM Alignment
大型语言模型是可靠的评判者吗?关于 LLM 事实验证能力的研究 Xue-Yong Fu, Md Tahmid Rahman Laskar, Cheng Chen, Shashi Bhushan TN Dialpad Canada Inc. {xue-yong, tahmid.rahman, cchen, sbhushan}@dialpad.com --- 摘要 近年来,...
Mamba: Linear-Time Sequence Modeling with Selective State Spaces
Mamba:具有选择性状态空间的线性时间序列建模 Albert Gu$^ $ 和 Tri Dao$^ $ $^1$ 卡内基梅隆大学,机器学习系 $^2$ 普林斯顿大学,计算机科学系 agu@cs.cmu.edu, tri@tridao.me 摘要 基础模型(Foundation models)目前为深度学习中大多数令人兴奋的应用提供了动力,它们几乎普遍基于 Transformer...
Direct Preference Optimization: Your Language Model is Secretly a Reward Model
直接偏好优化:你的语言模型其实是一个奖励模型 Rafael Rafailov$^{ dagger}$ Archit Sharma$^{ dagger}$ Eric Mitchell$^{ dagger}$ Stefano Ermon$^{daggerddagger}$ Christopher D. Manning$^{dagger}$ Chelsea Finn$^{...
GQA: Training Generalized Multi-Query Attention
GQA:从多头检查点训练广义多查询 Transformer 模型 Joshua Ainslie , James Lee-Thorp , Michiel de Jong † Yury Zemlyanskiy, Federico Lebrón, Sumit Sanghai Google Research 摘要 多查询注意力(Multi-query a...
Training Compute-Optimal Large Language Models
通过人类反馈训练语言模型以遵循指令 Long Ouyang , Jeff Wu , Xu Jiang , Diogo Almeida , Carroll L. Wainwright Pamela Mishkin , Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray John Schulman, Jacob Hilton, Fra...
PaLM: Scaling Language Modeling with Pathways
PaLM:使用 Pathways 进行语言建模的扩展 Aakanksha Chowdhery , Sharan Narang , Jacob Devlin Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, Parker Sc...
Training language models to follow instructions with human feedback
训练计算最优的大型语言模型 Jordan Hoffmann , Sebastian Borgeaud , Arthur Mensch , Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Henni...
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct:在语言模型中协同推理与行动 Shunyu Yao $^{,1}$, Jeffrey Zhao$^2$, Dian Yu$^2$, Nan Du$^2$, Izhak Shafran$^2$, Karthik Narasimhan$^1$, Yuan Cao$^2$ $^1$普林斯顿大学计算机科学系 $^2$Google Research, Brain 团队 $^1$...
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
大语言模型中的思维链提示引发推理 Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma Brian Ichter, Fei Xia, Ed H. Chi, Quoc V. Le, Denny Zhou Google Research, Brain Team {jasonwei,dennyzhou}@google.com 摘要...
A Path Towards Autonomous Machine Intelligence
通往自主机器智能之路 版本 0.9.2, 2022-06-27 Yann LeCun 纽约大学库朗数学科学研究所 `yann@cs.nyu.edu` Meta - 基础人工智能研究 `yann@fb.com` 2022年6月27日 摘要 机器如何才能像人类和动物一样高效地学习?机器如何才能学会推理和规划?机器如何才能在多个抽象层次上学习感知和行动计划的表征,从而使它们能够...
Data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language
Super-Kamiokande 与 MACRO 对来自 PSR B1509-58 的高能中微子空间重合的联合显著性分析 Shantanu Desai Department of Physics, Indian Institute of Technology, Hyderabad, Kandi, Telangana-502285, India (日期:2022年6月27日)...
LoRA: Low-Rank Adaptation of Large Language Models
LoRA:大型语言模型的低秩自适应 (Low-Rank Adaptation) Edward Hu , Yelong Shen , Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen Microsoft Corporation {edwardhu, yeshe, phwall...
Learning Transferable Visual Models From Natural Language Supervision
从自然语言监督中学习可迁移的视觉模型 Alec Radford 1, Jong Wook Kim 1, Chris Hallacy 1, Aditya Ramesh 1, Gabriel Goh 1, Sandhini Agarwal 1, Girish Sastry 1, Amanda Askell 1, Pamela Mishkin 1, Jack Clark 1, Gretch...
RoFormer: Enhanced Transformer with Rotary Position Embedding
RoFormer:具有旋转位置嵌入的增强型 Transformer Jianlin Su , Yu Lu , Shengfeng Pan Zhuiyi Technology Co., Ltd. Shenzhen {bojonesu, julianlu, nickpan}@wezhuiyi.com Ahmed Murtadha , Bo Wen , Yun...
GLM: General Language Model Pretraining with Autoregressive Blank Infilling
基于专家混合模型(MoE)的高效大规模语言建模 Mikel Artetxe , Shruti Bhosale , Naman Goyal , Todor Mihaylov , Myle Ott , Sam Shleifer , Xi Victoria Lin, Jingfei Du, Srinivasan Iyer, Ramakanth Pasunuru, Giri Anan...
Finetuned Language Models Are Zero-Shot Learners
微调语言模型即零样本学习者 Jason Wei , Maarten Bosma , Vincent Y. Zhao , Kelvin Guu , Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, 和 Quoc V. Le Google Research 摘要 本文探讨了一种提高语言模型零样本学习能力的简单方法。我们证明,指令微调...
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
Switch Transformers:通过简单高效的稀疏性扩展至万亿参数模型 William Fedus liamfedus@google.com Barret Zoph barretzoph@google.com Noam Shazeer noam@google.com Google, Mountain View, CA 94043, USA 编辑...
Codex: Evaluating Large Language Models Trained on Code
基础模型:机遇与风险 Rishi Bommasani , Drew A. Hudson, Ehsan Adeli, Russ Altman, Simran Arora, Sydney von Arx, Michael S. Bernstein, Jeannette Bohg, Antoine Bosselut, Emma Brunskill, Erik Brynjolfsson, Sh...
Language Models are Few-Shot Learners
语言模型是少样本学习者 Tom B. Brown , Benjamin Mann , Nick Ryder , Melanie Subbiah Jared Kaplan†, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry Amanda Askell, Sandhini Agar...
Scaling Laws for Neural Language Models
神经语言模型的缩放定律 (Scaling Laws for Neural Language Models) Jared Kaplan 约翰霍普金斯大学, OpenAI jaredk@jhu.edu Sam McCandlish OpenAI sam@openai.com Tom Henighan OpenAI henighan@openai.com To...
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
图像胜过 16x16 个词:大规模图像识别的 Transformer Alexey Dosovitskiy , Lucas Beyer , Alexander Kolesnikov , Dirk Weissenborn , Xiaohua Zhai , Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigo...
Denoising Diffusion Probabilistic Models
去噪扩散概率模型 (Denoising Diffusion Probabilistic Models) Jonathan Ho UC Berkeley jonathanho@berkeley.edu Ajay Jain UC Berkeley ajayj@berkeley.edu Pieter Abbeel UC Berkeley pabbeel@cs.berke...
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
无限规则平铺图上的任意模式形成 Serafino Cicerone$^1$, Alessia Di Fonso$^1$, Gabriele Di Stefano$^1$, Alfredo Navarra$^2$ $^1$ Dipartimento di Ingegneria e Scienze dell’Informazione e Matematica, Università d...
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
通过统一的文本到文本 Transformer 探索迁移学习的极限 Colin Raffel∗ craffel@gmail.com Noam Shazeer∗ noam@google.com Adam Roberts∗ adarob@google.com Katherine Lee∗ katherinelee@google.com Sharan Narang...
RoBERTa: A Robustly Optimized BERT Pretraining Approach
RoBERTa:一种鲁棒优化的 BERT 预训练方法 Yinhan Liu $^{ S}$, Myle Ott $^{ S}$, Naman Goyal $^{ S}$, Jingfei Du $^{ S}$, Mandar Joshi $^{dagger}$, Danqi Chen $^{S}$, Omer Levy $^{S}$,...
ZeRO: Memory Optimizations Toward Training Trillion Parameter Models
ZeRO:迈向训练万亿参数模型的内存优化技术 Samyam Rajbhandari , Jeff Rasley , Olatunji Ruwase, Yuxiong He {samyamr, jerasley, olruwase, yuxhe}@microsoft.com 摘要 大型深度学习模型带来了显著的精度提升,但训练数十亿到万亿参数的模型极具挑战性。现有的数据并行和模型并行...
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT:用于语言理解的深度双向 Transformer 预训练 Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova Google AI Language {jacobdevlin, mingweichang, kentonl, kristout}@google.com --- 摘要 我们介绍了一种新...
Attention Is All You Need
Attention Is All You Need Ashish Vaswani Google Brain avaswani@google.com Noam Shazeer Google Brain noam@google.com Niki Parmar Google Research nikip@google.com Jakob Uszkoreit...
Deep Residual Learning for Image Recognition
图像识别的深度残差学习 何恺明,张祥雨,任少卿,孙剑 微软研究院 {kahe, v-xiangz, v-shren, jiansun}@microsoft.com --- 摘要 更深的神经网络更难训练。我们提出了一种残差学习框架,以简化比以往使用的网络深得多的网络的训练。我们明确地将层重新表述为学习关于层输入的残差函数,而不是学习未引用的函数。我们提供了全面的实证证据,...
Neural Machine Translation by Jointly Learning to Align and Translate
通过联合学习对齐与翻译的神经机器翻译 Dzmitry Bahdanau Jacobs University Bremen, Germany KyungHyun Cho, Yoshua Bengio Université de Montréal --- 摘要 神经机器翻译是最近提出的一种机器翻译方法。与传统的统计机器翻译不同,神经机器翻译旨在构建一个单一的神经...
Generative Adversarial Networks
生成对抗网络 (Generative Adversarial Nets) Ian J. Goodfellow, Jean Pouget-Abadie , Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair†, Aaron Courville, Yoshua Bengio‡ 蒙特利尔大学,计算机科学与运筹学系 蒙特利尔,...