经典论文研读室

直击前沿,硬核探索。精读改变世界的 AI 大模型学术瑰宝,配合 AI 导师深度理解每一个公式与代码。

1
2025必读

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-R1:通过强化学习激发大语言模型的推理能力 DeepSeek-AI research@deepseek.com 摘要 通用推理是人工智能领域长期存在且艰巨的挑战。以大语言模型(LLMs)(Brown 等人,2020;OpenAI,2023)和思维链提示(Wei 等人,2022b)为代表的近期突破,在基础推理任务上取得了相当大的成功。然而,这种成功在很大程...

35 分钟5 道阅读打通测试#DeepSeek-R1#Reasoning#RL
2
2024前沿

StarCoder2 and The Stack v2: The Next Generation

YOLOv9:利用可编程梯度信息学习你想要学习的内容 Chien-Yao Wang$^{1,2}$, I-Hau Yeh$^{2}$, and Hong-Yuan Mark Liao$^{1,2,3}$ $^1$中央研究院资讯科学研究所,台湾 $^2$国立台北科技大学,台湾 $^3$中原大学资讯工程学系,台湾 kinyiu@iis.sinica.edu.tw, ihyeh@emc.c...

25 分钟5 道阅读打通测试#StarCoder#Code LLM
3
2024核心

DeepSeek-LLM: Scaling Open-Source Language Models with Longtermism

小型大语言模型是弱工具学习者:一种多大语言模型智能体框架 Weizhou Shen $^1$, Chenliang Li $^2$, Hongzhan Chen $^1$, Ming Yan $^{2 }$, Xiaojun Quan $^{1 }$, Hehong Chen $^2$, Ji Zhang $^2$, Fei Huang $^2...

30 分钟0 道阅读打通测试#DeepSeek#LLM
4
2024前沿

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

DeepSeek-V2:一种强大、经济且高效的混合专家语言模型 DeepSeek-AI research@deepseek.com 摘要 我们提出了 DeepSeek-V2,这是一种强大的混合专家(MoE)语言模型,其特点是训练经济且推理高效。它总共包含 236B 个参数,其中每个 token 激活 21B 个参数,并支持 128K token 的上下文长度。DeepSeek-V...

30 分钟5 道阅读打通测试#DeepSeek-V2#MoE#MLA
5
2024前沿

DeepSeek-V3 Technical Report

DeepSeek-V3 技术报告 DeepSeek-AI research@deepseek.com --- 摘要 我们推出了 DeepSeek-V3,这是一款强大的混合专家(MoE)语言模型,总参数量为 671B,每个 token 激活 37B 参数。为了实现高效推理和经济的训练,DeepSeek-V3 采用了在 DeepSeek-V2 中经过充分验证的多头潜...

35 分钟5 道阅读打通测试#DeepSeek-V3#MoE#FP8
6
2024核心

The Llama 3 Herd of Models

Llama 3 模型家族 Llama Team, AI @ Meta $^1$ $^1$详细贡献者名单可在本文附录中找到。 现代人工智能 (AI) 系统由基础模型驱动。本文介绍了一套新的基础模型,称为 Llama 3。这是一个原生支持多语言、编码、推理和工具使用的语言模型家族。我们最大的模型是一个具有 405B 参数和高达 128K token 上下文窗口的稠密 Transforme...

40 分钟5 道阅读打通测试#Llama-3#Meta#LLM
7
2024核心

GPT-4o System Card

GPT-4o 系统卡片 OpenAI 2024 年 8 月 8 日 --- 1 引言 GPT-4o [1] 是一种自回归全能(omni)模型,它接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像的任意组合作为输出。它在文本、视觉和音频方面进行了端到端的训练,这意味着所有输入和输出都由同一个神经网络处理。 GPT-4o 对音频输入的响应速度最快可达 232 毫...

30 分钟5 道阅读打通测试#GPT-4o#Multimodal#OpenAI
8
2023核心

LLaMA: Open and Efficient Foundation Language Models

LLaMA:开放且高效的基础语言模型 Hugo Touvron , Thibaut Lavril , Gautier Izacard , Xavier Martinet Marie-Anne Lachaux, Timothee Lacroix, Baptiste Rozière, Naman Goyal Eric Hambro, Faisal Azhar, Aurelien Rodrigue...

25 分钟5 道阅读打通测试#LLaMA#Open Source#LLM
9
2023核心

Llama 2: Open Foundation and Fine-Tuned Chat Models

Llama 2:开放的基础模型与微调聊天模型 Hugo Touvron Louis Martin† Kevin Stone† Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, Dan Bikel, Lukas B...

35 分钟5 道阅读打通测试#LLaMA-2#RLHF#Chat
10
2023前沿

FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning

FlashAttention-2:具有更好并行性和工作划分的更快注意力机制 Tri Dao$^{1,2}$ $^1$普林斯顿大学计算机科学系 $^2$斯坦福大学计算机科学系 trid@cs.stanford.edu 2023年7月18日 摘要 在过去几年中,将 Transformer 扩展到更长的序列长度一直是一个主要问题,这有望改善语言建模和高分辨率图像理解的性能,并开启代码...

25 分钟5 道阅读打通测试#FlashAttention-2#Optimization#SysML
11
2023进阶

Tree of Thoughts: Deliberate Problem Solving with Large Language Models

思维树:利用大语言模型进行深思熟虑的问题解决 Shunyu Yao 普林斯顿大学 Dian Yu Google DeepMind Jeffrey Zhao Google DeepMind Izhak Shafran Google DeepMind Thomas L. Griffiths 普林斯顿大学 Yuan Cao Google D...

25 分钟5 道阅读打通测试#ToT#Reasoning#Prompting
12
2023必读

QLoRA: Efficient Finetuning of Quantized LLMs

QLoRA:量化大语言模型的高效微调 Tim Dettmers , Artidoro Pagnoni , Ari Holtzman, Luke Zettlemoyer 华盛顿大学 {dettmers, artidoro, ahai, lsz}@cs.washington.edu --- 摘要 我们提出了 QLoRA,这是一种高效的微调方法,它能显著降低内存使用量,从...

25 分钟5 道阅读打通测试#QLoRA#Quantization#PEFT
13
2023核心

Mixtral of Experts

LLM in a flash: Efficient Large Language Model Inference with Limited Memory Keivan Alizadeh, Iman Mirzadeh , Dmitry Belenko , S. Karen Khatamifard, Minsik Cho, Carlo C Del Mundo, Mohammad Rast...

20 分钟5 道阅读打通测试#Mistral#MoE#LLM
14
2023核心

Mistral 7B

Mistral 7B Albert Q. Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier,...

15 分钟5 道阅读打通测试#Mistral#Open Source#LLM
15
2023进阶

Code Llama: Open Foundation Models for Code

LLEMMA:一个用于数学的开放语言模型 Zhangir Azerbayev$^{1,2}$ Hailey Schoelkopf$^{2}$ Keiran Paster$^{3,4}$ Marco Dos Santos$^{5}$ Stephen McAleer$^{6}$ Albert Q. Jiang$^{5}$ Jia Deng$^{1}$ Stella Bider...

20 分钟5 道阅读打通测试#Code Llama#Code LLM
16
2023进阶

MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models

使用 GPT-4 进行指令微调 Baolin Peng , Chunyuan Li , Pengcheng He , Michel Galley, Jianfeng Gao 微软研究院 {bapeng, chunyl, penhe, mgalley, jfgao}@microsoft.com 摘要 先前的工作表明,使用机器生成的指令遵循数据对大型语言模型(LLMs)...

25 分钟5 道阅读打通测试#Multimodal#MiniGPT-4
17
2023核心

Qwen Technical Report

QWEN 技术报告 Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, Binyuan Hui, Luo Ji, Mei Li, Junyang Lin, Runji Lin, Dayiheng Liu, Gao Liu, Ch...

25 分钟5 道阅读打通测试#Qwen#Alibaba#LLM
18
2023前沿

Voyager: An Open-Ended Embodied Agent with Large Language Models

VOYAGER:基于大语言模型的开放式具身智能体 Guanzhi Wang$^{1, 2}$, Yuqi Xie$^3$, Yunfan Jiang$^{4 }$, Ajay Mandlekar$^{1 }$, Chaowei Xiao$^{1, 5}$, Yuke Zhu$^{1, 3}$, Linxi “Jim” Fan$^{1dagger}$, Anima Anandkumar$^{...

30 分钟5 道阅读打通测试#Agent#Minecraft#Embodied AI
19
2023必读

A Survey on Large Language Model based Autonomous Agents

基于大语言模型的自主智能体综述 Lei Wang, Chen Ma , Xueyang Feng , Zeyu Zhang, Hao Yang, Jingsen Zhang, Zhi-Yuan Chen, Jiakai Tang, Xu Chen(✉), Yankai Lin(✉), Wayne Xin Zhao, Zhewei Wei, Ji-Rong Wen 中国人民大学高...

40 分钟5 道阅读打通测试#Survey#Agent
20
2023进阶

Zephyr: Direct Distillation of LM Alignment

大型语言模型是可靠的评判者吗?关于 LLM 事实验证能力的研究 Xue-Yong Fu, Md Tahmid Rahman Laskar, Cheng Chen, Shashi Bhushan TN Dialpad Canada Inc. {xue-yong, tahmid.rahman, cchen, sbhushan}@dialpad.com --- 摘要 近年来,...

20 分钟5 道阅读打通测试#Zephyr#DPO#Alignment
21
2023前沿

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

Mamba:具有选择性状态空间的线性时间序列建模 Albert Gu$^ $ 和 Tri Dao$^ $ $^1$ 卡内基梅隆大学,机器学习系 $^2$ 普林斯顿大学,计算机科学系 agu@cs.cmu.edu, tri@tridao.me 摘要 基础模型(Foundation models)目前为深度学习中大多数令人兴奋的应用提供了动力,它们几乎普遍基于 Transformer...

30 分钟5 道阅读打通测试#Mamba#SSM#Architecture
22
2023必读

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

直接偏好优化:你的语言模型其实是一个奖励模型 Rafael Rafailov$^{ dagger}$ Archit Sharma$^{ dagger}$ Eric Mitchell$^{ dagger}$ Stefano Ermon$^{daggerddagger}$ Christopher D. Manning$^{dagger}$ Chelsea Finn$^{...

25 分钟0 道阅读打通测试#DPO#Alignment#RLHF
23
2023核心

GQA: Training Generalized Multi-Query Attention

GQA:从多头检查点训练广义多查询 Transformer 模型 Joshua Ainslie , James Lee-Thorp , Michiel de Jong † Yury Zemlyanskiy, Federico Lebrón, Sumit Sanghai Google Research 摘要 多查询注意力(Multi-query a...

15 分钟5 道阅读打通测试#GQA#Attention#Efficiency
24
2022核心

Training Compute-Optimal Large Language Models

通过人类反馈训练语言模型以遵循指令 Long Ouyang , Jeff Wu , Xu Jiang , Diogo Almeida , Carroll L. Wainwright Pamela Mishkin , Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray John Schulman, Jacob Hilton, Fra...

25 分钟5 道阅读打通测试#Chinchilla#Scaling Laws
25
2022进阶

PaLM: Scaling Language Modeling with Pathways

PaLM:使用 Pathways 进行语言建模的扩展 Aakanksha Chowdhery , Sharan Narang , Jacob Devlin Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, Parker Sc...

30 分钟5 道阅读打通测试#PaLM#Google#LLM
26
2022必读

Training language models to follow instructions with human feedback

训练计算最优的大型语言模型 Jordan Hoffmann , Sebastian Borgeaud , Arthur Mensch , Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Henni...

30 分钟5 道阅读打通测试#InstructGPT#RLHF#Alignment
27
2022必读

ReAct: Synergizing Reasoning and Acting in Language Models

ReAct:在语言模型中协同推理与行动 Shunyu Yao $^{,1}$, Jeffrey Zhao$^2$, Dian Yu$^2$, Nan Du$^2$, Izhak Shafran$^2$, Karthik Narasimhan$^1$, Yuan Cao$^2$ $^1$普林斯顿大学计算机科学系 $^2$Google Research, Brain 团队 $^1$...

20 分钟5 道阅读打通测试#ReAct#Agent#Reasoning
28
2022必读

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

大语言模型中的思维链提示引发推理 Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma Brian Ichter, Fei Xia, Ed H. Chi, Quoc V. Le, Denny Zhou Google Research, Brain Team {jasonwei,dennyzhou}@google.com 摘要...

20 分钟5 道阅读打通测试#CoT#Prompting#Reasoning
29
2022前沿

A Path Towards Autonomous Machine Intelligence

通往自主机器智能之路 版本 0.9.2, 2022-06-27 Yann LeCun 纽约大学库朗数学科学研究所 `yann@cs.nyu.edu` Meta - 基础人工智能研究 `yann@fb.com` 2022年6月27日 摘要 机器如何才能像人类和动物一样高效地学习?机器如何才能学会推理和规划?机器如何才能在多个抽象层次上学习感知和行动计划的表征,从而使它们能够...

35 分钟5 道阅读打通测试#Yann LeCun#JEPA#AGI
30
2022进阶

Data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language

Super-Kamiokande 与 MACRO 对来自 PSR B1509-58 的高能中微子空间重合的联合显著性分析 Shantanu Desai Department of Physics, Indian Institute of Technology, Hyderabad, Kandi, Telangana-502285, India (日期:2022年6月27日)...

30 分钟5 道阅读打通测试#Self-supervised#Multimodal#data2vec
31
2021进阶

LoRA: Low-Rank Adaptation of Large Language Models

LoRA:大型语言模型的低秩自适应 (Low-Rank Adaptation) Edward Hu , Yelong Shen , Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen Microsoft Corporation {edwardhu, yeshe, phwall...

20 分钟0 道阅读打通测试#PEFT#LoRA#Fine-tuning
32
2021核心

Learning Transferable Visual Models From Natural Language Supervision

从自然语言监督中学习可迁移的视觉模型 Alec Radford 1, Jong Wook Kim 1, Chris Hallacy 1, Aditya Ramesh 1, Gabriel Goh 1, Sandhini Agarwal 1, Girish Sastry 1, Amanda Askell 1, Pamela Mishkin 1, Jack Clark 1, Gretch...

25 分钟5 道阅读打通测试#CLIP#Multimodal#Contrastive Learning
33
2021核心

RoFormer: Enhanced Transformer with Rotary Position Embedding

RoFormer:具有旋转位置嵌入的增强型 Transformer Jianlin Su , Yu Lu , Shengfeng Pan Zhuiyi Technology Co., Ltd. Shenzhen {bojonesu, julianlu, nickpan}@wezhuiyi.com Ahmed Murtadha , Bo Wen , Yun...

20 分钟5 道阅读打通测试#RoPE#Positional Encoding#Transformer
34
2021核心

GLM: General Language Model Pretraining with Autoregressive Blank Infilling

基于专家混合模型(MoE)的高效大规模语言建模 Mikel Artetxe , Shruti Bhosale , Naman Goyal , Todor Mihaylov , Myle Ott , Sam Shleifer , Xi Victoria Lin, Jingfei Du, Srinivasan Iyer, Ramakanth Pasunuru, Giri Anan...

25 分钟5 道阅读打通测试#GLM#THUDM#Pre-training
35
2021进阶

Finetuned Language Models Are Zero-Shot Learners

微调语言模型即零样本学习者 Jason Wei , Maarten Bosma , Vincent Y. Zhao , Kelvin Guu , Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, 和 Quoc V. Le Google Research 摘要 本文探讨了一种提高语言模型零样本学习能力的简单方法。我们证明,指令微调...

25 分钟5 道阅读打通测试#FLAN#Instruction Tuning#Zero-Shot
36
2021进阶

Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

Switch Transformers:通过简单高效的稀疏性扩展至万亿参数模型 William Fedus liamfedus@google.com Barret Zoph barretzoph@google.com Noam Shazeer noam@google.com Google, Mountain View, CA 94043, USA 编辑...

30 分钟5 道阅读打通测试#MoE#Switch Transformer#Sparsity
37
2021核心

Codex: Evaluating Large Language Models Trained on Code

基础模型:机遇与风险 Rishi Bommasani , Drew A. Hudson, Ehsan Adeli, Russ Altman, Simran Arora, Sydney von Arx, Michael S. Bernstein, Jeannette Bohg, Antoine Bosselut, Emma Brunskill, Erik Brynjolfsson, Sh...

25 分钟5 道阅读打通测试#Codex#OpenAI#Code LLM
38
2020进阶

Language Models are Few-Shot Learners

语言模型是少样本学习者 Tom B. Brown , Benjamin Mann , Nick Ryder , Melanie Subbiah Jared Kaplan†, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry Amanda Askell, Sandhini Agar...

30 分钟5 道阅读打通测试#GPT-3#LLM#Few-Shot
39
2020基础

Scaling Laws for Neural Language Models

神经语言模型的缩放定律 (Scaling Laws for Neural Language Models) Jared Kaplan 约翰霍普金斯大学, OpenAI jaredk@jhu.edu Sam McCandlish OpenAI sam@openai.com Tom Henighan OpenAI henighan@openai.com To...

20 分钟5 道阅读打通测试#Scaling Laws#OpenAI
40
2020核心

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

图像胜过 16x16 个词:大规模图像识别的 Transformer Alexey Dosovitskiy , Lucas Beyer , Alexander Kolesnikov , Dirk Weissenborn , Xiaohua Zhai , Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigo...

20 分钟5 道阅读打通测试#ViT#CV#Transformer
41
2020进阶

Denoising Diffusion Probabilistic Models

去噪扩散概率模型 (Denoising Diffusion Probabilistic Models) Jonathan Ho UC Berkeley jonathanho@berkeley.edu Ajay Jain UC Berkeley ajayj@berkeley.edu Pieter Abbeel UC Berkeley pabbeel@cs.berke...

30 分钟0 道阅读打通测试#Diffusion#Generation#DDPM
42
2020必读

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

无限规则平铺图上的任意模式形成 Serafino Cicerone$^1$, Alessia Di Fonso$^1$, Gabriele Di Stefano$^1$, Alfredo Navarra$^2$ $^1$ Dipartimento di Ingegneria e Scienze dell’Informazione e Matematica, Università d...

25 分钟5 道阅读打通测试#RAG#Retrieval#NLP
43
2019进阶

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

通过统一的文本到文本 Transformer 探索迁移学习的极限 Colin Raffel∗ craffel@gmail.com Noam Shazeer∗ noam@google.com Adam Roberts∗ adarob@google.com Katherine Lee∗ katherinelee@google.com Sharan Narang...

30 分钟5 道阅读打通测试#T5#Transfer Learning#NLP
44
2019基础

RoBERTa: A Robustly Optimized BERT Pretraining Approach

RoBERTa:一种鲁棒优化的 BERT 预训练方法 Yinhan Liu $^{ S}$, Myle Ott $^{ S}$, Naman Goyal $^{ S}$, Jingfei Du $^{ S}$, Mandar Joshi $^{dagger}$, Danqi Chen $^{S}$, Omer Levy $^{S}$,...

15 分钟5 道阅读打通测试#RoBERTa#NLP#BERT
45
2019进阶

ZeRO: Memory Optimizations Toward Training Trillion Parameter Models

ZeRO:迈向训练万亿参数模型的内存优化技术 Samyam Rajbhandari , Jeff Rasley , Olatunji Ruwase, Yuxiong He {samyamr, jerasley, olruwase, yuxhe}@microsoft.com 摘要 大型深度学习模型带来了显著的精度提升,但训练数十亿到万亿参数的模型极具挑战性。现有的数据并行和模型并行...

30 分钟5 道阅读打通测试#ZeRO#DeepSpeed#Distributed Training
46
2018必读

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT:用于语言理解的深度双向 Transformer 预训练 Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova Google AI Language {jacobdevlin, mingweichang, kentonl, kristout}@google.com --- 摘要 我们介绍了一种新...

25 分钟5 道阅读打通测试#BERT#NLP#Pre-training
47
2017必读

Attention Is All You Need

Attention Is All You Need Ashish Vaswani Google Brain avaswani@google.com Noam Shazeer Google Brain noam@google.com Niki Parmar Google Research nikip@google.com Jakob Uszkoreit...

20 分钟5 道阅读打通测试#Transformer#NLP
48
2015基础

Deep Residual Learning for Image Recognition

图像识别的深度残差学习 何恺明,张祥雨,任少卿,孙剑 微软研究院 {kahe, v-xiangz, v-shren, jiansun}@microsoft.com --- 摘要 更深的神经网络更难训练。我们提出了一种残差学习框架,以简化比以往使用的网络深得多的网络的训练。我们明确地将层重新表述为学习关于层输入的残差函数,而不是学习未引用的函数。我们提供了全面的实证证据,...

15 分钟5 道阅读打通测试#ResNet#CV#CNN
49
2014基础

Neural Machine Translation by Jointly Learning to Align and Translate

通过联合学习对齐与翻译的神经机器翻译 Dzmitry Bahdanau Jacobs University Bremen, Germany KyungHyun Cho, Yoshua Bengio Université de Montréal --- 摘要 神经机器翻译是最近提出的一种机器翻译方法。与传统的统计机器翻译不同,神经机器翻译旨在构建一个单一的神经...

20 分钟5 道阅读打通测试#Attention#RNN#NLP
50
2014基础

Generative Adversarial Networks

生成对抗网络 (Generative Adversarial Nets) Ian J. Goodfellow, Jean Pouget-Abadie , Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair†, Aaron Courville, Yoshua Bengio‡ 蒙特利尔大学,计算机科学与运筹学系 蒙特利尔,...

20 分钟0 道阅读打通测试#GAN#Generation#Deep Learning