经典论文研读室

约 25 分钟5 道阅读打通测试#LLaMA#Open Source#LLM

LLaMA: Open and Efficient Foundation Language Models

LLaMA：开放且高效的基础语言模型 Hugo Touvron , Thibaut Lavril , Gautier Izacard , Xavier Martinet Marie-Anne Lachaux, Timothee Lacroix, Baptiste Rozière, Naman Goyal Eric Hambro, Faisal Azhar, Aurelien Rodrigue...

约 35 分钟5 道阅读打通测试#LLaMA-2#RLHF#Chat

Llama 2: Open Foundation and Fine-Tuned Chat Models

Llama 2：开放的基础模型与微调聊天模型 Hugo Touvron Louis Martin† Kevin Stone† Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, Dan Bikel, Lukas B...

2023前沿

FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning

FlashAttention-2：具有更好并行性和工作划分的更快注意力机制 Tri Dao$^{1,2}$ $^1$普林斯顿大学计算机科学系 $^2$斯坦福大学计算机科学系 trid@cs.stanford.edu 2023年7月18日摘要在过去几年中，将 Transformer 扩展到更长的序列长度一直是一个主要问题，这有望改善语言建模和高分辨率图像理解的性能，并开启代码...

约 25 分钟5 道阅读打通测试#FlashAttention-2#Optimization#SysML

约 25 分钟5 道阅读打通测试#ToT#Reasoning#Prompting

Tree of Thoughts: Deliberate Problem Solving with Large Language Models

思维树：利用大语言模型进行深思熟虑的问题解决 Shunyu Yao 普林斯顿大学 Dian Yu Google DeepMind Jeffrey Zhao Google DeepMind Izhak Shafran Google DeepMind Thomas L. Griffiths 普林斯顿大学 Yuan Cao Google D...

2023必读

QLoRA: Efficient Finetuning of Quantized LLMs

QLoRA：量化大语言模型的高效微调 Tim Dettmers , Artidoro Pagnoni , Ari Holtzman, Luke Zettlemoyer 华盛顿大学 {dettmers, artidoro, ahai, lsz}@cs.washington.edu --- 摘要我们提出了 QLoRA，这是一种高效的微调方法，它能显著降低内存使用量，从...

约 25 分钟5 道阅读打通测试#QLoRA#Quantization#PEFT

约 20 分钟5 道阅读打通测试#Mistral#MoE#LLM

Mixtral of Experts

LLM in a flash: Efficient Large Language Model Inference with Limited Memory Keivan Alizadeh, Iman Mirzadeh , Dmitry Belenko , S. Karen Khatamifard, Minsik Cho, Carlo C Del Mundo, Mohammad Rast...

约 15 分钟5 道阅读打通测试#Mistral#Open Source#LLM

Mistral 7B

Mistral 7B Albert Q. Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier,...

约 20 分钟5 道阅读打通测试#Code Llama#Code LLM

Code Llama: Open Foundation Models for Code

LLEMMA：一个用于数学的开放语言模型 Zhangir Azerbayev$^{1,2}$ Hailey Schoelkopf$^{2}$ Keiran Paster$^{3,4}$ Marco Dos Santos$^{5}$ Stephen McAleer$^{6}$ Albert Q. Jiang$^{5}$ Jia Deng$^{1}$ Stella Bider...

约 25 分钟5 道阅读打通测试#Multimodal#MiniGPT-4

MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models

使用 GPT-4 进行指令微调 Baolin Peng , Chunyuan Li , Pengcheng He , Michel Galley, Jianfeng Gao 微软研究院 {bapeng, chunyl, penhe, mgalley, jfgao}@microsoft.com 摘要先前的工作表明，使用机器生成的指令遵循数据对大型语言模型（LLMs）...

约 25 分钟5 道阅读打通测试#Qwen#Alibaba#LLM

Qwen Technical Report

QWEN 技术报告 Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, Binyuan Hui, Luo Ji, Mei Li, Junyang Lin, Runji Lin, Dayiheng Liu, Gao Liu, Ch...

2023前沿

Voyager: An Open-Ended Embodied Agent with Large Language Models

VOYAGER：基于大语言模型的开放式具身智能体 Guanzhi Wang$^{1, 2}$, Yuqi Xie$^3$, Yunfan Jiang$^{4 }$, Ajay Mandlekar$^{1 }$, Chaowei Xiao$^{1, 5}$, Yuke Zhu$^{1, 3}$, Linxi “Jim” Fan$^{1dagger}$, Anima Anandkumar$^{...

约 30 分钟5 道阅读打通测试#Agent#Minecraft#Embodied AI

2023必读

A Survey on Large Language Model based Autonomous Agents

基于大语言模型的自主智能体综述 Lei Wang, Chen Ma , Xueyang Feng , Zeyu Zhang, Hao Yang, Jingsen Zhang, Zhi-Yuan Chen, Jiakai Tang, Xu Chen(✉), Yankai Lin(✉), Wayne Xin Zhao, Zhewei Wei, Ji-Rong Wen 中国人民大学高...

约 40 分钟5 道阅读打通测试#Survey#Agent

约 20 分钟5 道阅读打通测试#Zephyr#DPO#Alignment

Zephyr: Direct Distillation of LM Alignment

大型语言模型是可靠的评判者吗？关于 LLM 事实验证能力的研究 Xue-Yong Fu, Md Tahmid Rahman Laskar, Cheng Chen, Shashi Bhushan TN Dialpad Canada Inc. {xue-yong, tahmid.rahman, cchen, sbhushan}@dialpad.com --- 摘要近年来，...

2023前沿

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

Mamba：具有选择性状态空间的线性时间序列建模 Albert Gu$^ $ 和 Tri Dao$^ $ $^1$ 卡内基梅隆大学，机器学习系 $^2$ 普林斯顿大学，计算机科学系 agu@cs.cmu.edu, tri@tridao.me 摘要基础模型（Foundation models）目前为深度学习中大多数令人兴奋的应用提供了动力，它们几乎普遍基于 Transformer...

约 30 分钟5 道阅读打通测试#Mamba#SSM#Architecture

2023必读

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

直接偏好优化：你的语言模型其实是一个奖励模型 Rafael Rafailov$^{ dagger}$ Archit Sharma$^{ dagger}$ Eric Mitchell$^{ dagger}$ Stefano Ermon$^{daggerddagger}$ Christopher D. Manning$^{dagger}$ Chelsea Finn$^{...

约 25 分钟0 道阅读打通测试#DPO#Alignment#RLHF

约 15 分钟5 道阅读打通测试#GQA#Attention#Efficiency

GQA: Training Generalized Multi-Query Attention

GQA：从多头检查点训练广义多查询 Transformer 模型 Joshua Ainslie , James Lee-Thorp , Michiel de Jong † Yury Zemlyanskiy, Federico Lebrón, Sumit Sanghai Google Research 摘要多查询注意力（Multi-query a...

2022核心

Training Compute-Optimal Large Language Models

通过人类反馈训练语言模型以遵循指令 Long Ouyang , Jeff Wu , Xu Jiang , Diogo Almeida , Carroll L. Wainwright Pamela Mishkin , Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray John Schulman, Jacob Hilton, Fra...

约 25 分钟5 道阅读打通测试#Chinchilla#Scaling Laws

2022进阶

PaLM: Scaling Language Modeling with Pathways

PaLM：使用 Pathways 进行语言建模的扩展 Aakanksha Chowdhery , Sharan Narang , Jacob Devlin Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, Parker Sc...

约 30 分钟5 道阅读打通测试#PaLM#Google#LLM

2022必读

Training language models to follow instructions with human feedback

训练计算最优的大型语言模型 Jordan Hoffmann , Sebastian Borgeaud , Arthur Mensch , Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Henni...

约 30 分钟5 道阅读打通测试#InstructGPT#RLHF#Alignment

2022必读

ReAct: Synergizing Reasoning and Acting in Language Models

ReAct：在语言模型中协同推理与行动 Shunyu Yao $^{,1}$, Jeffrey Zhao$^2$, Dian Yu$^2$, Nan Du$^2$, Izhak Shafran$^2$, Karthik Narasimhan$^1$, Yuan Cao$^2$ $^1$普林斯顿大学计算机科学系 $^2$Google Research, Brain 团队 $^1$...

约 20 分钟5 道阅读打通测试#ReAct#Agent#Reasoning

2022必读

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

大语言模型中的思维链提示引发推理 Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma Brian Ichter, Fei Xia, Ed H. Chi, Quoc V. Le, Denny Zhou Google Research, Brain Team {jasonwei,dennyzhou}@google.com 摘要...

约 20 分钟5 道阅读打通测试#CoT#Prompting#Reasoning

2022前沿

A Path Towards Autonomous Machine Intelligence

通往自主机器智能之路版本 0.9.2, 2022-06-27 Yann LeCun 纽约大学库朗数学科学研究所 `yann@cs.nyu.edu` Meta - 基础人工智能研究 `yann@fb.com` 2022年6月27日摘要机器如何才能像人类和动物一样高效地学习？机器如何才能学会推理和规划？机器如何才能在多个抽象层次上学习感知和行动计划的表征，从而使它们能够...

约 35 分钟5 道阅读打通测试#Yann LeCun#JEPA#AGI

2022进阶

Data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language

Super-Kamiokande 与 MACRO 对来自 PSR B1509-58 的高能中微子空间重合的联合显著性分析 Shantanu Desai Department of Physics, Indian Institute of Technology, Hyderabad, Kandi, Telangana-502285, India (日期：2022年6月27日)...

约 30 分钟5 道阅读打通测试#Self-supervised#Multimodal#data2vec

2021进阶

LoRA: Low-Rank Adaptation of Large Language Models

LoRA：大型语言模型的低秩自适应 (Low-Rank Adaptation) Edward Hu , Yelong Shen , Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen Microsoft Corporation {edwardhu, yeshe, phwall...

约 20 分钟0 道阅读打通测试#PEFT#LoRA#Fine-tuning

约 25 分钟5 道阅读打通测试#CLIP#Multimodal#Contrastive Learning

Learning Transferable Visual Models From Natural Language Supervision

从自然语言监督中学习可迁移的视觉模型 Alec Radford 1, Jong Wook Kim 1, Chris Hallacy 1, Aditya Ramesh 1, Gabriel Goh 1, Sandhini Agarwal 1, Girish Sastry 1, Amanda Askell 1, Pamela Mishkin 1, Jack Clark 1, Gretch...

约 20 分钟5 道阅读打通测试#RoPE#Positional Encoding#Transformer

RoFormer: Enhanced Transformer with Rotary Position Embedding

RoFormer：具有旋转位置嵌入的增强型 Transformer Jianlin Su , Yu Lu , Shengfeng Pan Zhuiyi Technology Co., Ltd. Shenzhen {bojonesu, julianlu, nickpan}@wezhuiyi.com Ahmed Murtadha , Bo Wen , Yun...

约 25 分钟5 道阅读打通测试#GLM#THUDM#Pre-training

GLM: General Language Model Pretraining with Autoregressive Blank Infilling

基于专家混合模型（MoE）的高效大规模语言建模 Mikel Artetxe , Shruti Bhosale , Naman Goyal , Todor Mihaylov , Myle Ott , Sam Shleifer , Xi Victoria Lin, Jingfei Du, Srinivasan Iyer, Ramakanth Pasunuru, Giri Anan...

2021进阶

Finetuned Language Models Are Zero-Shot Learners

微调语言模型即零样本学习者 Jason Wei , Maarten Bosma , Vincent Y. Zhao , Kelvin Guu , Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, 和 Quoc V. Le Google Research 摘要本文探讨了一种提高语言模型零样本学习能力的简单方法。我们证明，指令微调...

约 25 分钟5 道阅读打通测试#FLAN#Instruction Tuning#Zero-Shot

2021进阶

Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

Switch Transformers：通过简单高效的稀疏性扩展至万亿参数模型 William Fedus liamfedus@google.com Barret Zoph barretzoph@google.com Noam Shazeer noam@google.com Google, Mountain View, CA 94043, USA 编辑...

约 30 分钟5 道阅读打通测试#MoE#Switch Transformer#Sparsity