2022年最值得关注的十篇AI论文，你都看了吗？

作者：学术百科

自机器之心

近日，威斯康星大学助理教授 Sebastian Raschka 盘点了 2022 年他最看好的十大AI论文。

2022 年 1 月，扩散模型第一次吸引了我的眼球。当时我判断到将会有某些大事发生，然而却未曾预料到几个月后会出现什么：DALLE-2、Imagen、Stable Diffusion 以及其它许多模型。

对于大型语言模型来说，2022 也是非常重要的一年，最近面世的 ChatGPT 更是锦上添花，抢尽了风头。

在回顾2022年发表的十篇值得关注的论文前，我们可以先看看2022年12月的 AI 要闻以及麦肯锡的一份人工智能全景报告和行业调查综述。

昨天，今天，明天简单来说，有两篇论文引起了我的注意。

第一篇：视觉 Transformer（ViT）学习什么？

关于视觉的探索显示，ViT 学习的归纳偏置或特征与卷积神经网络（CNN）学习的那些相似。例如，ViT 的 early layers 捕捉边缘和纹理，而 later layers 学习更复杂的表征以捕捉更广泛的概念。

视觉 Transformer 从 early layers（左）到 deeper layers（右）的可视化特征过程。

关于生成建模，ViT 倾向于生成比 CNN 更高质量的背景，这就提出了 ViT 如何处理预测任务中的背景和前景的这一问题。当背景被消除时，ViT 似乎比 CNN 更善于预测目标类别，并且在前景被消除时它们也依然表现得更好。这表明，ViT 在依赖基于其存在的某些特征时可能更具选择性，或者说，总体更为鲁棒。

第二篇：一种生成蛋白质的扩散模型

在图像生成领域，扩散模型已经带来了突破性的性能，那么生成蛋白质结构呢？研究人员开发了一种新的蛋白质合成扩散模型，称为 RoseTTAFold Diffusion（RFDiffusion），这种蛋白质是从零开始创造的，而非来自于自然界中早已存在的蛋白质。

区分 de novo 蛋白质（在实验室中使用没有进化历史的氨基酸序列合成）与诸如 AlphaFold、 AlphaFold2 等系统（使用现有氨基酸序列数据预测蛋白质 3D 结构）十分重要。但值得注意的是，AlphaFold2 曾被用于验证 RDiffusion 研究的结果。

然后再谈谈最近的行业趋势。今天，在产业中实际使用的技术是什么？根据麦肯锡最近的 AI 全景报告 —— 并不是大型语言模型（Transformer）。特别说明，由于样本规模和代表性的限制，该报告中的调查结果可能无法准确反映所有公司的经验。

图源：麦肯锡 2022 年全景报告。

自然语言处理在行业内一直受到追捧，但其受欢迎程度经常被计算机视觉应用超越。但现在，我们第一次看到计算机视觉和自然语言处理几乎总是紧密联系在一起。

与此同时，自然语言文本理解（可能指文本分类）的受欢迎程度几乎是自然语言「生成」的两倍。请注意，自然语言生成的新闻通常会占据热点首页：如 GPT-3、Galactica、ChatGPT 等。（文本理解可能包括摘要，摘要也是「生成」的，所以我假设它在这里主要指的是类似分类的任务。那么反过来说，类别（categories）也是可以重叠的。）

值得注意的是，Transformer 的排名垫底。

似乎许多公司尚未采用类似 BERT 的语言模型编码器来进行文本理解和分类。相反，他们可能仍在使用基于词袋模型（ bag-of-word-based）的分类器或递归神经网络。同样，类似 GPT 的模型解码器似乎还没有广泛应用于语言生成，因而文本生成可能仍严重依赖循环神经网络和其他传统方法。

基于下图，我发现了一些有趣的其他见解：

图源：2022 年麦肯锡 AI 全景报告。

能够利用「小数据」非常重要。当数据不可用时，生成合成数据的能力非常有用。

尽快将数据集成到 AI 模型中的能力是在竞争中脱颖而出的关键。那么，良好的软件框架和基础设备设置可能起到举足轻重的作用。

不幸的是，大多数高绩效公司迄今仍不关心模型的可解释性。

十大年度论文以下将介绍我在 2022 年阅读到的排名前三的论文。当然，2022年发表的论文中还有很多其他主题是更令人兴奋、永恒且具有影响力的。

2022 年，保持前三名的成绩显然具有挑战性，因而下面还附了一个扩展列表，列出了我

排名前十榜单中的其余七篇论文。

一、ConvNeXt

《A ConvNet for the 2020s》

这篇论文我愿称之为全年最佳，因为作者们能够设计出一种纯卷积架构，其性能优于诸如 Swin Transformer 等流行的视觉 Transformer（当然，也优于在它之前出现的所有卷积神经网络）。

当卷积神经网络不仅应用于分类，还用于目标检测和实例分割时，这种所提到的 ConvNeXt 架构很可能成为新的默认架构 —— 例如，它可以用作 Mask R-CNN 的骨干网络（backbone）。

正如作者们在论文中所述，他们受到了当前视觉 Transformer 训练机制以及 Swin Transformer 混合架构表明卷积层仍然相关的事实启发。这均是因为纯视觉 Transformer 架构缺乏有用的归纳偏置，例如平移同变性和参数共享（即卷积中的「滑动窗口」）。

为了开发 ConvNeXt，作者们从 ResNet-50 基础架构出发，并采用了从现代 ViT 训练机制中运用的架构修改和训练机制。即使是赋予在卷积神经网络的背景，这些本来也没什么新奇。然而，新颖之处却在于作者们有效地使用、分析和组合了这些技术。

他们采用了哪些技术？这可以列一个很长的清单，包括深度卷积、反向瓶颈层设计、AdamW、LayerNorm 技术等等，具体的汇总你可以在下图中找到。此外，作者还使用了数据增强技术，如 Mixup、Cutmix 等。

二、MaxViT尽管随着上述的 ConvNext 出世，卷积神经网络再度受到欢迎，但目前来说 ViT 仍然抢尽风头（并非刻意双关）。

MaxViT：多轴视觉 Transformer 突出显示了近年来视觉 Transformer 的发展。虽然早期的视觉 Transformer 具有二次复杂度，但已经可以通过许多手段来将视觉 Transformer 应用于具有线性缩放复杂度的更大图像中。

2022 年 9 月发布的 MaxViT，目前是 ImageNet 基准测试中的 SOTA 模型。

在 MaxViT 中，这是通过将注意力块（attention block）分解为具有局部 - 全局交互的两个部分来实现的：

局部注意力（「块注意力」）；

全局注意力（「网格注意力」）。

值得一提的是，MaxViT 是一种也具备卷积层特征的卷积 Transformer 混合模型。它可以用于预测建模（包括分类、目标检测和实例分割）以及生成建模。

顺便提一句，在谷歌学术上搜索「视觉 Transformer」，仅 2022 年就产出了 5000 多个结果。这个结果虽然可能包括误报，但仍可表明人们对于视觉 Transformer 的广泛欢迎程度和感兴趣程度。

不过不用担心，视觉 Transformer 不会完全取代我们喜爱的卷积神经网络。相反，正如 MaxViT 所强调的，当前的趋势是将视觉 Transformer 和卷积网络一起整合到混合架构中。

三、Stable Diffusion

在 ChatGPT 成为最先进的模型之前，Stable Diffusion 早已在互联网和社交媒体上普及。这个概念其实最早来源于 2021 年 12 月上传的论文《High-Resolution Image Synthesis with Latent Diffusion Models》。

由于这篇论文在 2022 年 CVPR 会议上发表，并在 2022 年 8 月凭借 Stable Diffusion 受到高度关注，我认为将其列入 2022 年的 TOP3 论文名单是公平合理的。

扩散模型是一种概率模型，被设计用于通过逐渐对正态分布变量进行去噪来学习数据集分布。这个过程对应于学习长度为 T 的固定的马尔可夫链（Markov Chain）的逆过程。

扩散模型的图示。

与使用生成器 (Generator) 和鉴别器 (Discriminator) 之间的极大极小博弈（minimax game）训练的 GAN 不同，扩散模型是使用最大似然估计（MLE）训练的基于似然的模型。这有助于避免模式坍塌和其他训练不稳定性。

扩散模型已经存在了一段时间，但众所周知，在训练和推理过程中，从中取样仍非常昂贵。上述 2022 年论文的作者提到过，5 天的运行时间仅能采样 50k 张图像。

《High-Resolution Image Synthesis with Latent Diffusion Models》一文的新颖之处在于人们可以使用预训练的自编码器在潜在空间中应用扩散，而非直接使用原始图像的全分辨率原始像素输入空间。

上文提到的训练过程可以分为两个阶段：首先，对自编码器进行预处理，将输入图像编码到较低维度的潜在空间中，以降低复杂性。第二，在预训练的自动编码器隐层表征上训练扩散模型。

在潜在空间中进行运算，降低了用于训练和推理的扩散模型的计算成本和复杂性，并可以生成高质量的结果。

本文的另一个贡献是一般条件下的交叉注意力机制（ cross-attention mechanism）。因此，除了无条件图像生成之外，所提出的潜在扩散模型还能够进行图像修复、类条件图像合成、超分辨率图像重建以及文本到图像合成 —— 后者正是 DALLE-2 和 Stable Diffusion 闻名的原因。

接下来介绍我的排名榜前十论文中后七篇论文的概述：

四、《「通才」智能体》（A Generalist Agent）。在本文中，研究人员介绍了 Gato，它能够执行从玩游戏到控制机器人等 600 多种不同任务。

五、《训练最优计算的大型语言模型》（Training Compute-Optimal Large Language Models）。

为了在训练期间实现最优计算，研究人员认为通过相同的因子来缩放模型大小和训练 token 的数量都很有必要。他们创建了一个名为 Chinchilla 的模型，例如，该模型的性能优于 Gopher，可以使用比 Gopher 四分之一的参数输出四倍之多的数据。

六、《PaLM：使用 Pathways 缩放语言模型》（PaLM: Scaling Language Modeling with Pathways）：文中提出的 PaLM 模型在各种 BIG-bench 任务上都展示了令人惊叹的自然语言理解和生成能力。在某种程度上，它甚至能识别出因果关系。

七、《基于大规模弱监督方法的鲁棒语音识别》（Robust Speech Recognition via Large-Scale Weak Supervision）。本文介绍了 Whisper 模型，该模型在多语言任务上接受了 68 万小时的训练，并表现出了对各种基准数据集（benchmarks）的鲁棒泛化性。本文介绍的 Whisper 模型给我留下了深刻的印象。我用它来为我的两门课程深度学习基础 —— 运用现代开源栈学习深度学习以及深度学习引言（Deep Learning Fundamentals – Learning Deep Learning With a Modern Open Source Stack）生成字幕。

八、《再论表格深度学习的预训练目标》（Revisiting Pretraining Objectives for Tabular Deep Learning）。我喜欢阅读大量有关 Tabular 数据的深度学习论文。但我尤其钟爱这篇论文，因为它强调并提醒我们在附加（通常未标记）数据上进行模型预训练是多么重要。（使用如 XGBoost 等基于树模型无法轻松做到这一点。）

九、《为什么基于树的模型在表格数据上的性能仍然优于基于深度学习的模型？》（Why do tree-based models still outperform deep learning on tabular data?）。

该文的主要收获是基于树的模型（随机森林和 XGBoost）的性能优于在中型数据集（10k 训练示例）上应用表格数据的深度学习方法。但是随着数据集大小的增加（这里：10k → 50k），基于树的模型和深度学习之间的差距变得越来越小。遗憾的是，这篇论文没有包含特别多最先进的深度表格网络，不过它进行了鲁棒性分析和有趣的讨论，绝对值得一读。

十、《用语言模型预测原子级蛋白质结构的进化程度》（Evolutionary-scale prediction of atomic level protein structure with a language model）。该论文提出了迄今为止预测蛋白质三维结构的最大语言模型，它也比以前的方法运算更快，同时还保持着同样的准确性。该模型创建了 ESM 宏基因组图谱，是宏基因组蛋白质的第一个大规模结构表征，具有超过 6.17 亿个蛋白质结构。

本文自其他网站，不代表健康界观点和立场。如有内容和图片的著作权异议，请及时联系我们（邮箱：guikequan@hmkx.cn）

你可能想看：

2022年最值得关注的十篇论文，你都看了吗？来卷来学习

ViT 学习的归纳偏置或特征与卷积神经网络（CNN）学习的那些相似，研究人员开发了一种新的蛋白质合成扩散模型。区分 de novo 蛋白质（在实验室中使用没有进化历史的氨基酸序列合成）与诸如 Alph...

8位值得关注的西班牙运动员，这身材，场边的裁判都看呆了

虽然大多数人在想到西班牙时都会想到足球，但这个国家培养了一些世界上最美丽的田径运动员，这些运动员才华横溢，能力出众，身材极佳，因此下次您要在电视上观看节目时，请务必了解西班牙田径运动，你不会失望的。F...

中国最美的十篇古文是哪十篇？

中国最美的十篇古文，一生至少要读一次。1、《六国论》宋· 苏洵六国破灭，非兵不利，战不善，弊在赂秦。赂秦而力亏，破灭之道也。或曰：六国互丧，率赂秦耶？曰：不赂者以赂者丧，盖失强援，不能独完。故曰：弊...

NVIDIA CEO黄仁勋在GTC CHINA 2019上发表的主题演讲有什么值得关注的信息？

，黄仁勋在演讲提到，该芯片由170亿个晶体管组成，凝聚着英伟达团队为期四年的努力。Orin系统级芯片集成了英伟达新一代GPU架构和Arm Hercules CPU内核以及全新深度学习和计算机视觉加速...

《穿普拉达的女王》有哪些值得关注的细节？

《穿普拉达的女魔头》是2006年的一部电影了，是一部职场剧，时装剧。印象深刻的是，女主角安迪从一个衣着很朴素的女大学生装扮，华丽转身成漂亮的OL。变装以后，她完全认同了《天桥》的价值，也认同了米兰达的...

成都大学党委书记毛洪涛遗体已被找到，案件还有哪些值得关注的信息？

首先，毛洪涛并不是一个普通人，作为成都大学的党委书记，他是一名正厅级干部，他的行政级别相当于一个普通地级市的市长。以他的行政级别来说，他一定是具备相当的影响力的，一定也有自己的人际关系网络。在这种情况...

今年的腾讯99公益日有哪些值得关注的公益项目？

从9月7日到9日，连续三天，超过130家公募机构、近6700个公益项目将在腾讯公益上发起募捐。每一笔公众捐款，腾讯都会配捐，配捐总金额将突破6亿。其中，腾讯基金会出资2.9999亿以随机配捐，近300...

11年前湖北24岁女子凌晨失踪案至今未破，如今被爆出，有哪些值得关注的细节？

11年前，湖北24岁的女子失踪案同杭州来女士的失踪案十分相似，让我们看一看案件细节：11年前，失踪的女子叫李攀，当年24岁，育有一子，当时2岁。据李攀的妹妹李腊说：该事件与杭州遇害女子案件相似。李攀与...

如何评价荣耀赵明祝贺华为P50发布？有哪些值得关注的信息？

用心了，老赵。看到明哥发微博祝贺，首先想到的就是这句话。真的，从去年华为和荣耀分家，国资委以及供应链厂商接手荣耀后，从理论上讲，这两家公司基本就没有任何关系了。但显然，对荣耀来讲，新的开始不意味着把过...

电视剧《叛逆者》有哪些值得关注的细节？

李晓明编剧打磨了八年，导演拿到剧本之后又修改了快两年。如果你觉得里面哪个镜头很多余，可能你真的没有看清楚细节。顾慎言，代表环顾四周，谨慎言行。而叛徒王志，代表着“亡志”。在所有的群体中隐蔽自己。最后为...

有哪些值得关注的时尚穿搭博主？

我是聊职场穿搭的艾利，会穿衣的时尚博主很多，风格也不尽相同，不如缩小些范围，让风格更具体。法式女人的简洁、浪漫和随性非常吸引人，也是时尚圈持续的热潮，就来介绍3位时尚博主吧。第一位是适合职场人借鉴的法...

超虐的9部古装剧，一个比一个虐心，你都看了吗？

胡可、宋佳伦、刘璇、林静、涓子友情出演，张丹峰、马可、李纯、鲍天琦、安悦溪、徐海乔等主演的古装玄幻仙侠剧，讲述少女花千骨与长留上仙白子画之间关于责任、成长、取舍的纯爱虐恋。张钧甯、董洁、童瑶、辛芷蕾、...

期刊论文怎么投稿什么是期刊论文。什么是学位论文。什么是会议论文？

什么是期刊论文？什么是学位论文？什么是会议论文？期刊论文俗称小论文，是你学术研究阶段一个成果的呈现，需要发表在期刊上，不同学校对研究生毕业要求有1篇或2篇SCI明确要求，小论文是毕业门槛。学位论文俗称...

2022年最值得申请的十大信用卡

兴业除了航空联名卡，就这张悠系列健康卡最具有价值了，我本来有一张南航联名大白金卡，年费是2600元，额度26万，这张额度跟年费1:1的比例，就是非常划算的一张卡片，由于兴业前几年出了一个航空联名卡，兑...

现在大家都喜欢读电子书，电子书有什么优势呢？你都看了哪些电子书？

喜欢读电子书，它携带方便，随时随地都可以读。更重要的是，它成本低，也可以说没有成本，让我们这些又喜欢读书、经济能力又差的人，圆了自己可劲读书的梦。电子书不仅读起来方便，做笔记的时候也方便，还容易查询。...

有哪些微信公众号值得关注？

我每天睡觉前都会看微信公众号里的文章，因为从里边可以收获些东西。我从学习、生活、音乐、旅行、资源等方面给大家推荐一下。里面可以搜到大学教科书整册的答案，如高等数学、新视野英语等。它会提供关于四级、六级...

湖北高院副院长张忠斌自杀身亡，原因是什么？还有哪些细节值得关注？

一个身居高位的人自杀身亡，无外乎几个原因。第一，寡人有疾，患了不治之症身居高位的人心理素质肯定很好，但人都有软肋，有弱点，当得知自己身患了不治之症后，精神崩塌，脆弱，自己胡思乱想。很多患绝症的人都是自...

河南原阳一家六口被杀，嫌疑人驾车逃跑，目前案情进展如何？还有哪些信息值得关注？

这是四世同堂的一家，被害的分别是79岁的太爷柴某、儿媳冯某、孙媳李某、三个小重孙，可以说犯罪嫌疑人丧尽天良，犯罪手段极其恶劣残忍。目前柴某儿子在外打工，孙子则去追嫌疑人，下落不明，很可能也已经被害。案...

江西乐安杀3人嫌犯曾春亮落网，还有哪些信息值得关注？

首先，最值得关注的就是曾春亮被抓时的非常干净整洁的打扮，这对于一个逃亡的人来说是很不正常的。关于这件事至少有两点值得深挖：一是在逃亡的这些天是否有人给他提供帮助，比如在逃亡路线、生存必须品等方面。因为...

有哪些运营大牛的微信公众号值得关注？

美食类公众号这个类别纯粹是出于个人兴趣来关注的，大多数是餐厅馆子的推荐：1.吃喝梦工厂 tastefactory：公众号主题清晰有连续性，美编也好。2.吃独食 eat_alone：这个账号是从微博上...

标签: 卷积神经网络

分享给朋友：

问答百科

2022年最值得关注的十篇AI论文，你都看了吗？

Copyright © 2024 问答百科网 All Rights Reserved.
蜀ICP备11000655号-9