365投注app官方版 DeepSeek、GPT、Qwen,整个大模子架构图都有,Karpathy：矿藏画廊

365投注app官方版 DeepSeek、GPT、Qwen，整个大模子架构图都有，Karpathy：矿藏画廊

机器之心报说念

最近几年，大模子赛说念好不吵杂。

叫得上名字的险些数都数不外来：从 GPT、Llama、Gemma、Mistral，到 DeepSeek、Qwen、Kimi、GLM、MiniMax 等等，新模子险些以周更的速率出现。

但问题是，当架构改进越来越多时，贯穿它们反而变得越来越贫乏。不同论文里的模子结构图作风互异、模块定名不融合，即即是考虑者，也很难快速看清一个模子究竟在哪些所在作念出了要害更正。

要是把曩昔几年主流模子的架构放在一王人，你会发现一个彰着的空缺：咱们领有大都模子，却断绝一张明晰的大模子架构图。

开云体育中国官方网站

最近，AI 考虑者 Sebastian Raschka 就尝试给了这么一张图，他将曩昔几年主流大模子的结构从头绘图，并整理成了一个在线图谱「LLM Architecture Gallery」。

原文地址：https://sebastianraschka.com/llm-architecture-gallery/#card-olmo-2-7bGitHub 地址：https://github.com/rasbt/llm-architecture-gallery

把柄 Raschka 先容，该网站齐集了他此前两篇博客中的本色，这两篇博客分歧为《The Big LLM Architecture Comparison》和《A Dream of Spring for Open-Weight LLMs》。

从「LLM Architecture Gallery」页面结构上看，这个图谱险些像一张大模子名录。

这里齐集了大都连年来出现的主流模子，bet365官网包括 Llama、DeepSeek、Gemma、Mistral、Qwen、Kimi、GLM等多个系列，参数限度从几亿参数的小模子，一直延长到千亿乃至万亿级模子。

点击随性模子即可相连到对应位置，比如，这里咱们点击 DeepSeek R1，相连就跳转到相应的模子卡：

每一张模子卡都会展示该模子的中枢架构图、要害模块贪图、参数限度、发布时候、关联见解等基本信息，让读者不详在兼并套视觉框架下快速贯穿模子的结构构成。

不啻 DeepSeek R1，像 Gemma、Llama 等一系列主流模子，也都被纳入这一图谱之中。用户只需点击对应模子称号，就不错投入该模子的专属页面，检察其完好架构暗示图以及要害贪图细节。

关于考虑者而言，「LLM Architecture Gallery」相配于提供了一份可快速查阅的大模子架构索引，用户不错在一个页面中浏览和对比不同模子的贪图念念路，模子架构的要害改进点，从而更高效地贯穿时候演化旅途，也为后续的考虑和模子贪图提供参考。

正如 AI 考虑者 Andrej Karpathy 所评价的那样：「这实在就是一个创意、目的的资源库。」