|
![]() 最近几年,大模子赛说念好不吵杂。 叫得上名字的险些数都数不外来:从 GPT、Llama、Gemma、Mistral,到 DeepSeek、Qwen、Kimi、GLM、MiniMax 等等,新模子险些以周更的速率出现。 但问题是,当架构改进越来越多时,贯穿它们反而变得越来越贫乏。不同论文里的模子结构图作风互异、模块定名不融合,即即是考虑者,也很难快速看清一个模子究竟在哪些所在作念出了要害更正。 要是把曩昔几年主流模子的架构放在一王人,你会发现一个彰着的空缺:咱们领有大都模子,却断绝一张明晰的大模子架构图。 开云体育中国官方网站最近,AI 考虑者 Sebastian Raschka 就尝试给了这么一张图,他将曩昔几年主流大模子的结构从头绘图,并整理成了一个在线图谱 「LLM Architecture Gallery」。 ![]() 原文地址:https://sebastianraschka.com/llm-architecture-gallery/#card-olmo-2-7bGitHub 地址:https://github.com/rasbt/llm-architecture-gallery 把柄 Raschka 先容,该网站齐集了他此前两篇博客中的本色,这两篇博客分歧为《The Big LLM Architecture Comparison》 和 《A Dream of Spring for Open-Weight LLMs》。 从「LLM Architecture Gallery」页面结构上看,这个图谱险些像一张大模子名录。 这里齐集了大都连年来出现的主流模子,bet365官网包括 Llama、DeepSeek、Gemma、Mistral、Qwen、Kimi、GLM等多个系列,参数限度从几亿参数的小模子,一直延长到千亿乃至万亿级模子。 ![]() 点击随性模子即可相连到对应位置,比如,这里咱们点击 DeepSeek R1,相连就跳转到相应的模子卡:
每一张模子卡都会展示该模子的中枢架构图、要害模块贪图、参数限度、发布时候、关联见解等基本信息,让读者不详在兼并套视觉框架下快速贯穿模子的结构构成。 ![]() 不啻 DeepSeek R1,像 Gemma、Llama 等一系列主流模子,也都被纳入这一图谱之中。用户只需点击对应模子称号,就不错投入该模子的专属页面,检察其完好架构暗示图以及要害贪图细节。 关于考虑者而言,「LLM Architecture Gallery」相配于提供了一份可快速查阅的大模子架构索引,用户不错在一个页面中浏览和对比不同模子的贪图念念路,模子架构的要害改进点,从而更高效地贯穿时候演化旅途,也为后续的考虑和模子贪图提供参考。 ![]() 正如 AI 考虑者 Andrej Karpathy 所评价的那样:「这实在就是一个创意、目的的资源库。」 |








备案号: