Encoder 详解:6 层堆叠到底在做什么

很多人第一次看 Transformer 图时,会把 encoder 理解成“左半边那 6 层”,然后继续把主要注意力放到 decoder、mask、生成、采样上。这样理解不算错,但会漏掉一件很重要的事

88 8分钟

为什么大模型需要“思考模式”?

思考模式在生产环境是否有效? 自 deepseek-r1 问世之后的所有模型,思考模式是所有模型的标配。 chatgpt 有四档思考模式:low medium high xhigh。high xhig

104 13分钟

AI应用开发六:企业知识库

企业知识库 RAG 实战:从 PDF 解析到可用系统 企业知识库不能简单理解成“把 PDF 丢进向量库,然后接一个大模型”。在真实项目中,真正麻烦的地方往往不在某一行代码,而在整条链路是否可靠:PDF

400 27分钟
从零实现自己的agent第五期:子代理实现

从零实现自己的agent第五期:子代理实现

Subagent 实现:把脏活交给独立上下文 摘要:有了任务规划,主 Agent 知道要做什么、做到哪一步。但复杂任务的执行细节仍然会污染主 history:网页正文、命令输出、文件搜索结果、报错日志

105 11分钟