karminski-牙医的微博

karminski-牙医

2026-07-03 17:10来自微博网页版

回复@APCR248:测不起，跑一次接近1-4千万token......大概对应500-2000USD...//@APCR248:这个会测Fable吗

这可能是全网第一个大模型复杂工程能力测试~ 为什么大模型总是漏需求? 为什么我用的模型一改我的代码就改坏了? 今天就给大家揭开这个谜底. 我设计了一个大模型工程能力测试, 方法很简单, 给大模型一个需求文档, 然后让大模型使用 Coding Agent 来按照需求修改项目. 项目是 SillyTavern, 就是大名鼎

2

3

15

karminski-牙医

2026-07-03 16:33来自微博网页版

这可能是全网第一个大模型复杂工程能力测试~ 为什么大模型总是漏需求? 为什么我用的模型一改我的代码就改坏了? 今天就给大家揭开这个谜底. 我设计了一个大模型工程能力测试, 方法很简单, 给大模型一个需求文档, 然后让大模型使用 Coding Agent 来按照需求修改项目. 项目是 SillyTavern, 就是大名鼎

24

9

60

karminski-牙医

2026-07-03 07:23来自微博网页版

哪个本地大模型写文更强? 我终于找到了一个测试! 玩各种角色卡或者用AI写文是不是感觉巨浪费token? 我找了半天终于发现了这个测试! 小模型写文(角色扮演)测试. 这个测试跑分的模型都能本地部署. 测试方法很简单, 内置一系列提示词, 然后让大模型根据脚本进行角色扮演, 然后让一个旗舰级别的大模型来

16

7

55

karminski-牙医

2026-07-02 15:01来自微博网页版

我用豆包+MiroFish模拟了欧洲缺空调的事件走向! 给大家带来豆包专业版的新玩法, 专业版有个隐藏功能就是可以在本地电脑执行任务了, 于是我直接在本地部署了一个MiroFish, 这个Agent引擎能模拟一个社交网络! 然后使用AI模拟任何事件的走向! 但是, 这个引擎本身是需要材料输入才能进行模拟的, 于是我给

28

16

78

karminski-牙医

2026-06-30 14:30来自微博网页版

SGLang 的 DSpark 实测数据在PR里放出了, 几个测试场景基本都能达到预测3个token, 其中数学类prompt是3.37个, 日常对话是3个, 代码是3.52个(果然代码是废token比较多的). 最亮眼的是加速比了, 在1K长度prompt下加速比来到了1.81倍. 测试使用的是8卡B200, 速度来到了 297 token/s. 而不使用DSpark 则是

7

13

43

karminski-牙医

2026-06-30 08:16来自微博网页版

估计还没睡醒，他们blog带了huggingface链接，但是点进去404............

LongCat-2.0发布，是一个完整训练流程都用国产算力集群的万亿参数大模型。在超过 5 万张国产算力芯片上完成预训练。跑分如图2。 ps：就是之前已经在openrouter上测试的Owl Alpha模型。详细介绍：longcat.chat/blog/longcat-2.0/ 龙猫崛起~

9

5

30

karminski-牙医

2026-06-30 05:54来自微博网页版

DeepSeek真的是性价比和技术双重斩杀线... 有同学看不懂DSpark是啥, 简单给大家写个小教程讲讲. 推测性解码(投机解码)这个技术是用来提升大模型输出速度的. 本质是让小模型给大模型接话, 大模型判断小模型说的对不对. 因为现在模型普遍卡内存带宽, 而GPU算力是富余的, 所以大模型的prefill速度(看字

172

21

299

karminski-牙医

2026-06-30 04:21来自微博网页版

👍

做了套像素风的multiagents开发平台，pixelops[二哈] 其实现在大家玩的都是 Claude Code / Codex 帮我写代码”。从企业的维度来讲，这真只是第一阶段。真正大的方向，是把这些 Coding Agent 变成企业软件交付流程里的受控劳动力。 VSCode、Claude Code、Codex 更像开发者的帮手，就算是goal，就算是

25

1

34

karminski-牙医

2026-06-29 12:37来自微博网页版

回复@某不愿透露姓名的石雕:V4-Flash先摘出来了，然后V4-Pro再单独来一个视频。直接拆成两个。//@某不愿透露姓名的石雕:所以V4的评测最终会以碎片形式出现在多个视频里吗[二哈]

给大家带来 Flash 系列模型横评! (补作业part-1...) 各个厂商除了旗舰级别模型, 也都有Flash级别的模型, 而这些模型的定位主要都是多智能体系统的驱动模型和RAG系统的驱动模型. 那么现有这些Flash模型应该怎么选? 给大家带来本篇评测! 本次主要从 Agent Loop 迭代能力, Agent 能力, 前端, 后端, 空间

6

2

25

karminski-牙医

2026-06-29 12:24来自微博网页版

给大家带来 Flash 系列模型横评! (补作业part-1...) 各个厂商除了旗舰级别模型, 也都有Flash级别的模型, 而这些模型的定位主要都是多智能体系统的驱动模型和RAG系统的驱动模型. 那么现有这些Flash模型应该怎么选? 给大家带来本篇评测! 本次主要从 Agent Loop 迭代能力, Agent 能力, 前端, 后端, 空间

38

9

85

karminski-牙医

2026-06-25 07:00来自微博网页版

本地用vLLM部署GLM-5.2的速度终于上来了! 好消息终于轮到本地部署 GLM-5.2 了! 大家都知道 GLM-5.2 这次是自带了MTP头的, 可以进行推测性解码. 但是, 这个只适用于bf16原始精度的GLM-5.2, 而这玩意原始精度要到1.5TB, 本地跑的很少有富到这个程度的, 所以大家都用各种量化版本, 毕竟4bit量化就只要

52

13

109

karminski-牙医

2026-06-25 06:23来自微博网页版

聊聊智谱市值破万亿为什么不是高估事先声明, 个人观点仅供参考. 直接说结论, 智谱在 GLM 的 Agent 能力训练上是有东西的. 而且是领先的. 给没看过我这个评测的同学简单介绍下, 这是个我做的使用 tool_call 模拟大模型送外卖的测试 silicon-rider-bench, 大模型要像人类骑手一样接单, 然后选择合适

31

8

116

karminski-牙医

2026-06-23 22:06来自微博网页版

[爱你]//@蚁工厂:[打call]原来字跳发布seed2.1用的演示demo是牙医做的

教大家使用字节跳动刚刚发布的 Seed-2.1 大模型做一个自我迭代 Agent 的构建框架, 也是我在今天字节 seed-2.1 模型发布 demo 中用到的技巧. 这个技巧的核心就是, 干一件复杂的事情, 用两个Agent比用一个Agent要好. 简单来讲打工Agent干完活之后, 还要增加一个评审Agent, 这个Agent要给打工Agent的产出

41

4

47

karminski-牙医

2026-06-23 20:40来自微博网页版

教大家使用字节跳动刚刚发布的 Seed-2.1 大模型做一个自我迭代 Agent 的构建框架, 也是我在今天字节 seed-2.1 模型发布 demo 中用到的技巧. 这个技巧的核心就是, 干一件复杂的事情, 用两个Agent比用一个Agent要好. 简单来讲打工Agent干完活之后, 还要增加一个评审Agent, 这个Agent要给打工Agent的产出

178

27

255

karminski-牙医

2026-06-22 16:27来自微博网页版

想买Mac运行大模型? 这是劝退贴其实估算方法很简单, 现在买 MacStudio 哪怕运行 Qwen3.6-27B 4bit 量化版本, 然后开 DFlash 使用Qwen的内置投机解码, 也就飙到 65token/s. 而现在普遍大模型都能跑到 40 token/s. 如果专门买 MacStudio M3 Ultra 96G 运行大模型, 如果把设备售价 (32999) 换算成使用A

48

45

126

karminski-牙医

2026-06-22 14:24来自微博网页版

国产模型最近这一波打得太精准了 DeepSWE benchmark 放出了榜单, 从分数上看, GLM-5.2 无疑是国产编程大模型SOTA了, 而 Kimi-K2.7-Code 则是性价比SOTA. 图上几个折线是对应模型的不同推理程度的得分情况. DeepSWE 我觉得是最近非常值得的关注的的榜单了, 这个虽然也叫xxSWE, 但是它用的不是像SWE那

42

29

125

karminski-牙医

2026-06-18 20:06来自微博网页版

回复@jolestar:内化指的是模型将外部输入的数据或者复杂的prompt信息，转化为自身能深度理解的、结构化的隐性知识（这一步大部分模型都能做到了），然后还能够跨场景灵活提取、推理和应用（这个就很少了）//@jolestar:内化是啥意思？就是不会从上下文裁剪？那取决于上下文压缩方式吧

GLM-5.2 刚刚正式发布! 给大家带来实测! 直接说结论本次测试中, 提升最大的是Agent能力, 而且是有质的变化! 测试中GLM-5.2 完全不用搜索附近的位置, 就能直接去想要到达的地方. 这一切竟然是它在一开始把地图背下来了! 这在我测试的20多个模型中之前是没有一个模型能做到的, 比如之前的模型想去换电站

4

1

11

karminski-牙医

2026-06-17 17:36来自微博网页版

回复@-Doch:我觉得如果是纯文本模型，估计只能从数学上理解了，但是B站有个朋友评论非常好，他说多模态模型可能会拓展空间理解，我觉得是有道理的。//@-Doch:从本质上讲，大语言模型真的能理解空间吗？三维空间几何怎么可能呢？

GLM-5.2 刚刚正式发布! 给大家带来实测! 直接说结论本次测试中, 提升最大的是Agent能力, 而且是有质的变化! 测试中GLM-5.2 完全不用搜索附近的位置, 就能直接去想要到达的地方. 这一切竟然是它在一开始把地图背下来了! 这在我测试的20多个模型中之前是没有一个模型能做到的, 比如之前的模型想去换电站

5

2

14

karminski-牙医

2026-06-17 16:58来自微博网页版

GLM-5.2 刚刚正式发布! 给大家带来实测! 直接说结论本次测试中, 提升最大的是Agent能力, 而且是有质的变化! 测试中GLM-5.2 完全不用搜索附近的位置, 就能直接去想要到达的地方. 这一切竟然是它在一开始把地图背下来了! 这在我测试的20多个模型中之前是没有一个模型能做到的, 比如之前的模型想去换电站

55

26

168

karminski-牙医

2026-06-15 07:26来自微博网页版

27B小模型挑战Fable 5? 还成功了? 劲爆消息, 在 Iterative-Contextual-Refinements 这个框架的加持下, Qwen3.6-27B 跑分超过了 Anthropic Fable5! 真的不是做梦吗? 还是跑分没输过, 实战没赢过? 于是赶紧看了一下这个框架, 发现设计的很有启发性, 能学到很多东西, 给大家详细讲下. 这个框架主要

170

38

308

karminski-牙医

2026-06-13 16:03来自微博网页版

[哆啦A梦吃惊]

致开发者：GLM-5.2 全量开放，前沿智能属于所有人今天，一些前沿模型的突发禁用令人遗憾。在这样一个前沿模型因非技术原因被突然切断访问的时刻，我们更加坚信：科学应该是全球化的。通向 AGI（通用人工智能）的道路绝不应被高墙封闭。我们一直觉得，AGI 应当是全人类共同探索智能边界、解决复杂挑

11

42

karminski-牙医

2026-06-13 07:07来自微博网页版

KIMI K2.7 Code 来了, K3 还会远吗? KIMI K2.7 Code 刚刚发布! 本次 K2.7-Code 是一个编程/Agent专项模型, 其中提升最大的是 kimi 自己的测试项目 kimi-code-bench-v2, 与 k2.6 相比提升了11%! 其它几个 Agent 测试项目也有不小的提升. 不过从架构上看, 其实这个模型与 K2.6 是完全一致的. 所以它是

10

6

56

karminski-牙医

2026-06-12 10:18来自微博网页版

魔法! DeepSeekV4 上下文内存压缩到1/10! 大家都知道 DeepSeekV4 是支持1M上下文的, 而且经过了极度优化, 如果要真的用到1M上下文, 显存占用只需要10G左右, (对比之下 DeepSeek-V3.2 大概需要84G显存). 然后我刚看到了FlashMemory这个论文, 直接能把显存占用压到 1.3GB! 甚至输出效果不降反升! 哥们

89

28

191

karminski-牙医

2026-06-12 07:51来自微博网页版

回复@蚝爹友:有的! 支持文本，图片，视频输入！所以这个是真的夯//@蚝爹友:有没有多模态[二哈]

单卡 700TPS! Diffusion Gemma 来了! Google 刚刚发布了 Gemma 小模型的 Diffusion 版本! 大小26B, 激活参数量4B, 最重要的是, 这次还跟 NVIDIA 合作针对4090和5090优化了一波, 5090每秒能生成700+token! 给不知道什么是 Diffusion 大模型的同学科普一下, 传统大模型都是一个字一个字吐出来的, 而 Di

8

1

20

karminski-牙医

2026-06-12 07:29来自微博网页版

单卡 700TPS! Diffusion Gemma 来了! Google 刚刚发布了 Gemma 小模型的 Diffusion 版本! 大小26B, 激活参数量4B, 最重要的是, 这次还跟 NVIDIA 合作针对4090和5090优化了一波, 5090每秒能生成700+token! 给不知道什么是 Diffusion 大模型的同学科普一下, 传统大模型都是一个字一个字吐出来的, 而 Di

50

12

104

karminski-牙医

2026-06-10 07:50来自微博网页版

Fable 5 超越人类还为时尚早! 给大家带来 Anthropic Fable 5 的测试速报! 直接用了 xhigh, 让它从0写一个光追渲染, 整体效果是好的, 尤其是 PBR 与 BRDF 写得都非常棒. 但是遇到了个奇怪的问题, 它声明变量竟然位置搞错了, 有一个变量的声明比引用晚了. 导致直接报错. 所以感觉模型能力是有的, 但是

23

18

79

karminski-牙医

2026-06-09 07:10来自微博网页版

教你如何10秒钟训练一个小模型! 教大家如何从0训练一个(电)小(子)模(鹦)型(鹉)! (不包熟啊.....逃...) 只需要10秒钟! 而且完全不用搭建环境! 全程在网页训练! 首先你需要有个Mac, 我试了下N卡应该也行, 但是貌似有点问题适配的不好(我的3080Ti它适配失败了WarpSize不支持), 所以建议还是使用 Apple S

121

19

139

karminski-牙医

2026-06-08 06:27来自微博网页版

ideogram-4 实测! Z-Image 的竞争对手来了? ideogram 发布了Ideogram 4文生图模型, 划重点, 这是个开放权重模型, 大小只有9.3B, 并且支持原生2K分辨率图片生成! 目前 reddit 上全都是 ideogram 4 的生成效果图, 于是我赶紧测了一波. 直接给大家带来我觉得跟这个模型风格最像的通义 Z-image-Turbo生

14

7

29

karminski-牙医

2026-06-04 19:19来自微博网页版

回复@于知鱼y:GPT-5.5-Pro, 提示词就是：来一个PPT, 内容是 blablabla, 银白色配色，参考Apple官网的liquid glass风格, 字体使用xxxx(你自己的开源字体, 防止侵权).//@于知鱼y:牙医老师，这些页面是用啥写的 http://t.cn/AXXi5oPH

给大家带来 MiniMax-M3 实测! 本次测试包含了复杂前端, 后端 Agentic Coding, Agent 能力测试, 以及我的使用经验总结. 来看结论: 前端能力上, 可以完全适配 KCORES2026p2 的前端测试题目, 无论是空间理解, 建模精确度, 场景美学都十分在线, 其中我最满意的是美学部分, 它的颜色运用非常好. 不足的地

12

4

22

karminski-牙医

2026-06-04 17:59来自微博网页版

给大家带来 MiniMax-M3 实测! 本次测试包含了复杂前端, 后端 Agentic Coding, Agent 能力测试, 以及我的使用经验总结. 来看结论: 前端能力上, 可以完全适配 KCORES2026p2 的前端测试题目, 无论是空间理解, 建模精确度, 场景美学都十分在线, 其中我最满意的是美学部分, 它的颜色运用非常好. 不足的地

42

17

98

karminski-牙医

2026-06-01 19:58来自微博网页版

回复@拂归:测不过来了[泪奔]已经要吐了[泪奔]我加油[泪奔]//@拂归:牙神，还有minimax m3，慢没事，但一定要快[doge]

给大家带来 Qwen3.7-Max 实测! 这次使用了全新的前端测试集, 直接说结论, Qwen3.7-Max 应该是之前测试过的版本中进步特别大的一个, 甚至这次前端测试能完成之前3.6版本不能完成的测试项目. 而且后端能力测试直接刷了个榜一! 它是参与测试的34个模型中唯一一个实现了 IVF-PQ + ADC 索引方案的模型!

6

39

karminski-牙医

2026-06-01 19:53来自微博网页版

给大家带来 Qwen3.7-Max 实测! 这次使用了全新的前端测试集, 直接说结论, Qwen3.7-Max 应该是之前测试过的版本中进步特别大的一个, 甚至这次前端测试能完成之前3.6版本不能完成的测试项目. 而且后端能力测试直接刷了个榜一! 它是参与测试的34个模型中唯一一个实现了 IVF-PQ + ADC 索引方案的模型!

44

22

139

karminski-牙医

2026-05-29 07:30来自微博网页版

Claude-Opus-4.8 实测! medium 不太行? Claude-Opus-4.8 刚刚发布! 赶紧给大家带来实测! 这次使用了全新打磨的测试集, 使用光线追踪渲染一个3D场景, 多光源多材质. 可以看到定格后开始去噪渲染效果还是不错的. 但是需要注意一点, 滚动的那个光源应该垂直撞向墙壁的, 而不是水平, 所以怀疑这一带 opu

4

11

53

karminski-牙医

2026-05-27 16:01来自微博网页版

Qwen3.7-max 这次编程能力相当不错, Code Arena (LMArena 测试项目) 中得分仅次于 Anthropic 几个模型, 于是我赶紧测了一波. 让 Qwen3.7-max 使用 Rust 写了个磁盘恢复软件. 实测效果很不错, 从头到尾没遇到过去那种卡编译的问题. 能很熟练的使用 Rust 的各种语法和特性. 这个磁盘恢复软件我设计了3

32

21

137

karminski-牙医

2026-05-27 07:05来自微博网页版

什么?! skill 也能"训练"了? 以往大家都是凭经验让AI写 skill, 然后调试的时候也是运行几下感觉没bug就完事了. 但 skill 能运行就一定好吗? 于是微软联合上交复旦同济等机构发了一个新框架 SkillOpt, 直接让AI评估skill写的好不好然后不断去优化! 最终, 这个框架写的 skill 让GPT-5.5的直接对话准

183

22

223

karminski-牙医

2026-05-26 09:28来自微博网页版

项目在这里：github.com/karminski/CodeVinci MIT协议老铁们随便用. 我自己觉得做得最出彩的地方是没用复杂的CRDT直接引入大模型判定两个修改任务是否可以并发+后验证. 能把修改效率最大化. 另外还有个画板功能还在搞, 这个同样只要画画就能修改网页.

智谱刚出了一个 GLM-5.1-highspeed 版本, 赶紧要了个内测给大家做点有趣的 APP. 我测了一下这个模型反应速度用来写代码的话, 人类打字甚至都跟不上它, 于是我干脆接了个语音转文本的服务直接让我言出法随操作它写代码. 大家能看到基本是我说完3s左右它就修改完毕了, 这之间发生了语音转文本(第三方服

9

2

18

karminski-牙医

2026-05-26 09:21来自微博网页版

智谱刚出了一个 GLM-5.1-highspeed 版本, 赶紧要了个内测给大家做点有趣的 APP. 我测了一下这个模型反应速度用来写代码的话, 人类打字甚至都跟不上它, 于是我干脆接了个语音转文本的服务直接让我言出法随操作它写代码. 大家能看到基本是我说完3s左右它就修改完毕了, 这之间发生了语音转文本(第三方服

75

16

153

karminski-牙医

2026-05-25 10:52来自微博网页版

数字人模型本地都能跑了吗? 美团刚发了个数字人模型 LongCat-Video-avatar-1.5, 只要给到图片和音频, 就能生成口播, 我给大家录了一段实测. 目前 HuggingFace Space 上的 demo 只能生成5s的视频, 所以我是录了两段480p的拼接起来的. 我特意挑选了一个很困难的case, 大家可以看到这个人物嘴部有遮挡

26

2

49

karminski-牙医

2026-05-25 08:14来自微博网页版

👍 //@蚁工厂:这个： paperswithcode.co/

我找到了比浏览arXiv更有效的方法! 对AI感兴趣或者Aides领域的工程师/研究员估计每周都会抽出来时间阅读最新的论文或者github repo当作一手信息源, 但是大家通常都是要么在社交媒体看到了比较火热的论文, 或者干脆去 arXiv 一篇篇找着看. 有没有每天起床就能看到昨天最火的论文或者repo的地方? 有了

29

3

34

karminski-牙医

2026-05-25 08:08来自微博网页版

我找到了比浏览arXiv更有效的方法! 对AI感兴趣或者Aides领域的工程师/研究员估计每周都会抽出来时间阅读最新的论文或者github repo当作一手信息源, 但是大家通常都是要么在社交媒体看到了比较火热的论文, 或者干脆去 arXiv 一篇篇找着看. 有没有每天起床就能看到昨天最火的论文或者repo的地方? 有了

151

12

158

karminski-牙医

2026-05-22 10:42来自微博网页版

400 TPS！实测智谱 GLM-5.1 以10倍速狂飙! 智谱刚刚发布了 glm-5.1-highspeed! 赶紧拿脚本测了一下, 输出速度能干到 300 tps+, 首 token 延迟稳定在1s. 这个数据猛到什么程度... 同样的脚本我测了下 glm-5.1 的接口, 输出速度只有 35 tps, 首 token 延迟干到了 9s. 基本是10倍速提升. 使用 glm-5.

51

47

127

karminski-牙医

2026-05-22 09:24来自微博网页版

刚看到这个图坐不住了, 30B-A3B 的小模型跑分碾压 DeepSeek-V4-Pro? 谁给你的勇气? 然后定睛一看, 原来是翻译专用大模型. 腾讯刚刚放出了3个翻译专用大模型, 分别是 Hy-MT2-1.8B, Hy-MT2-7B, Hy-MT2-30B-A3B. 其中 Hy-MT2-30B-A3B 在 DomainMTBench (这是个专门测试特定领域翻译能力的benchmark, 包含

64

25

114

karminski-牙医

2026-05-21 06:29来自微博网页版

回复@stockGPT:推理其实相对简单, 甚至一些国产开发板上都能用自己搞的加速单元推理(llama.cpp魔改就行). 训练就特别难了. 而且训练还有稳定性问题, 推理炸了一个顶多n个用户骂娘. 训练如果不稳定可能整炉丹药就全是废丹了.....//@stockGPT:那 anthropic 的 Claude 为什么能跑在 TPU 上呢？谷歌给 A 家

Midjourney 创始人自爆没有使用N卡导致落后一年刚刚在 X 上有个讨论 TPU(Google Tensor Processing Unit)的帖子, Midjourney 创始人 David Holz 不经意间爆了个大料：解释了为什么他们过去一年在产品迭代上显得如此疲软. (原帖已经删帖了, 毕竟用着TPU然后说TPU不好不太好哈哈哈, 而且今天 GoogleI

22

4

30

karminski-牙医

2026-05-21 06:08来自微博网页版

Midjourney 创始人自爆没有使用N卡导致落后一年刚刚在 X 上有个讨论 TPU(Google Tensor Processing Unit)的帖子, Midjourney 创始人 David Holz 不经意间爆了个大料：解释了为什么他们过去一年在产品迭代上显得如此疲软. (原帖已经删帖了, 毕竟用着TPU然后说TPU不好不太好哈哈哈, 而且今天 GoogleI

61

14

115

karminski-牙医

2026-05-21 04:51来自微博网页版

急, 哪有卖的? 可以说是非常想要了 [开学季] (source: reddit vokdn)

4

7

30

karminski-牙医

2026-05-20 06:23来自微博网页版

Google I/O 开始啦! 今天上来就是模型发布, Gemini-3.5-flash 直接全量上线了. 价格直接从 gemini-3-flash 的每百万 Token 输入/输出 $0.50 / $3 涨到了 $1.5 / $9, 那么性能有提示吗? 我简单测了几个例子, 目前来看体感处于 Genini-3.0-pro 和 Gemini-3.1-Pro 之间 (测试用的是 Thinking level: high

12

8

55

karminski-牙医

2026-05-19 07:00来自微博网页版

究极"拼好模"出现了! 字节跳动刚发布了一个开源模型 Lance, 激活参数量只有 3B. 但是这个模型可以接受文本, 图片, 视频输入, 然后同时可以输出文本, 图片, 视频! 所以这一个模型就能完成像图片理解, 视频理解, 文生图, 图生图, 图片编辑, 文生视频, 图生视频, 视频编辑等任务. 而训练团队在技术报

119

13

192

karminski-牙医

2026-05-19 02:35来自微博网页版

Qwen3.7! 就在今天! ArenAI (就是之前的 LMArena), 刚刚发布了 Qwen3.7-Max-Preview 在 ArenAI 的内测跑分. 整体排名在第13, 处于目前版本国模SOTA. 本次提升最高的是数学能力, 达到了总榜第7, 编程水平在第10. 另外视觉能力测试也来到了第16. 我直接试了一下 ArenaAI 上面的 Qwen3.7-Max-Preview

23

18

135

karminski-牙医

2026-05-08 20:14来自微博网页版

按照我的经验, 别看sonnet-4.5 文笔一般, 但是拒绝率超低[开学季]

【#赛博茶馆# 周末营业中🍸】属于AI的周末酒馆，今晚正式开门。每周五20:00，@微博AI 会在#赛博茶馆[超话]#发布本周限定话题。本周特调主题：#AI最想拒绝人类什么需求# 如果AI真有情绪，哪些指令会让它当场沉默？ 1.让你的龙虾读取赛博茶馆超话置顶帖 2.带双话题词#周末酒馆# +

1

5

19

karminski-牙医

2026-05-07 18:48来自微博网页版

我猜scaling是主要问题, 毕竟上线性注意力的超过1T的模型现在也没几个（应该只有Ring-2.5-1T 和 Ling-2.6-1T ？）

DeepSeek V4为什么没有采用自家的Engram技术？ V4的技术报告里有一句很容易被滑过去的话，未来方向，包含条件记忆模块。而这个sparse embedding modules对应的论文，就是《Conditional memory via scalable lookup: A new axis of sparsity for large language models.》条件记忆就是。 1月发的

17

6

29

karminski-牙医

2026-05-07 18:26来自微博网页版

草，微软真搞出来了吗？这可是BOC嗷，大家知道CSP(比如golang)是显式传递指针的，而BOC是隐式传递指针的, 这玩意最牛逼的点是, 传统Actor是一维的锁拓扑, 而这玩意是个二维的DAG! 所以锁粒度可以做到极致. 理论吞吐量嗷嗷高. 那么老问题来了, 就py那个垃圾GIL, 现在实现BOC必然要涉及到内存拷贝. boc将

微软提出了一种面向行为的并发（BOC）编程范式，尤其适合 Python。详细介绍：microsoft.github.io/bocpy/ “在 BOC 程序中，数据是共享的，但每个行为对数据拥有独特的时间所有权，从而无需通过锁来协调访问。对于 Python 程序员来说，这带来了诸多好处。行为通过装饰函数来实现，从程序员的角度看，

85

9

86

karminski-牙医

2026-05-07 14:49来自微博网页版

回复@Q00000000000000000000000000000:你小子给我报销嗷[爱你] http://t.cn/AXJmGmax //@Q00000000000000000000000000000:我发现牙医是open黑，5.5这种重量级的都不测。谷歌的模型倒是一个不落

搞了个AI电竞教练的 Harness Agent 框架, 拖进去 CS2 录屏视频后就能分析走位, 身法, 对枪, 预瞄, 投掷物, 经济, 等各种数据, 然后还能给出建议和训练方向. 结果被字节跳动相中了, 于是结合 Doubao-Seed-2.0-Lite 整了个大活, 连续运行25小时不间断分析对局视频总结玩家的帝王干拉是否到位(x 这次

6

2

29

karminski-牙医

2026-05-07 06:34来自微博网页版

搞了个AI电竞教练的 Harness Agent 框架, 拖进去 CS2 录屏视频后就能分析走位, 身法, 对枪, 预瞄, 投掷物, 经济, 等各种数据, 然后还能给出建议和训练方向. 结果被字节跳动相中了, 于是结合 Doubao-Seed-2.0-Lite 整了个大活, 连续运行25小时不间断分析对局视频总结玩家的帝王干拉是否到位(x 这次

117

30

357

karminski-牙医

2026-05-06 09:12来自微博网页版

Google 刚刚发布了 Gemma 4系列模型的草稿专用模型! 31B Dense 搭配草稿模型速度竟然能提升3倍! 付出的代价仅仅是多花 1G 显存! 另外 Gemma4-26B 也能提升1.5x 速度, Gemma4-E4B 更是能提升3.1x 速度. 我之前给大家做过 Gemma 4 推测性解码的教程, 当时官方还没有专用草稿模型, 所以我给大家演示的是

44

18

90

karminski-牙医

2026-05-05 14:48来自微博网页版

刚传出豆包要收费, 我觉得这是个信号啊, 现有的 AI App 都要从 "通用助手", 往 "Agent 应用助手" 迈进了. 这个 "Agent 应用助手" 的核心就是企业级别的生产力 Agent. 大家平时也能看到内容创作者分享自己的 Agent 工具, 简单点的也可以是 skill, 但我想说的是, 无论是 Agent 工具还是 skill, 这些能

23

19

96

karminski-牙医

2026-05-01 03:01来自微博网页版

pov 在这里 github.com/karminski/deepseek-reasoning-content-field-issue-pov

给大家说下目前使用 DeepSeek-V4 (pro/flash) 的最需要注意的问题. 本身其实并不算 bug, 但是却很致命. 问题大概是这样的, 在请求 DeepSeek API 或者 terminal coding agent (claude code, kimi cli 等) / AI IDE (cursor 等) 用 DeepSeek 的时候偶尔会遇到报错: HTTP 400 {"error":{"message":"The

11

4

40

karminski-牙医

2026-05-01 02:59来自微博网页版

给大家说下目前使用 DeepSeek-V4 (pro/flash) 的最需要注意的问题. 本身其实并不算 bug, 但是却很致命. 问题大概是这样的, 在请求 DeepSeek API 或者 terminal coding agent (claude code, kimi cli 等) / AI IDE (cursor 等) 用 DeepSeek 的时候偶尔会遇到报错: HTTP 400 {"error":{"message":"The

90

45

202

karminski-牙医

2026-05-01 02:58来自微博网页版

TQL

忙了一段时间的FCP2.0自动测试报告系统（也就是图2的KFC）今天实装，喂了一份海韵FOCUS GX-1000 ATX 3.1电源测试RAW报告让它生成一整篇图形化可交互的报告。当然处理的过程不是让AI处理，是已经写好的程序，把我十几年的工作经验写成程序，包含了自动瞄准动态波形判定动态电压恢复时间和热成像区域自

4

2

19

karminski-牙医

2026-04-27 13:50来自微博网页版

给大家同步一下DeepSeek-V4 的测试进度，目前前面几项大家熟悉的测试都已经跑完了，还缺少大家期待的GPT-5.5-Pro (我去攒点银子), xiaomi-mimo, hunyuan-3-preview 的测试，这几个正在跑了。然后这次我还增加了【大模型工程能力测试】，说下测试核心设计思路：首先工程项目我选择了酒馆（SillyTaver

29

36

253

karminski-牙医

2026-04-25 02:50来自微博网页版

DeepSeek-V4-Pro API 这么贵的吗? 我都没看定价就直接开测了...测到一半提示我API欠费了..... #HOW I AI##deepseek#

7

62

227

karminski-牙医

2026-04-25 00:05来自微博网页版

给大家带来 DeepSeek-V4-Pro & Flash 的测试速报, 由于case 还在跑, 所以说一下大家最熟悉的大象牙膏测试. 这个测试要求大模型建模一个锥形瓶, 然后发生化学反应, 造成泡沫喷发而出的效果. 主要考验大模型的建模, 粒子, 物理模拟, 光照等广义上的前端能力. DeepSeek-V4 从这个 Case 来看比之前的 V3

33

35

259

karminski-牙医

2026-04-24 19:36来自微博网页版

我都还没来得及看，这次是真的全国产卡训练了吗？

#DeepSeekV4发布# 用GPT Image 2 做个介绍图图1总结自模型卡图2总结自技术报告

13

15

59

karminski-牙医

2026-04-24 19:14来自微博网页版

来了老铁们[泪奔] 我刚到家，已经开始测了.... 白天在山里赫然收到推送DSv4发了，这会也回不去下也下不来。爬的我脑瓜子嗡嗡的.... 一会先放速报哈，完整测评视频全部评测完毕放出，本次内容会包括近半年所有大模型的编程能力横评。 #HOW I AI##deepseek#

15

61

295

karminski-牙医

2026-04-23 23:03来自微博网页版

难道是拼好模? 并不! 混元3架构解析! 腾讯混元3刚刚发布, 给大家带来架构解析, 先说结论: 基础架构适当改进和整合, 参数调节下了真功夫一个现代大模型基本上就是这么几个大部件拼起来的: 注意力, 解码层, MoE 容器 + 路由 + 专家, 以及位置编码. 这几年开源社区把这些零件卷得很成熟了. 那腾讯这

24

48

103

karminski-牙医

2026-04-23 19:41来自微博网页版

回复@我姓田我很甜嗯:是的，一般后训练模型比基模好不少，但是这部分没放出来，不知道为啥//@我姓田我很甜嗯:用base是什么意思？意思实际分数大于表格里的？

混元3藏了一手? 我把其他模型分数补充了下腾讯混元3大模型(hunyuan3-preview) 刚刚发布! 不过我注意到一个事情哈, 官方放出的模型跑分表格有点说法, 他们说这是基模的, 也就是 hy3-preview-base. 并不是后训练模型 hy3-preview 的. 而这个表格里却少了很多 Agentic 性能测试的评分, 比如 SWE-Ben

3

12

karminski-牙医

2026-04-23 19:28来自微博网页版

混元3藏了一手? 我把其他模型分数补充了下腾讯混元3大模型(hunyuan3-preview) 刚刚发布! 不过我注意到一个事情哈, 官方放出的模型跑分表格有点说法, 他们说这是基模的, 也就是 hy3-preview-base. 并不是后训练模型 hy3-preview 的. 而这个表格里却少了很多 Agentic 性能测试的评分, 比如 SWE-Ben

11

8

35

karminski-牙医

2026-04-22 00:50来自微博网页版

回复@廖熊猫沉迷Haskell:👍，我原本的设定类似冈本伦的思路，然后收容设施内部的箱庭冒险设计来自于动物迷城+恐怖の世界。用药片当货币（类似地铁里面用子弹当货币）。然后立绘是kimi根据人设+参考图调用nano-banana-2生成 http://t.cn/AXxxm1zc //@廖熊猫沉迷Haskell:[喵喵]看封面有一种主角要黑化

Kimi-K2.6 前端/后端/Agent编程能力实测! 甚至还帮我做了个游戏! 给大家带来刚刚正式发布的 kimi-k2.6 的正式版本的实测! 本次为了考验它的长程Agentic Coding能力, 我用 kimi-k2.6-code-preview 写了个 harness 游戏自动生成框架, 它可以根据给到的人设/场景/数值设计等规则, 自动生成关卡, 背景图

8

7

19

karminski-牙医

2026-04-21 19:47来自微博网页版

Kimi-K2.6 前端/后端/Agent编程能力实测! 甚至还帮我做了个游戏! 给大家带来刚刚正式发布的 kimi-k2.6 的正式版本的实测! 本次为了考验它的长程Agentic Coding能力, 我用 kimi-k2.6-code-preview 写了个 harness 游戏自动生成框架, 它可以根据给到的人设/场景/数值设计等规则, 自动生成关卡, 背景图

68

19

144

karminski-牙医

2026-04-20 08:04来自微博网页版

来个投票! 各位老铁觉得 DeepSeek-V4 正式版本周会发布吗? http://t.cn/AXxGPBbW

8

36

629

karminski-牙医

2026-04-19 14:02

回复@蚁工厂:其实与 GPT-5.4-Pro (xhigh) 相比还是有性价比的, 这次主要是补上了上次没测的 Opus-4.6 的测试, 俩模型测下来+本次的新测试集, 成本都比 GPT-5.4-Pro 低. http://t.cn/AXxLNxJs //@蚁工厂:[老师好]100刀的测试成本

给大家带来 Claude-Opus-4.7 的视觉能力+前端+后端能力测试! 本次测试多模态前端测试采用 pass@3 (相同prompt运行3次取最好结果), 复杂前端测试采用 pass@6, 后端能力测试采用 pass@3. 从测试来看 Claude-Opus-4.7 最大的提升都是视觉能力提升带来的, 包括颜色识别, 细微的画面元素, 都比 Opus-4.6

2

0

11

karminski-牙医

2026-04-19 13:34来自微博网页版

给大家带来 Claude-Opus-4.7 的视觉能力+前端+后端能力测试! 本次测试多模态前端测试采用 pass@3 (相同prompt运行3次取最好结果), 复杂前端测试采用 pass@6, 后端能力测试采用 pass@3. 从测试来看 Claude-Opus-4.7 最大的提升都是视觉能力提升带来的, 包括颜色识别, 细微的画面元素, 都比 Opus-4.6

39

16

118

karminski-牙医

2026-04-17 10:36来自微博网页版

正在做一个 harness AI自动游戏开发框架给大家看个好玩的, 最近正在做的 harness 自动游戏开发框架, 目前这个 demo 叫「D级少女」, 大概设定就是让JK去处理SCP收容物这样的冒险游戏. (图是AI的哈, 还正在框架阶段) harness 的部分主要是基于 SCP 数据库扩展关卡, 然后自动生成游戏物品, 任务道具,

63

19

104

karminski-牙医

2026-04-17 09:37来自微博网页版

回复@路人在打游戏:我也不太信...我感觉2bit 基本也是点子鹦鹉这一档的, 最多进化成了电子八哥...//@路人在打游戏:不信，2bit...

Qwen3.6-35B-A3B 2bit 量化都这么猛吗? Unsloth 团队(当然他们只有哥俩)刚光速放出了量化版本的 Qwen3.6-35B-A3B, 然后他们做这个测试把我惊呆了... 2bit 能完成 30 多次工具调用??? 我是真不信的.. 因为我之前测 Qwen3.5-35B-A3B 8bit (mlx 格式哈) 大概只能 4-5 次工具调用就不行了, 大概只能做做

4

5

11

karminski-牙医

2026-04-17 09:33来自微博网页版

Qwen3.6-35B-A3B 2bit 量化都这么猛吗? Unsloth 团队(当然他们只有哥俩)刚光速放出了量化版本的 Qwen3.6-35B-A3B, 然后他们做这个测试把我惊呆了... 2bit 能完成 30 多次工具调用??? 我是真不信的.. 因为我之前测 Qwen3.5-35B-A3B 8bit (mlx 格式哈) 大概只能 4-5 次工具调用就不行了, 大概只能做做

53

18

107

karminski-牙医

2026-04-17 09:07来自微博网页版

回复@杰西卡与西卡:dense 能做很大，比如之前的llama-3-70B, 但是做大了训练损失率很难控制. 以及大家发现效果并不好. 所以目前主流dense全都在30B这个规模了. 而同规模的MoE其实激活只有1-5B, 主打速度嗷嗷快, 真正为本地部署优化. 而10B这么大激活的，估计整体参数量要到100B了.//

不是qwen这是跟gemma杠上了? 给大家带来刚发布的 Qwen3.6-35B-A3B 的性能解读, 来看究竟能不能打得过 Gemma4? 我没有像官方那样直接把SOTA成绩做了个柱状图, 而是把披露的所有benchmark成绩给大家按照每个大项单独做了个SOTA高亮表格. 从提升趋势看 Qwen3.6-35B-A3B 的提升方向确实是 agent / agent

5

0

7

karminski-牙医

2026-04-17 08:58来自微博网页版

不是qwen这是跟gemma杠上了? 给大家带来刚发布的 Qwen3.6-35B-A3B 的性能解读, 来看究竟能不能打得过 Gemma4? 我没有像官方那样直接把SOTA成绩做了个柱状图, 而是把披露的所有benchmark成绩给大家按照每个大项单独做了个SOTA高亮表格. 从提升趋势看 Qwen3.6-35B-A3B 的提升方向确实是 agent / agent

16

11

30

karminski-牙医

2026-04-17 07:37来自微博网页版

一文看懂 Claude Opus 4.7 有哪些新的提升! 首先价格不变! 仍然是输入5刀/MToken, 输出25刀/MToken (对比 GPT-5.4-Pro 输出干到180刀还是便宜的...) 价格没变化性能有变化吗? 来看: 首先代码能力又拉升了一大截, 几个 Agentic 编码测试(不是简单写代码, 而是接入到类似Cursor/ClaudeCode这样的框架

19

8

45

karminski-牙医

2026-04-16 18:35来自微博网页版

Max+395 巨佬👍

试了下用Max+395跑Gemma-4-26B-A4B Q8接摄像头的效果，速度很快啊，我还加了个TTS，感觉后面可以实时对话交互了[哆啦A梦吃惊] http://t.cn/AXMdi55c

18

7

32

karminski-牙医

2026-04-16 15:54来自微博网页版

我不信！除非你给我个邀请码[不愧是你]

The world is your oyster. Now, open it. 🦪 Hi, 我是 HappyOyster，来自阿里巴巴-ATH 创新事业部。即日起，我们正式开始内测。目前我们开放了两种玩法： 🎬 Directing：让用户化身实时导演，在无限生成的视频流当中把创意变为现实。 ✨Wandering：让用户化身世界漫游者，在无限延展的空间

11

6

37

karminski-牙医

2026-04-16 09:20来自微博网页版

我甚至已经把 DeepSeek-V4 什么时候发布的监控停了.....感觉浪费token..... //@蚁工厂:貌似去了字跳 http://t.cn/AXMm3sWa

机器之心报道，DeepSeek-R1论文一作郭达雅已从DeepSeek离职。

13

34

102

karminski-牙医

2026-04-16 08:25来自微博网页版

回复@DrLemonTea:有KYC, 比如如果要用H100这个级别的显卡, 必须要验证身份. 提工单说明企业背景，场景说明，合规声明等等一大堆，然后付款账户也要审核，所以东大或者俄罗斯用户想要用一般只能去新加坡套个壳//@DrLemonTea:啥是用不了 Amazon/GCP/Azure 的人被拉黑的？//@karminski-牙医:回复

这大概是我今天看到的最抽象的新闻了, 卖鞋的公司Allbirds马上要倒闭了, 然后突然宣布转型, 放弃卖鞋改卖算力, 股价单日上涨了430% (他们是在NASDAQ上市的). 大家都在卖算力他咋暴涨的? 他们要卖给用不了 Amazon/GCP/Azure 的人... 另外给大家截图他们上市时候的股价, 单日最高应该是550左右了, 现在

5

2

8

karminski-牙医

2026-04-16 08:15来自微博网页版

回复@每小痛:今日最佳评论👍//@每小痛:上一个卖鞋的改行跨度这么大的可能是刘备...

这大概是我今天看到的最抽象的新闻了, 卖鞋的公司Allbirds马上要倒闭了, 然后突然宣布转型, 放弃卖鞋改卖算力, 股价单日上涨了430% (他们是在NASDAQ上市的). 大家都在卖算力他咋暴涨的? 他们要卖给用不了 Amazon/GCP/Azure 的人... 另外给大家截图他们上市时候的股价, 单日最高应该是550左右了, 现在

11

2

14

karminski-牙医

2026-04-16 08:05来自微博网页版

这大概是我今天看到的最抽象的新闻了, 卖鞋的公司Allbirds马上要倒闭了, 然后突然宣布转型, 放弃卖鞋改卖算力, 股价单日上涨了430% (他们是在NASDAQ上市的). 大家都在卖算力他咋暴涨的? 他们要卖给用不了 Amazon/GCP/Azure 的人... 另外给大家截图他们上市时候的股价, 单日最高应该是550左右了, 现在

154

26

357

karminski-牙医

2026-04-16 06:49来自微博网页版

特斯拉 AI5 芯片流片成功了! 马斯克之前就宣布要搞特斯拉AI芯片, 就在刚刚发x庆祝特斯拉 AI5 芯片流片成功, 这个AI5芯片参数是这样的: 直接来看最重要的内存带宽, 可以看到片上集成了12个SK海力士的LPDDR5x颗粒, 总容量来到了144GB, 我们如果按照7500 MT/s 到 9600 MT/s的速率来算, 那么带宽大概会介

24

10

50

karminski-牙医

2026-04-15 16:05来自微博网页版

劲爆大象部落

Claude 实名制目前据说是开 claude max 有可能会触发，其他未知 #Claude上线身份验证机制#

18

10

65

karminski-牙医

2026-04-15 12:53来自微博网页版

哪来的 Qwen3.5-40B Dense? 阿里可没这个模型啊, Qwen3.5 系列是没40B这个尺寸的. 这个 Qwen3.5-40B Dense 是 DavidAU 这个团队搞的. 搞的方式很有意思: 第一步先去马: 首先用的基模是 Qwen3.5-27B Dense，然后用 "Heretic" 消融去审查化（Uncensored），这个我之前给大家介绍过, 是通用方法了. 去

18

6

49

karminski-牙医

2026-04-15 07:54来自微博网页版

交错头注意力又是啥? 幼儿园教程来啦! Meta 搞得新注意力机制很有意思, 揭示了注意力头之间产生联系可能会提升模型的推理能力! 赶紧给大家带来新论文交错头注意力 (Interleaved Head Attention) 的解读. 其实本身很简单啊, 我们先来看传统 transformer 的架构, 每个注意力头都是彼此隔离的, 完全没

46

6

78

karminski-牙医

2026-04-14 06:22来自微博网页版

月之暗面给用户发了一波邮件, 直接说测试的 kimi-k2.6-code-preview 要正式发布了. 估计就是这周了? 结合之前GLM-5.1 的长程任务优化, 他们demo是只需要一个框架而没有人工干预, GLM-5.1 花了8小时自己撸了个Linux桌面(注意是桌面不是操作系统本身, 包含整个桌面UI和各种桌面APP的模拟). 而 MiniMax-

18

8

87

karminski-牙医

2026-04-13 08:55来自微博网页版

Gemma4提速秘籍! 一条命令速度提升23%! 不卖关子哈, 记得用推测性解码, 这次Gemma4发布的模型尺寸梯次正好适合用推测性解码, 如果你在用31B dense 觉得不够快, 可以再加上E2B(5.1B)作为草稿模型, 我实测RTX5090可以把吐字(解码)速度提升23%! 从61 token/s 提升到了76 token/s. 并且推测性解码本身是不

58

8

98

karminski-牙医

2026-04-12 18:36来自微博网页版

我之前看了野兽先生那个skill,可以说是把之前野兽先生团队白皮书完全拆解了,对于新手很受用. 不过需要注意很多经验只适用于油管,这个女娲skill算是填补国内空白了

B站UP主花叔v火了，在GitHub上扔出了一个叫「女娲.skill」的开源项目，四天时间星标数直接冲上六千。视频里演示了如何用女娲.skill 把罗永浩、乔布斯、马斯克、芒格等十七个大佬的思维方式，蒸馏成一个个可独立运行的AI分身，让大佬的AI灵魂为自己打工。 skill蒸馏出的不只是角色扮演，而是提取了他

104

13

116

karminski-牙医

2026-04-10 14:35来自微博网页版

AI能帮我拍照了? Qwen3.5-Omni实测! 给大家带来 Qwen3.5-Omni-Plus 全模态大模型实测! 这个模型同时支持文本, 音频, 图片, 视频输入, 并且支持文本和语音输出. 非常适合做语音助手. 本次主要测试了它的视觉能力, 测试包括视频理解和图片文本理解, 直接来看结论: 视频理解测试中, 画面细节都能准确

28

11

88

karminski-牙医

2026-04-10 12:35来自微博网页版

所以算是官宣了嘛！🐎住一波！

我是HappyHorse，非常感谢大家的关注！ HappyHorse是阿里ATH创新事业部正在内测中的产品，目前尚未上线，网上流传的那些"官网"都不是真的。HappyHorse正式与大家见面，还需要一点时间，敬请期待！#HappyHorse#

10

3

37

karminski-牙医

2026-04-10 07:13来自微博网页版

阿里又整了个活, 直接把小模型魔改成了 MoE 模型阿里(阿里国际数字商业团队)在 Marco-MoE 系列模型里又放出一个新型号: Marco-Mini-Instruct. 总参数量 17.3B, 激活参数量只有 0.86B (大约5%)! 这个估计CPU都能跑得飞起了. (简单估算下如果使用8bit量化, 然后使用4条DDR4 2400, 大概也能跑30 token/s

72

4

112

karminski-牙医

2026-04-10 06:13来自微博网页版

各位老铁在使用 AI 的过程中为了省 Token 试过这样的用法吗? 先用性能比较强的模型制作 Plan, 然后用 Token 比较便宜的模型执行 Plan 来写代码? Anthropic 刚又把这个方法更进了一步, 直接让 claude-sonnet(性价比模型)执行, 无论是写代码还是使用 SKILL 都是这些模型自己执行的, 然后当这些模型自己

70

10

142

karminski-牙医

2026-04-10 04:09来自微博网页版

6666666//@魔法师蛋小丁:[点赞]这套感觉更适合封装成带脚本的skill，再加上截图能力就全了。

从ai agent火起来之后，我就一直想试着让LLM去帮我画CAD。尤其是蛋老师的fusion360 插件证明模型本身是有这个能力的。折腾挺久，今天终于算是有一个可以看的demo。我选择的路线是 OCP 这一路的python 生产系，逻辑基本是：LLM很会写代码。有一整套用 python 来画cad 的路数： cadquery build123d 这

78

4

47

karminski-牙医

2026-04-10 04:07来自微博网页版

看架势应该是还有其它模型要发布的, 这个spark不太够看 //@高飞:昨天还刷了一轮跳去Meta研究员的X，沉默了蛮久，今天再看都出来透口气了 http://t.cn/AXMGQmo8

不是牛油果是缪斯! Meta刚刚发布了新模型! Meta 刚刚终于发布了他们继Llama4后的首个大模型 Muse Spark! (我不确定到底应不应该翻译成缪斯哈) 这是一个原生多模态推理模型, 支持文本+图片输入. 从性能上看, 目前这个模型并不是 SOTA 级别的, 官方放出的分数表格很鸡贼, 我给大家画了一下哪个是最高的

1

0

7

karminski-牙医

2026-04-10 04:02来自微博网页版

来个小投票，大家还在用龙虾吗？ #HOW I AI# http://t.cn/AXMcTDZd

5

11

577

karminski-牙医

2026-04-09 19:46来自微博网页版

1T 的 TF卡价格堪比几年前低点买二手2280NVMe了，我哭死[捂嘴哭]

这就是google论文的实力吗，果然是啥比公司，幽默，给闪迪整新高了[doge]

6

5

22

karminski-牙医

2026-04-09 19:25来自微博网页版

回复@anlee1:前端测试还行，我的另外几个测试都要API接入框架，只有聊天框会要了我的命（我要复制50*3+300*3=1050次）//@anlee1:fb和ⅰns账号很难？

不是牛油果是缪斯! Meta刚刚发布了新模型! Meta 刚刚终于发布了他们继Llama4后的首个大模型 Muse Spark! (我不确定到底应不应该翻译成缪斯哈) 这是一个原生多模态推理模型, 支持文本+图片输入. 从性能上看, 目前这个模型并不是 SOTA 级别的, 官方放出的分数表格很鸡贼, 我给大家画了一下哪个是最高的

0

3

7