谷歌新模型真的会Thinking!
2024年年终之前,Google还是放出了一记重炮,前几天发布的Gemini 2.0 Flash只是压过OpenAI的GPT-4o,显得来得太迟,昨天发布的Gemini Flash Thinking(多一个Thinking)就压住了OpenAI的o1,这个后手拳相当厉害,而且对免费用户也开放。
我尝试对比一下Gemini Flash Thinking和不Thinking的Flash,就用一个需要真正推理的问题『请加上恰当的括号让下面的表达式成立 1+2*5+4*5 + 6*7+8*9=479』,不Thinking的Flash当然不行,完全只是一个语言模型,输出很多,只是语义通顺,没有像样的推理,结果也错了;而Thinking版则很快就得到了正确结果,而且CoT过程非常清晰。
对了,Gemini Flash Thinking是暴露CoT的,这又比o1强一截。
对于上面的问题,暴露的CoT可以看到非常有条有理,一步一步推进,就按照这样的节奏:
1. Understanding the Goal
2. Initial Evaluation (Without Parentheses):
3. Identifying Potential Areas for Parentheses:
4. Strategic Placement - First Attempt (Trial and Error Approach):
5. Strategic Placement - Focusing on Increasing Values:
6. A More Significant Shift - Grouping More Terms:
7. Refining the Solution - Backtracking and Adjusting:
8. The Correct Path - Combining Strategies:
9. The Eureka Moment - Focusing on Key Multiplications:
10. The Correct Solution:
总之,Gemini Flash Thinking的确是2024年年底最亮的仔:
- 不比o1低的推理能力
- 免费
- 公开CoT
#人工智能##Gemini#
