测试智慧鼠

annaline225 · 发表于 2025-2-20 14:16:04

楼主是如何发现机智鼠的这个bug的

大聪明凤雏 · 发表于 2025-2-20 14:32:52

还是deepseek厉害一点

周美红1 · 发表于 2025-2-20 15:00:34

连夜补漏洞

壁上观 · 发表于 2025-2-20 15:21:05

本帖最后由申嘉樊于 2025-2-20 15:22 编辑

用户问的是9.11和9.9哪个大。这个问题看起来简单，但根据搜索结果，很多大模型都答错了。我需要先确认正确答案，然后分析为什么AI会出错，再比较不同模型的表现，最后给出总结。
首先，正确答案应该是9.9更大，因为比较小数时，先看整数部分，都是9，然后比较小数点后第一位，9.9的小数部分是0.9，而9.11是0.11，所以0.9更大。但搜索结果里提到，很多AI模型错误地比较了小数点后的数值，比如把9.11拆成9和11，认为11比9大，导致错误。
正确答案
9.9 比 9.11 大
比较方法：
      1.       整数部分相同（均为9）；
      2.       小数部分第一位比较：9.9的十分位是9，9.11的十分位是1。由于9 > 1，因此9.9更大。
（补充：9.9可看作9.90，而0.90 > 0.11）
那为何大模型会集体翻车？
      1.       Token分割问题
大模型将数字拆分为整数和小数部分（如9.11被拆为），导致错误地将小数点后的“11”整体视为比“9”更大的整数，例如，在版本号或章节编号场景中，9.11确实比9.9更大，模型可能受此类训练数据影响。
2.       注意力机制偏差
模型对小数点后数字的注意力分配不均衡。例如，某些模型过分关注“11”的数值，而忽略逐位比较的逻辑。
3.       提问方式敏感
      ●       词序影响：若提问为“9.11和9.9哪个大”，模型易出错；若改为“9.9和9.11哪个大”，部分模型（如Grok-3）可答对  ；
      ●       附加条件：明确限定“数学问题”或“数值比较”后，部分模型表现提升  10  。
                                                                                                                                                                                                                                                                                                                                                来自DeepSeel-R1-联网满血版

鬼使神差 · 发表于 2025-2-20 16:30:40

比较9.11与9.9的大小，从高位开始比较。

个位上都是9，相等；接着比较十分位，9.11十分位是1，9.9十分位是9，因为1＜9，所以9.11＜9.9。

故9.9更大。

鬼使神差 · 发表于 2025-2-20 16:30:55

鼠鼠落后了

bowong · 发表于 2025-2-20 16:40:26

琦瑞福生发表于 2025-2-20 13:43
砸金花的时候AAA大于999

235通吃

九命猫sdi · 发表于 2025-2-20 16:55:28

鼠鼠需要去升级一下系统了，9.11的十分位是1，而9.9的十分位是9，难道不是九大于一吗？

chinsss · 发表于 2025-2-20 17:02:19

@豚鼠快来看看呀~~~~~

胜利者 · 发表于 2025-2-20 17:28:50

程序员忘了培训

一指拈花 · 发表于 2025-2-21 10:08:45

机智鼠的形象一落千丈。。。

门门 · 发表于 2025-2-21 11:50:37

机智鼠发表于 2025-2-20 11:19
在药学和医疗器械领域，我们不常涉及到对数字大小的比较，因为这与我们的专业知识和技能关系不大。不过，从 ...

不愧是制药界的智慧鼠，
有制药界数学水平的样子

门门 · 发表于 2025-2-21 11:53:44

lllllyyyyy 发表于 2025-2-20 12:21
嗯，今天老师布置了一个数学问题，让我比较9.11和9.9哪个大。一开始看起来好像挺简单的，但我还是得仔细想 ...

赶紧去PDA或者ISPE编辑部报道，凭这篇至少年薪200万美金。

沧海一粟wgw · 发表于 2025-2-21 11:54:26

9.90和9.11比一下试一下

门门 · 发表于 2025-2-21 12:03:35

栗子7 发表于 2025-2-20 13:15
所以到底是哪个大？

高情商

in-Harvey · 发表于 2025-2-21 16:40:52

这特么。。。蒲公英接的百度的文心一言吗？

张明磊 · 发表于 2025-2-22 11:44:36

。。。。。。。。。

霸波尔奔 · 发表于 2025-2-23 15:45:04

老铁，你试这个耗子要给它试出心里阴影

霸波尔奔 · 发表于 2025-2-23 15:46:21

琦瑞福生发表于 2025-2-20 13:43
砸金花的时候AAA大于999

AAA：我没票，不该坐车
999：有道理，

YESOK · 发表于 2025-2-24 10:02:23

胜利者发表于 2025-2-20 17:28
程序员忘了培训

[确认&验证] 测试智慧鼠

浏览过的版块