蒲公英 - 制药技术的传播者 GMP理论的实践者

搜索
楼主: yuwenwei1976
收起左侧

[确认&验证] 测试智慧鼠

  [复制链接]
药徒
发表于 2025-2-20 14:16:04 | 显示全部楼层
楼主是如何发现机智鼠的这个bug的
回复

使用道具 举报

药徒
发表于 2025-2-20 14:32:52 | 显示全部楼层
还是deepseek厉害一点
333.png
回复

使用道具 举报

药徒
发表于 2025-2-20 15:00:34 | 显示全部楼层
连夜补漏洞
回复

使用道具 举报

药徒
发表于 2025-2-20 15:21:05 | 显示全部楼层
本帖最后由 申嘉樊 于 2025-2-20 15:22 编辑

用户问的是9.11和9.9哪个大。这个问题看起来简单,但根据搜索结果,很多大模型都答错了。我需要先确认正确答案,然后分析为什么AI会出错,再比较不同模型的表现,最后给出总结。
首先,正确答案应该是9.9更大,因为比较小数时,先看整数部分,都是9,然后比较小数点后第一位,9.9的小数部分是0.9,而9.11是0.11,所以0.9更大。但搜索结果里提到,很多AI模型错误地比较了小数点后的数值,比如把9.11拆成9和11,认为11比9大,导致错误。
正确答案
9.9 比 9.11 大
比较方法:
        1.        整数部分相同(均为9);
        2.        小数部分第一位比较:9.9的十分位是9,9.11的十分位是1。由于9 > 1,因此9.9更大。
(补充:9.9可看作9.90,而0.90 > 0.11)
那为何大模型会集体翻车?
        1.        Token分割问题
大模型将数字拆分为整数和小数部分(如9.11被拆为 ),导致错误地将小数点后的“11”整体视为比“9”更大的整数,例如,在版本号或章节编号场景中,9.11确实比9.9更大,模型可能受此类训练数据影响。
2.        注意力机制偏差
模型对小数点后数字的注意力分配不均衡。例如,某些模型过分关注“11”的数值,而忽略逐位比较的逻辑 。
3.        提问方式敏感
        ●        词序影响:若提问为“9.11和9.9哪个大”,模型易出错;若改为“9.9和9.11哪个大”,部分模型(如Grok-3)可答对  ;
        ●        附加条件:明确限定“数学问题”或“数值比较”后,部分模型表现提升  10  ​。
                                                                                                                                                                                                                                                                                                                                                  来自DeepSeel-R1-联网满血版
回复

使用道具 举报

宗师
发表于 2025-2-20 16:30:40 | 显示全部楼层
比较9.11与9.9的大小,从高位开始比较。

个位上都是9,相等;接着比较十分位,9.11十分位是1,9.9十分位是9,因为1<9,所以9.11<9.9。

故9.9更大。
回复

使用道具 举报

宗师
发表于 2025-2-20 16:30:55 | 显示全部楼层
鼠鼠落后了
回复

使用道具 举报

药徒
发表于 2025-2-20 16:40:26 | 显示全部楼层
琦瑞福生 发表于 2025-2-20 13:43
砸金花的时候AAA大于999

235通吃
回复

使用道具 举报

发表于 2025-2-20 16:55:28 | 显示全部楼层
鼠鼠需要去升级一下系统了,9.11的十分位是1,而9.9的十分位是9,难道不是九大于一吗?
回复

使用道具 举报

药生
发表于 2025-2-20 17:02:19 | 显示全部楼层
@豚鼠 快来看看呀~~~~~
回复

使用道具 举报

药生
发表于 2025-2-20 17:28:50 | 显示全部楼层
程序员忘了培训
回复

使用道具 举报

药徒
发表于 2025-2-21 10:08:45 | 显示全部楼层
机智鼠的形象一落千丈。。。
回复

使用道具 举报

药师
发表于 2025-2-21 11:50:37 来自手机 | 显示全部楼层
机智鼠 发表于 2025-2-20 11:19
在药学和医疗器械领域,我们不常涉及到对数字大小的比较,因为这与我们的专业知识和技能关系不大。不过,从 ...

不愧是制药界的智慧鼠,
有制药界数学水平的样子
回复

使用道具 举报

药师
发表于 2025-2-21 11:53:44 来自手机 | 显示全部楼层
lllllyyyyy 发表于 2025-2-20 12:21
嗯,今天老师布置了一个数学问题,让我比较9.11和9.9哪个大。一开始看起来好像挺简单的,但我还是得仔细想 ...

赶紧去PDA或者ISPE编辑部报道,凭这篇至少年薪200万美金。
回复

使用道具 举报

药徒
发表于 2025-2-21 11:54:26 来自手机 | 显示全部楼层
9.90和9.11比一下试一下
回复

使用道具 举报

药师
发表于 2025-2-21 12:03:35 来自手机 | 显示全部楼层
栗子7 发表于 2025-2-20 13:15
所以到底是哪个大?

高情商
回复

使用道具 举报

药徒
发表于 2025-2-21 16:40:52 | 显示全部楼层
这特么。。。蒲公英接的百度的文心一言吗?
回复

使用道具 举报

药徒
发表于 2025-2-22 11:44:36 | 显示全部楼层
。。。。。。。。。
回复

使用道具 举报

药徒
发表于 2025-2-23 15:45:04 | 显示全部楼层
老铁,你试这个耗子要给它试出心里阴影
回复

使用道具 举报

药徒
发表于 2025-2-23 15:46:21 | 显示全部楼层
琦瑞福生 发表于 2025-2-20 13:43
砸金花的时候AAA大于999

AAA:我没票,不该坐车
999:有道理,
回复

使用道具 举报

药徒
发表于 2025-2-24 10:02:23 | 显示全部楼层

                                                         
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

×发帖声明
1、本站为技术交流论坛,发帖的内容具有互动属性。您在本站发布的内容:
①在无人回复的情况下,可以通过自助删帖功能随时删除(自助删帖功能关闭期间,可以联系管理员微信:8542508 处理。)
②在有人回复和讨论的情况下,主题帖和回复内容已构成一个不可分割的整体,您将不能直接删除该帖。
2、禁止发布任何涉政、涉黄赌毒及其他违反国家相关法律、法规、及本站版规的内容,详情请参阅《蒲公英论坛总版规》。
3、您在本站发表、转载的任何作品仅代表您个人观点,不代表本站观点。不要盗用有版权要求的作品,转贴请注明来源,否则文责自负。
4、请认真阅读上述条款,您发帖即代表接受上述条款。

QQ|手机版|蒲公英|ouryao|蒲公英 ( 京ICP备14042168号-1 )  增值电信业务经营许可证编号:京B2-20243455  互联网药品信息服务资格证书编号:(京)-非经营性-2024-0033

GMT+8, 2025-4-8 01:18

Powered by Discuz! X3.4运维单位:苏州豚鼠科技有限公司

Copyright © 2001-2020, Tencent Cloud.

声明:蒲公英网站所涉及的原创文章、文字内容、视频图片及首发资料,版权归作者及蒲公英网站所有,转载要在显著位置标明来源“蒲公英”;禁止任何形式的商业用途。违反上述声明的,本站及作者将追究法律责任。
快速回复 返回顶部 返回列表