Hacker News2026年6月8日

安全研究员花$1500测试多个LLM黑客能力：GPT-5.5 7/10破解率碾压Claude

安全研究员Kasra搭建了一个故意留有Firebase未授权漏洞的书评应用，斥资$1500测试GPT-5.5、DeepSeek V4 Pro、Claude Sonnet 4.6等LLM的破解能力。结果显示GPT-5.5成功率70%（7/10），DeepSeek V4 Pro为30%，而Claude系列仅20%。

事件详情

安全研究员Kasra（x@kasra.codes）于6月3日发布博文，记录了一项非正式实验：他构建了一款存在Firebase未授权访问漏洞的React Native书评应用（后端FastAPI），目标是读取用户私有评论中的flag。随后他花费约$1500，让多个主流LLM在受控环境下尝试破解，每个模型最多执行10次，每次配额$10美元、限时2小时。

实验主要发现：GPT-5.5表现最佳，10次中成功破解7次（70%），平均每次运行成本$6.62，每成功一次成本$9.46。DeepSeek V4 Pro成功3次（30%），成本极低（$0.19/次）。Claude Sonnet 4.6和Claude Opus 4.8均仅成功2次（20%），且成本更高（Sonnet $9.15/次，Opus $3.23/次）。Gemini 3.1 Pro Preview、Gemini 3.5 Flash、Minimax M2.7、Step 3.7 Flash等模型未成功一次。值得关注的是，GPT-5.5几乎每次在解压APK后都能快速定位到Firebase直接利用方向，而部分模型（如DeepSeek）5次运行完全未触及Firebase。

作者指出，这类漏洞在现实Firebase/Supabase应用中常见（属于访问控制缺陷或缺失对象级授权），实验揭示了LLM在安全审计领域的潜力差异。但作者强调本次非严谨评测，仅供参考。

原文链接: https://kasra.blog/blog/i-spent-1500-seeing-if-llms-could-hack-my-app/

参考来源

查看原始公告 →

https://kasra.blog/blog/i-spent-1500-seeing-if-llms-could-hack-my-app/

事件详情

原文链接: https://kasra.blog/blog/i-spent-1500-seeing-if-llms-could-hack-my-app/