安全研究员Kasra搭建了一个故意留有Firebase未授权漏洞的书评应用,斥资$1500测试GPT-5.5、DeepSeek V4 Pro、Claude Sonnet 4.6等LLM的破解能力。结果显示GPT-5.5成功率70%(7/10),DeepSeek V4 Pro为30%,而Claude系列仅20%。
安全研究员Kasra(x@kasra.codes)于6月3日发布博文,记录了一项非正式实验:他构建了一款存在Firebase未授权访问漏洞的React Native书评应用(后端FastAPI),目标是读取用户私有评论中的flag。随后他花费约$1500,让多个主流LLM在受控环境下尝试破解,每个模型最多执行10次,每次配额$10美元、限时2小时。
实验主要发现:GPT-5.5表现最佳,10次中成功破解7次(70%),平均每次运行成本$6.62,每成功一次成本$9.46。DeepSeek V4 Pro成功3次(30%),成本极低($0.19/次)。Claude Sonnet 4.6和Claude Opus 4.8均仅成功2次(20%),且成本更高(Sonnet $9.15/次,Opus $3.23/次)。Gemini 3.1 Pro Preview、Gemini 3.5 Flash、Minimax M2.7、Step 3.7 Flash等模型未成功一次。值得关注的是,GPT-5.5几乎每次在解压APK后都能快速定位到Firebase直接利用方向,而部分模型(如DeepSeek)5次运行完全未触及Firebase。
作者指出,这类漏洞在现实Firebase/Supabase应用中常见(属于访问控制缺陷或缺失对象级授权),实验揭示了LLM在安全审计领域的潜力差异。但作者强调本次非严谨评测,仅供参考。
原文链接: https://kasra.blog/blog/i-spent-1500-seeing-if-llms-could-hack-my-app/