数据库开放外网访问, DeepSeek AI数据库泄露
DeepSeek AI数据库泄露:超百万条日志包含聊天记录、密钥、后端详细信息和其他高度敏感的信息被泄露
Wiz Research发现了一个属于DeepSeek的可公开访问的ClickHouse数据库,该数据库允许完全控制数据库操作,包括访问内部数据的权限。此次暴露包含超过百万条日志流,其中包含聊天记录、密钥、后端详细信息和其他高度敏感的信息。Wiz Research团队立即向DeepSeek披露了这个问题,DeepSeek随后迅速修复了该安全漏洞。
在DeepSeek在AI领域声名鹊起之际,Wiz Research团队着手评估其外部安全状况,寻找潜在的漏洞。
很快,我们就发现了一个与DeepSeek关联的、可公开访问的ClickHouse数据库,完全开放且无需认证,暴露了敏感数据。该数据库托管在oauth2callback.deepseek.com:9000和dev.deepseek.com:9000。
这个数据库包含大量聊天记录、后端数据和敏感信息,包括日志流、API密钥和运行情况。
更严重的是,这种暴露允许完全控制数据库,并可能在DeepSeek服务器上进行权限提升(Privilege escalation 是指利用操作系统或应用软件中的程序错误、设计缺陷或配置疏忽来获取对应用程序或用户来说受保护资源的高级访问权限),并且没有任何认证机和防御措施。
暴露过程分析
我们的侦查工作从评估DeepSeek的公开可访问域名开始。通过对外部攻击面的扫描(使用被动和主动的子域名发现技术)我们识别出约30个面向互联网的子域名。大多数看起来比较普通,托管着聊天机器人界面、状态页面和API文档等内容——这些最初都没有显示出高风险暴露的迹象。
然而,当我们将搜索范围扩展到标准HTTP端口(80/443)之外时,我们发现了与以下主机关联的两个异常开放端口(8123和9000):
http://oauth2callback.deepseek.com:8123
http://dev.deepseek.com:8123
http://oauth2callback.deepseek.com:9000
http://dev.deepseek.com:9000
进一步调查发现,这些端口连着一个公开暴露的ClickHouse数据库,完全不需要任何认证就能访问——立即引起了警觉。
ClickHouse是一个开源的列式数据库管理系统,专为大型数据集的快速分析查询而设计。它由Yandex开发,广泛用于实时数据处理、日志存储和大数据分析,这表明这样的暴露是一个非常重要且敏感的发现。
通过利用ClickHouse的HTTP接口,我们访问了/play路径,这允许通过浏览器直接执行任意SQL查询。运行简单的SHOW TABLES;查询就返回了完整的可访问数据集列表。
在这些表中,log_stream表特别引人注意,它包含了大量带有高度敏感数据的日志。
log_stream表包含超过100万条日志条目,具有以下特别敏感的列:
!()[/download/81OLScreenshot_select-area_20250206094349.jpg]
timestamp – 从2025年1月6日开始的日志
span_name – 涉及各种内部DeepSeek API端点
string.values – 明文日志,包括聊天记录、API密钥、后端详细信息和运营元数据
_service – 指示生成日志的DeepSeek服务
_source – 暴露日志请求的来源,包含聊天记录、API密钥、目录结构和聊天机器人元数据日志
这种级别的访问权限对DeepSeek自身的安全性和其最终用户都构成了严重风险。攻击者不仅可以获取敏感日志和实际的明文聊天消息,还可能根据其ClickHouse配置,使用类似SELECT * FROM file(‘filename’)这样的查询来窃取明文密码和本地文件以及专有信息。
(注:为了维护研究的道德规范,我们没有执行枚举以外的侵入性查询。)
关键启示
在缺乏相应安全保障的情况下快速应用AI服务本身就存在风险。这次暴露突显了一个事实:AI应用程序的直接安全风险来自于支持这些应用的基础设施和工具。
虽然人们对人工智能安全的关注主要集中在未来,但真正的危险往往来自于基本风险,如数据库的意外外部暴露。这些风险是安全的基本要素,仍应是安全团队的重中之重。
随着越来越多的初创企业和供应商急于采用人工智能工具和服务,我们必须记住,这样就是将敏感数据委托给这些公司。 快速采用往往会导致忽视安全性,但保护客户数据必须始终是重中之重。安全团队要与人工智能工程师密切合作,确保对所使用的架构、工具和模型的可见性至关重要,这样我们才能保护数据并防止数据泄露。
结论
世界上从未有过一种技术能像人工智能这样被迅速采用。许多人工智能公司已经迅速成长为关键基础设施供应商,但却没有通常伴随这种广泛采用的安全框架。随着人工智能与全球企业的深度融合,业界必须认识到处理敏感数据的风险,并实施与公共云提供商和主要基础设施提供商同等的安全标准。