12333社保查询网

手机社保查询　|　加入收藏

首页 > 综合资讯 > 科学 >

OpenAI又指控DeepSeek“抄袭”？没活了别硬蹭！

12333社保查询网www.sz12333.net.cn 2026-02-15来源：人力资源和社会保障局

　　本文仅在今日头条发布，谢绝转载

　　文 | 段小草（自由撰稿人）

　　起猛了，我都以为自己看花了，都一年过去了，OpenAI咋还在纠结蒸馏的事情啊。你要真有证据，拿出来啊，DeepSeek R1 发布都整整一年了，咋还在蹭 DeepSeek 流量啊。

　　这几天，路透社爆出来一份OpenAI递交给美国众议院“中国问题特别委员会”的备忘录，内容还是那点陈词滥调：指控中国AI公司DeepSeek通过“蒸馏”技术，“搭便车”窃取了OpenAI和其他美国前沿实验室的模型能力。

　　通篇备忘录看下来，技术细节没多少，倒是“国家安全风险”、“系统性搭便车”、“剥离安全护栏”这类帽子扣得飞起。

　　这套操作，熟悉美国政治的人都懂，无非是把一个商业竞争问题，包装成一个政治和安全问题，然后去国会山要资源、要政策、要对竞争对手的封锁。

　　这件事从2025年初DeepSeek发布R1模型开始，就断断续续地被拿出来炒作。

　　时隔一年多，在DeepSeek已经把模型、代码、论文全部开源，甚至登上了《自然》杂志封面的今天，OpenAI还在用同样的说辞去游说国会，只能说明一个问题：在技术和产品上打不过，就开始玩盘外招了。

　　这已经不是简单的商业竞争，这是典型的认知作战。OpenAI试图利用信息差，把一个中性的技术术语“蒸馏”，污名化为“盗窃”。

　　但凡对大模型技术有点常识的人，都知道这套指控有多么站不住脚。

OpenAI故意混淆“蒸馏”的含义，这是典型的双重标准

　　首先要搞清楚一个基本的技术事实：“蒸馏”（Distillation）到底是什么？

　　“知识蒸馏”这个概念，最早由Hinton等人在2015年提出，是机器学习领域一个再常规不过的技术。它的核心思想是，用一个更大、更强的“教师模型”的输出来训练一个更小、更轻量的“学生模型”，让学生模型能够以更低的成本，学到教师模型的部分能力。这是一种被广泛用于模型压缩和性能优化的技术手段，在学术界和工业界都属于常规操作。

　　讽刺的是，OpenAI自己就是“蒸馏”技术的大力倡导者和实践者。翻开OpenAI自己的API官方文档，你会看到一整节教程，手把手教开发者如何使用GPT-4o这类强模型的输出来构造数据集，对自己的小模型进行微调（fine-tuning）。在OpenAI的语境里，当用户花钱调用它的API，去优化自己的小模型时，这叫“赋能开发者生态”、“加速AI创新”。

　　可一旦有公司，尤其是来自中国的公司，被“怀疑”可能用了类似的方法，这个词的性质就瞬间变了。在递交给国会的备忘录里，“蒸馏”就成了“复制能力”、“剥离安全护栏”、“IP盗窃”、“对美国数十亿美元研发投入的系统性风险”。

　　同一个技术词汇，在开发者文档里是创新工具，在政治备忘录里就成了弥天大罪。这种根据对象和场合，灵活切换词汇定义和道德标准的操作，不是蠢，就是坏。

　　对于一家自诩为领导全球AI发展的公司而言，这种行为无疑是后者。

　　这里有两个问题，第一，如果模型输出中拿不到概率分布的 soft lable，这种学习方式还能否称之为严格意义的“蒸馏”？这充其量算是利用“合成数据”的“黑盒蒸馏”，而不是直接窃取参数的“模型蒸馏”，如果一个中国企业真的有能力直接“窃取”OpenAI的模型，那美国不是更丢人了。

　　所以，OpenAI的真正逻辑在于它的服务条款（ToS）：禁止使用其模型输出来开发“竞争性模型”。

　　那第二个问题就来了，OpenAI如何证明DeepSeek的学习数据来源于自己。毕竟在DeepSeek R1发布时，GPT-4已经发布两年了，这两年ChatGPT污染了全网的数据，甚至有很多数据集专门收集了ChatGPT数据，就算DeepSeek的训练数据中混入了GPT数据，那完全有可能是无意的，甚至还能指责你ChatGPT污染网络语料呢。

　　所以OpenAI现在做的，就是把一个可能存在的“条款违约”问题，无限上纲上线，包装成一个威胁美国国家安全的“技术盗窃”问题。

　　为什么？因为跟国会议员讲复杂的ToS条款，远不如讲一个“中国公司偷我们技术”的故事来得简单、直接、有效。

技术上无法实现的指控：如何“偷”一个根本不存在的东西？

　　至于有人说，DeepSeek R1 “蒸馏”的是 OpenAI o1，那就更不可能了啊。

　　大家都知道 o1 和 R1 是推理模型，在输出回答前会先思考。问题就在于就在于“思维链”。

　　大模型，尤其是推理能力强的模型，其核心价值并不仅仅是给出一个最终答案，更在于它得出答案的那个详细、多步骤的思考过程。对于训练一个推理模型而言，获取高质量的思维链数据，远比获取最终答案重要得多。

　　现在，我们来看看OpenAI和DeepSeek在思维链上的做法。

　　OpenAI的o1系列模型，作为其推理能力的旗舰产品，其API输出是经过“处理”的。它在内部会生成大量的“推理token”来进行思考，但这些最关键的思维过程，是隐藏起来不给用户的。用户最终看到的，只是一个相对简洁的答案或者摘要。开发者不仅要为这些看不见的“隐藏推理”付费，而且完全无法得知模型到底是怎么想的，更别提利用这些思维链来做二次训练或模型Debug了。

　　反观DeepSeek R1，它从一开始就把思维链的透明性作为核心卖点。当用户调用R1的API时，模型会大大方方地将完整的思考过程，用...标签包裹起来，全部返回给用户。开发者可以清晰地看到模型是如何一步步进行假设、推理、修正，并最终得出答案的。

　　现在问题来了：既然OpenAI的o1模型把最核心的思维链数据给隐藏了，那么请问，DeepSeek要如何通过调用API，去“蒸馏”或者说“偷盗”一个根本无法获取的数据呢？

　　难道DeepSeek掌握了什么黑魔法，可以凭空还原出OpenAI服务器里那些被隐藏的推理过程吗？这在技术上是讲不通的。没有高质量的思维链数据，就不可能训练出R1这样具备强大推理能力的模型。

　　更有意思的是，连OpenAI自家的研究主管Mark Chen都曾公开承认：“DeepSeek的研究论文表明，他们独立地发现了OpenAI在实现o1过程中的核心思想。”

　　这句话，几乎是从内部瓦解了“盗窃论”的根基。如果核心思想是独立发现的，那又何来“搭便车”一说？

真正的战场：开源对决闭源，开放颠覆垄断

　　把技术细节掰扯清楚之后，我们就能看到这场争端的本质。这根本不是什么“蒸馏”之争，而是两种发展路线、两种商业模式、两种意识形态的根本冲突。

　　一边，是以OpenAI为代表的闭源、高成本、API即服务的模式。它们投入数百亿美元构建庞大的算力集群和数据壁垒，将最前沿的模型封装在黑箱里，通过按token计费的API向世界提供“智能”。它的核心是构建技术护城河，维护其垄断地位，确保自己是唯一的“智能源头”。在这种模式下，任何试图通过其服务来构建独立能力的尝试，都会被视为对其商业根基的威胁。

　　另一边，是以DeepSeek为代表的彻底开源模式。DeepSeek V3和R1系列，不仅开源了模型权重，还通过《自然》杂志的封面论文，详细公开了其训练流程，包括核心的GRPO强化学习算法、奖励函数设计、超参数设置等等。更重要的是，这一切都遵循着几乎没有限制的MIT许可证。

　　这意味着什么？这意味着DeepSeek不仅给了全世界一条鱼（高性能模型），还把钓鱼的方法（训练pipeline）也公之于众。任何拥有足够算力资源的团队，理论上都可以根据其公开的信息，复现出类似水平的模型。

　　这才是让OpenAI真正恐慌的地方。DeepSeek用行动证明了，通往顶尖AI能力的道路不止一条，不一定非要依赖OpenAI的黑箱API。通过算法和工程上的创新，用相对低得多的成本，同样可以达到世界一流水平，并且还能将成果与全世界共享。

　　当一个来自中国的开源模型，其性能比肩甚至超越了美国最顶尖的闭源模型，并且以一种极其开放的姿态拥抱全球开发者时，美国政府又能如何封禁呢？你可以不让你的海军用，可以不让你的政府雇员用，但你无法阻止全球数以万计的研究员、工程师和爱好者在自己的服务器和PC上下载、运行、研究和改进它。

　　这彻底动摇了OpenAI试图建立的“AI基础设施”的垄断叙事。

　　当全世界的开发者发现，他们可以拥有一个性能同样强大、成本更低、完全透明、不受制于人的替代品时，OpenAI的护城河就决堤了。

　　所以，现在很多海外的AI研究者把DeepSeek、把中国的开源企业称为“真正的OpenAI”。因为今天的OpenAI，早已背离了其“开放”的初衷，变成了一家封闭、保守、甚至开始利用政治手段打压竞争对手的巨头。

被当成工具的DeepSeek：美国科技焦虑的又一个“华为”

　　当技术上站不住脚，商业上又感到威胁时，诉诸政治就成了最便捷的选择。

　　OpenAI向国会提交备忘录，绝不是为了进行一场严肃的技术讨论，而是为了塑造一个“敌人”。DeepSeek，就成了这个“方便的敌人”。

　　在这套叙事里，DeepSeek被贴上了各种标签：“国家补贴”、“搭美国研发便车”、“构成国家安全威胁”。这些标签对于美国政客来说，简单易懂，极具煽动性。其目的，就是在美国国内制造一种“中国AI威胁论”的恐慌氛围。

　　有了这种氛围，OpenAI再向国会提要求就顺理成章了：我们需要更多的政府资金支持（比如那个千亿美金的Stargate项目），我们需要更严格的技术出口管制来限制中国获取先进芯片，我们需要更严密的API访问监控来防止“数据外流”。

　　看明白了吗？DeepSeek本身做了什么，技术细节如何，已经不重要了。它被抽象成了一个符号，一个用来吓唬国会、争取资源的工具。特朗普将其称为“一记响亮的警钟”，美国海军发邮件禁止使用，白宫官员暗示其构成“盗窃”，这一切都是在为一个更大的政治议程服务。

　　这套剧本我们太熟悉了当在某个科技领域感到领先地位受到挑战时，就开始动用非市场手段，用国家安全的大棒来维护自己的技术霸权。

　　只是这一次，他们面对的是开源。一种去中心化的、无国界的、野火烧不尽的技术传播模式。

　　说到底，OpenAI的这套指控，就像一个武林盟主，发现一个后起之秀用一种自己没见过的、但效率极高的武功路数打败了自己，第一反应不是钻研武学，而是指责对方“偷学”了自家内功心法，并号召整个武林对其进行封杀。

　　这种行为，不体面，也没用。

　　AI的发展浪潮是挡不住的。一个开放、透明、乐于分享的生态，终将比一个封闭、垄断、处处设防的体系更具生命力。

　　DeepSeek做对了什么？它做对了开源，做对了透明，做对了把最核心的思考过程展示给全世界。

　　至于OpenAI，还是少花点心思在写备忘录和游说国会上吧。有这个功夫，不如先把自家的训练数据来源说清楚，先把那些没打完的版权官司理理顺。

　　没活了可以咬个打火机，真的别硬蹭DeepSeek流量了。

本文标题：OpenAI又指控DeepSeek“抄袭”？没活了别硬蹭！本文网址：https://www.sz12333.net.cn/zhzx/kexue/73226.html　编辑：12333社保查询网

12333社保查询网

OpenAI又指控DeepSeek“抄袭”？没活了别硬蹭！

相关信息

推荐