中国出了“国运产品”DeepSeek

Feb 20, 2025

∙ Paid

.方舟子.

中国每过一段时间就会出来一款号称“遥遥领先”的产品，给全中国人民打鸡血。从“遥遥领先”的华为手机，到一款号称风靡了全世界的孙悟空电子游戏，号称也是震惊了全世界，但是我从来没有在美国的媒体上看到有关的报道，现在好像也没有消息了。最近，就在春节前夕，又冒出来了一款人工智能产品，是杭州的一家公司研发的，叫DeepSeek（深度求索）。听这个名称就是在模仿谷歌的DeepMind，号称是“国运级”的产品，也就是说中国的“国运”会因此发生了改变，可比“遥遥领先”更吓人了。不过，跟遥遥领先的华为手机、孙悟空网游不一样的是，这个人工智能的产品“深度求索”，并不只是在吓中国人，把外国人也给吓着了。甚至导致华尔街的股市因此震荡，英伟达的股票一天就下降了17%，但是第二天又往上涨了。

英伟达主要做供人工智能使用的高尖端的芯片，现在的人工智能的研发离不开英伟达的芯片。在2022年，拜登政府限制了英伟达的高端芯片出口中国。在这个禁令下来之前，杭州的那家公司就囤了大量的英伟达芯片，据称这个“深度求索”的人工智能模型用的就是两年前囤的英伟达芯片。英伟达的芯片后来又继续研发，比当时更要先进多了。 “深度求索”不仅说是用两年前的英伟达的芯片做的，而且用的量不多，就用了2000块芯片。而那些大型的人工智能模型，像ChatGPT，现在要用1万多块的英伟达最新最尖端的芯片，当然要贵得多。所以“深度求索”的优势就是成本很低，才是CharGPT那种大型模型的十分之一不到。这让华尔街的投资者怀疑其实人工智能用不了那么强的算力，也就是说用不了那么多的那么尖端的芯片。人们因此怀疑英伟达的市值被高估了。

为什么“深度求索”可以用那么少的两年前的英伟达的芯片，做出的结果也能够跟像ChatGPT相提并论，一样的好？这是因为它用了一种叫做“蒸馏”的技术。这是那些资源比较短缺的AI模型用来优化自己的一种技术。让那些大模型输出数据，用它来训练小模型，这样也能够得到跟大模型一样好的结果，在某些方面甚至会更好。打一个比方的话，小模型就像是一个学生，大模型就像一个老师。由老师出大量的习题让学生来做，对学生进行训练，最终能够让学生的能力跟老师一样，甚至在某一些方面可能会超过老师。

方舟子文章

中国出了“国运产品”DeepSeek

This post is for paid subscribers