中国出了“国运产品”DeepSeek
.方舟子.
中国每过一段时间就会出来一款号称“遥遥领先”的产品,给全中国人民打鸡血。从“遥遥领先”的华为手机,到一款号称风靡了全世界的孙悟空电子游戏,号称也是震惊了全世界,但是我从来没有在美国的媒体上看到有关的报道,现在好像也没有消息了。最近,就在春节前夕,又冒出来了一款人工智能产品,是杭州的一家公司研发的, 叫DeepSeek(深度求索)。 听这个名称就是在模仿谷歌的DeepMind,号称是“国运级”的产品 ,也就是说中国的“国运”会因此发生了改变 ,可比“遥遥领先”更吓人了。不过, 跟遥遥领先的华为手机、孙悟空网游不一样的是, 这个人工智能的产品“深度求索”,并不只是在吓中国人,把外国人也给吓着了。甚至导致华尔街的股市因此震荡,英伟达的股票一天就下降了17%,但是第二天又往上涨了。
英伟达主要做供人工智能使用的高尖端的芯片,现在的人工智能的研发离不开英伟达的芯片。在2022年,拜登政府限制了英伟达的高端芯片出口中国。在这个禁令下来之前, 杭州的那家公司就囤了大量的英伟达芯片, 据称这个“深度求索”的人工智能模型用的就是两年前囤的英伟达芯片。英伟达的芯片后来又继续研发, 比当时更要先进多了。 “深度求索”不仅说是用两年前的英伟达的芯片做的,而且用的量不多,就用了2000块芯片。而那些大型的人工智能模型,像ChatGPT, 现在要用1万多块的英伟达最新最尖端的芯片, 当然要贵得多。 所以“深度求索”的优势就是成本很低 ,才是CharGPT那种大型模型的十分之一不到。这让华尔街的投资者怀疑其实人工智能用不了那么强的算力,也就是说用不了那么多的那么尖端的芯片。人们因此怀疑英伟达的市值被高估了。
为什么“深度求索”可以用那么少的两年前的英伟达的芯片,做出的结果也能够跟像ChatGPT相提并论,一样的好?这是因为它用了一种叫做“蒸馏”的技术 。这是那些资源比较短缺的AI模型用来优化自己的一种技术。让那些大模型输出数据,用它来训练小模型, 这样也能够得到跟大模型一样好的结果,在某些方面甚至会更好。打一个比方的话,小模型就像是一个学生,大模型就像一个老师。由老师出大量的习题让学生来做,对学生进行训练, 最终能够让学生的能力跟老师一样,甚至在某一些方面可能会超过老师。