Published

- 5 min read

别再认DeepSeek当爹了

Thumbnail

不要对号入座!

别再认DeepSeek当爹了

韭菜味儿溢出来了

首先,我从deepseek-v2开始认识深度求索这家公司。彼时的deepseek以量大管饱闻名,之后的deepseek-v2.5 和 deepseek-v3 发布我也有第一时间体验,确实能感到deepseek从能用变得好用,也为深度求索能从一而终坚持开源感到由衷地钦佩。deepseek-r1刚出两天我就在博客里分享了它跑livebench题库的得分,而不是在一周之后的爆火才姗姗注意到这个强悍的模型。

说这么多,我是想说,如果你是从deepseek-r1才开始跟风关注深度求索,并且对大语言模型没有基本的了解,就多看多问少评价

描述内容

deepseek是万万超过不得的

上面这个评论源自于视频“阿里云发布自主开发AI模型 据称超越DeepSeek”本来国内出现新的,高性能的大模型是好事,评论区却出现了很多跟风孝子的招笑言论。

描述内容

神tm偏偏在deepseek出了之后发。通义千问一直在不断地开源新模型,怎么deepseek发布模型后人家就得避嫌???更可笑的是,人家发布的Qwen2.5-max是对标deepseek-v3,视频内对比的也是v3,跟你r1没半毛钱关系,而deepseek-v3是去年七月份发布的,你来句偏偏在人家之后发真是令人忍俊不禁。

描述内容 描述内容

为什么跟v3比不和r1比。这么说吧,要是Qwen2.5-max真能和r1比,现在通义千问的地位将远超OpenAI、Anthropic、Google、深度求索的总和。

这就好比,你跟心算冠军说:“你为什么和其他人比心算,不和量子计算机比?”😅😅😅

deepseek-r1是CoT模型,而Qwen2.5-max是普通大语言模型。CoT指的就是r1输出的思维链,这是一种新的模型推理范式。

特性CoT 模型 (Chain-of-Thought)普通模型 (Standard Language Models)
推理方式先生成中间推理步骤,再得出最终答案直接从输入生成输出
步骤多步推理单步生成
复杂问题处理擅长相对较弱
可解释性更好 (因为有中间推理步骤可以追踪)较差

相当多人觉得deepseek-v3比r1差多了,但实际上r1就是基于v3这个普通模型训练而来的CoT模型,在生成质量上有了长足的进步。将普通模型和CoT模型比较本就是不公平的,不了解基础的AI知识,就不要大言不惭嘲讽其他国内的优秀模型。这种“对比”和“嘲讽”毫无意义,纯粹是外行人的无稽之谈。还是先把基础概念搞清楚,再来发表高见吧! 🤡

描述内容

是这样的,即使通义千问是 全球AI模型开源社区主要贡献者,从0.5B到110B参数全覆盖,推出超100个模型变体,涵盖语言、多模态、代码与数学四大领域,创下全球开源模型谱系最完整纪录;全球下载量突破4000万次,衍生模型超7.43万个,覆盖金融、医疗、教育等30万企业场景,被浙江大学、一汽等顶尖机构选为技术基座。不断推动社会进步发展 也撼动不了他是个丢人玩意,让人厌恶的事实。😅

最后

还有一些神人神言实在不想发了,希望deepseek-r1能成为各位使用AI辅助工作学习的起点,也成为各位深入探索AI模型的契机。祝深度求索在新的一年里再接再厉,永葆初心。

真心希望深度求索在舆论上不要成为下一个“华为”。