早上deepseek在北美的排行榜来到第一,整个朋友圈被刷屏了,整体从技术和开源角度谈下deepseek各种影响:
1、deepseek对开源领域的贡献跟llama是一个量级的,为整个开源领域提供了一个走向AGI的路径:通过RL产生数据结合少量的冷启动人类数据SFT搞出AGI雏形,相当于将大模型带入一个新的阶段,也就是首次大模型的训练不完全依赖人类数据了而是部分依赖AI来生产数据。
2、deepseek-r1创新是post-training阶段进行的,也在这阶段段用了rl产生的数据进行强化学习,也算是给行业提供了一个范例。
3、deepseek-v3版本创新了fp8结合fp16大规模实践的商业化用例,节省了完全使用fp16的更大的计算成本,这是其成本优势的特别大的贡献来源。
4、deepseek也是第一个免费让大家体验到o1级的深度思考,几乎没有任何门槛的一个大模型应用,其他的虽然也有但或多或少有门槛,要么是网络访问门槛要么是付费门槛,尤其是对中国的用户。
5、deepseek的蒸馏模型为大模型走向c/s架构提供了一个思路,就是可以用deepseek蒸馏数据然后微调qwen-7b等各种小参数模型放在端侧,应对各种场景,这个对智能硬件行业发展有极大意义,未来或许会形成计算机发展早期的类c/s架构:云端大模型、端侧定期用微调升级的小参数模型(类比以前的软件升级)
总结:
deepseek为开源发展做出了巨大贡献,也是中国团队第一次为开源领域做出这么大的贡献,相信2025年会有更多的中国团队为开源领域做出努力和贡献,创新是AI领域永不衰退的基调,也是这一波中国的AI从业者一直在努力的,身边的大多数AI创业者都很务实。
https://x.com/aigclink/status/1883690356451250367