军事论坛 | 时事论坛 | 汽车论坛 | 摄影论坛 |
股票论坛 | 游戏论坛 | 音乐论坛 | |
万维读者网>世界军事论坛>帖子 |
Deepseek的追赶速度有多快 |
送交者: 煎饼 2025-01-22 21:31:00 于 [世界军事论坛] |
一家中国初创公司刚刚向每家美国科技公司展示了它在 AI 领域的追赶速度有多快•6 小时• 5 分钟阅读
唐纳德·特朗普(Donald Trump)在他的新总统任期开始时宣布美国必须领导世界。他刚刚收到了来自中国一个人工智能破解团队的警告,该团队准备表明美国的技术霸权并非理所当然。 认识 DeepSeek,这是一家从一家成立十年的对冲基金中分拆出来的中国初创公司,该公司利用人工智能和算法计算精明的交易。它的最新版本是在特朗普的就职典礼当天发布的,这让许多美国顶级行业研究人员感到震惊。 在周一发布的一篇论文中,DeepSeek 推出了一款名为 R1 的新旗舰 AI 模型,该模型展示了一个新的“推理”水平。为什么它会给美国的 AI 专家留下如此深刻的印象很重要。 硅谷一些资源最丰富的人工智能实验室越来越多地转向“推理”作为研究前沿,可以将他们的技术从学生般的智力水平发展为完全使人类智力黯然失色的水平。 为了实现这一目标,OpenAI、Google、Anthropic 和其他公司都专注于确保模型在响应用户查询之前花费更多时间思考。这是一个昂贵、密集的过程,对下面的计算能力要求很高。 提醒一下,OpenAI 在 9 月首次发布后,在 12 月全面发布了 o1(“旨在在响应之前花更多时间思考的模型”),受到了热烈的欢迎。DeepSeek 的 R1 展示了它可以多快地缩小差距。 DeepSeek 缩小差距R1 到底是做什么的?首先,DeepSeek 表示 R1 实现了“在数学、代码和推理任务方面与 OpenAI o1 相当的性能”。 其研究论文称,这要归功于“纯强化学习”,英伟达高级研究经理吉姆·范 (Jim Fan) 表示,这项技术让人想起让谷歌 DeepMind 的 AlphaZero 从头开始成为围棋和国际象棋等游戏大师背后的秘密,“无需先模仿人类大师的动作”。他在 X 上写道,这是“论文中最重要的收获”。 2023 年推出的 DeepSeek 在其论文中表示,它这样做是因为其目标是探索 AI 的潜力,以“在没有任何监督数据的情况下开发推理能力”。这是 AI 研究人员常用的技术。该公司还表示,名为 R1-Zero 的 R1 的早期版本给了他们一个“顿悟时刻”,在这个版本中,人工智能“通过重新评估其初始方法,学会为问题分配更多的思考时间”。 最终结果提供了沃顿商学院教授 Ethan Mollick 所描述的 R1 的响应,读起来“就像人类大声思考”。 值得注意的是,在 OpenAI 等公司发布类似能力的模型时发布的说明中,很难获得这种程度的人工智能开发透明度。 艾伦人工智能研究所的研究科学家内森·兰伯特 (Nathan Lambert) 在 Substack 上表示,R1 的论文“是推理模型研究不确定性的一个主要转折点”,因为“到目前为止,推理模型一直是工业研究的一个主要领域,还没有明确的开创性论文。 秉承开放精神,DeepSeek 的 R1 模型已经完全开源,并获得了 MIT 许可证(软件许可的行业标准)。 R1 的这些元素共同为陷入与中国(特朗普的主要地缘政治竞争对手)的 AI 军备竞赛的美国玩家提供了复杂性,原因有几个。 首先,它表明中国可以与业内一些顶级 AI 模型相媲美,并跟上硅谷的前沿发展步伐。 其次,开源高度先进的 AI 也可能挑战那些寻求通过出售其技术来赚取巨额利润的公司。 例如,OpenAI 在 12 月推出了 ChatGPT Pro 计划,每月收费 200 美元。它的卖点是它包括对当时最智能的模型 o1 的“无限制访问”。如果开源模型免费提供类似的功能,那么理论上购买昂贵的付费订阅的动力可能会减少。 Nvidia 的 Fan 在 X 上这样描述情况:“我们生活在一个非美国公司保持 OpenAI 最初使命的时间线中——真正开放的前沿研究,赋予所有人权力。 DeepSeek 之前已经展示了推理技术。11 月,该公司发布了“R1-lite-preview”,展示了其“实时透明的思维过程”。12 月,它发布了一个名为 V3 的模型,为未来的模型推理提供了新的、更大的基础。 这是美国研究人员看到最新型号 R1 有有意义的改进的一个重要原因。 科技社区热门 YouTube 频道背后的软件开发人员 Theo Browne 表示,“新的 DeepSeek R1 模型令人难以置信。硅谷 Wing VC 投资 AI 的合伙人 Tanay Jaipuria 也将其描述为”不可思议”。 苹果的机器学习研究员 Awni Hannun 表示,R1 的一个关键优势是强度较低,这表明该行业“在家用、在消费硬件上接近开源 o1”,指的是 OpenAI 去年推出的推理模型。 该模型可以被“提炼”,这意味着更小但功能强大的版本可以在硬件上运行,而这些硬件的密集度远低于许多科技公司运行其 AI 模型所依赖的数据中心服务器的计算能力。 Hannun 通过在 X 上分享一个在两个 Apple M2 Ultra 芯片上运行的 6710 亿参数版本的 R1 的剪辑来证明这一点,并有理由地回答询问在德州扑克游戏中顺子还是同花哪个更好。Hannun 表示,他们的回答“比阅读速度更快”。 AI 审查R1 似乎确实存在一个关键问题。前 OpenAI 董事会成员 Helen Toner 在 X 上指出,有 R1 的演示“当被问及 CCP 不喜欢的话题时,它会自我关闭”。 然而,Toner 确实暗示,“审查显然是由顶层完成的,而不是模型本身。DeepSeek 没有立即回应置评请求。 当然,值得注意的是,OpenAI 推出了一个名为 o3 的新模型,该模型旨在成为 DeepSeek 竞争对手的 o1 模型的继任者。兰伯特在他的博客文章中表示,OpenAI “可能在技术上领先”,但他补充说,o3 模型“并非普遍可用”,其“权重”等基本信息也不会很快可用。 鉴于 DeepSeek 迄今为止的业绩记录,如果其下一个模型显示与 o3 相当,请不要感到惊讶。美国的科技领导者可能已经在中国遇到了他们的对手。 |
0.00%(0)
0.00%(0)
0.00%(0)
|
当前新闻共有0条评论 |
|
广告:webads@creaders.net | ||||||||
电话:604-438-6008,604-438-6080 | ||||||||
投稿:webeditor@creaders.net | ||||||||
|