欢迎加入秒杀168联盟
秒杀168联盟
  • 搜淘宝
  • 搜拼多多
  • 搜唯品会
微信扫一扫

关注微信公众号
查券更方便


当当网 大模型算法:强化学习、微调与对齐 详解强化学习 RLHF GRPO DPO SFT CoT DeepSeek蒸馏 微调与对齐 效果优化及其实践
当当网 大模型算法:强化学习、微调与对齐 详解强化学习 RLHF GRPO DPO SFT CoT DeepSeek蒸馏 微调与对齐 效果优化及其实践
57.8元¥75.410元券
活动结束时间:02-28 23:59 累计销量 :

手机淘宝扫码领券购买

  • 商品详情
  • 特别推荐
原价¥54.92000
14.9
原价¥15001000
1495
原价¥15.9600
10.9
原价¥49.95000
42.9
原价¥78.51000
61.5
原价¥188100
173
原价¥3266000
296
原价¥349900
324
原价¥392万
29