Reinforcement Learning

总而言之，要搭建一个智能体的过程需涉及明确任务、选择算法、建模环境、设计决策机制、训练和优化等多个步骤。最重要的是，要根据问题的具体需求选择合适的技术路线。在强化学习中，智能体通常通过与环境的交互不断学习和优化，最终达到预期目标。在实际部署时，还需要 ...

来自MSN1 天

预训练——ChatGPT背后的关键技术

这篇文章介绍一下什么是预训练，并通过预训练了解一连串和ChatGPT相关的常见名词解释，监督学习，无监督学习，自监督学习，强化学习以及微调。不知道大家会不会好奇，ChatGPT为什么会叫ChatGPT？反正一开始我们的好几个项目里都在引入GPT模型 ...

亿欧 on MSN2 天

全球具身智能的端到端AI和具身Agent技术发展到哪里了

未来几年具身智能领域预计将继续取得多项重要突破。

5 天

月之暗面探索 o1，跟字节抢来华为刘征瀛

本月初经历仲裁风波后，月之暗面在 11 月 16 日发布新的数学模型 k0-math，当时月之暗面创始人杨植麟反复提到 “o1”：他将 k0-math 的测评评分与 o1 比较，称其思路与 o1 类似——都采用了强化学习和思维链技术。

6 天

LLM也会和人类一样焦虑，还会产生更多偏见，图宾根大学最新研究

实验中，研究人员还发现，越容易感到焦虑的模型，也更有可能产生带有偏见的回答，不过好消息是，RLHF（基于人类反馈的强化学习）可以稍微缓解这种情况。

腾讯网3 天

为何新技术总是阶段性出现、消失、再出现？基于自由能的新视角

文 | 追问nextquestion01 摘要本文提出了一种基于自由能原理（FEP）的简约解释，试图从生物学理论的角度解释早期智人（Homo erectus）的行为演化，特别是他们制作石斧的行为。“认知惊奇”（cognitive ...

来自MSN6 天

中国生成式AI大会即将登陆上海，全解大模型、AI Infra、端侧AI、AI ...

12 月 5-6 日，2024 中国生成式 AI 大会（上海站）「GenAICon 2024」将在上海中星铂尔曼大酒店盛大举办。中国生成式 AI 大会已成功举办两届，迅速成长为国内生成式 AI 领域最具影响力的产业峰会之一。此次也是中国生成式 AI 大会首次登陆上海举办，由智一科技旗下智能产业第一媒体智东西、AI 与硬科技知识分享社区智猩猩共同发起。本次大会的指导单位是上海市人工智能行业协会。

腾讯网4 天

Andrej Karpathy引争议：AI 没有魔法，只是模仿，离“真”强化学习还远 ...

当你向人工智能提问时，你是否好奇过，它的回答来自何处？是某种超越人类的智慧，还是复杂数据的机械化堆叠？AndreJ ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果