为什么需要在向下采样后立即向上采样到原始输入大小?对各层的解释看起来是一样的(为防止过度拟合而剔除),而且如果数据能很好地容纳在具有相同功能的较小容器中,那么后向的上采样看起来就过于浪费了(至少你不会从转换中获得新的信息)。
PS.自动将帖子从英文翻译成(至少)俄文看起来很荒谬,因此请阅读原帖。
为什么需要在向下采样后立即向上采样到原始输入大小?对各层的解释看起来是一样的(为防止过度拟合而剔除),而且如果数据能很好地容纳在具有相同功能的较小容器中,那么后向的上采样看起来就过于浪费了(至少你不会从转换中获得新的信息)。
PS.自动将帖子从英文翻译成(至少)俄文看起来很荒谬,因此请阅读原帖。
新文章 将您自己的 LLM 集成到 EA 中(第 5 部分):使用 LLM 开发和测试交易策略(三)—— 适配器微调已发布:
在上一篇文章中,我们介绍了如何使用 LoRA 方法对 GPT-2 预训练模型进行微调,并从我们关注的几个方面将其与完全微调模型进行了比较,包括但不限于训练开销、推理开销和模型性能。
在本文中,我们将使用适配器微调方法对 GPT-2 预训练模型进行微调,并与已经介绍过的微调方法进行比较。当然,我们不会继续介绍各种微调大型语言模型的方法,因为新的微调方法不断涌现。为了逐一重现每种方法,恐怕您没有耐心阅读所有方法,所以我将只介绍一些最基本的微调方法(例如,我们已经介绍了 LoRA 微调,不会花太多篇幅介绍 QLoRA 微调,这是LoRA的一种扩展方法)。
这意味着这将是最后一篇关于微调大型语言模型的文章。如果你想尝试其他方法,你可以参考本系列文章中提到的微调逻辑,并将其应用于其他微调方法以继续探索。从下一篇文章开始,我们将重点介绍将训练好的模型与 EA 开发相结合,以制定交易策略并进行回溯测试。
图表可视化比较:
作者:Yuqiang Pan