Thyme

Thyme Thyme ，，“”。，，（SFT）（RL）， GRPO-A...

2024-01-01 1 分钟阅读

Thyme

Thyme 是一个开创性的多模态大语言模型，其核心在于通过自主生成和执行多样化的图像处理与计算操作的代码，从而超越了传统的“以图思考”范式。该项目显著提升了模型在高分辨率感知和复杂推理任务上的性能，其实现得益于创新的两阶段训练策略，即监督微调（SFT）与强化学习（RL）的结合，并由独特的 GRPO-ATS 算法赋能，以在推理探索和代码执行精度之间取得精妙平衡。它提供了完整的数据准备指南、详细的SFT和RL训练流程，支持通过 VLMEvalKit 进行基准评估，并提供便捷的推理示例，清晰展示了其根据用户问题生成并运行代码（如图像裁剪、放大）以辅助解决视觉难题的能力。

Thyme

本指南使用到的工具