rStar

7 个月前

机器学习自然语言处理语言模型推理能力

rStar是一个自我博弈相互推理方法，它通过将推理过程分解为解决方案生成和相互验证，显著提升了小型语言模型（SLMs）的推理能力，无需微调或使用更高级的模型。rStar通过蒙特卡洛树搜索（MCTS）和人类推理动作的结合，构建更高质量的推理轨迹，并通过另一个类似能力的SLM作为鉴别器来验证这些轨迹的正确性。这种方法在多个SLMs上进行了广泛的实验，证明了其在解决多样化推理问题方面的有效性。