我们对此做了 LLM-as-judger 与人工评估一致性的验证,发现与人工评估高度一致。 最后我们还开源了自动流水线评估框架,只需通过配置 yaml 文件,实现流水线自动评估。更多信息在此。