2024AiCon：大语言模型的幻觉检测-威创保

2024AiCon：大语言模型的幻觉检测.pptx

pptx文件

3.7M

北京智源研究院杨熙在2024AiCon提出大语言模型“幻觉检测”方案，定义忠实性与事实性幻觉，构建首个对话级评测集HalluDial（14.6万样本）及检测模型HalluJudge（SOTA精度93.65%）。实验显示大模型普遍存在幻觉，GPT系列表现最优，幻觉率与模型规模无关。依托科技部、工信部项目，开发评测平台FlagEval，推动行业标准制定，强调通过科学评测优化模型生成可靠性，促进AI技术健康发展。

文章版权归作者所有，未经允许请勿转载。

THE END

生成式AI产业落地案例库

2024AiCon：大语言模型的幻觉检测

请登录后发表评论