2024AiCon:大语言模型的幻觉检测

下载图标
2024AiCon:大语言模型的幻觉检测.pptx
pptx文件
3.7M

北京智源研究院杨熙在2024AiCon提出大语言模型“幻觉检测”方案,定义忠实性与事实性幻觉,构建首个对话级评测集HalluDial(14.6万样本)及检测模型HalluJudge(SOTA精度93.65%)。实验显示大模型普遍存在幻觉,GPT系列表现最优,幻觉率与模型规模无关。依托科技部、工信部项目,开发评测平台FlagEval,推动行业标准制定,强调通过科学评测优化模型生成可靠性,促进AI技术健康发展。

© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容