2024AiCon:大语言模型的幻觉检测.pptx
pptx文件
3.7M
北京智源研究院杨熙在2024AiCon提出大语言模型“幻觉检测”方案,定义忠实性与事实性幻觉,构建首个对话级评测集HalluDial(14.6万样本)及检测模型HalluJudge(SOTA精度93.65%)。实验显示大模型普遍存在幻觉,GPT系列表现最优,幻觉率与模型规模无关。依托科技部、工信部项目,开发评测平台FlagEval,推动行业标准制定,强调通过科学评测优化模型生成可靠性,促进AI技术健康发展。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
暂无评论内容