2024AiCon:大语言模型在计算机视觉领域的应用.pptx
pptx文件
5.8M
大语言模型(LLM)在计算机视觉领域实现生成与理解统一,提出PixelLM模型,通过轻量分割解码器与多尺度特征融合解决像素级理解难题,分割精度提升至37.7%,并构建MUSE数据集支持训练。视频生成方面,StoryDiffusion结合LLM与扩散模型,引入一致性注意力与运动生成模块,优化角色一致性与动态表现。未来聚焦多模态交互、具身智能及统一视觉模型,推动LLM在图像生成、视频创作与物理环境交互中的深度应用。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
暂无评论内容