2024AiCon:大语言模型在计算机视觉领域的应用

下载图标
2024AiCon:大语言模型在计算机视觉领域的应用.pptx
pptx文件
5.8M

大语言模型(LLM)在计算机视觉领域实现生成与理解统一,提出PixelLM模型,通过轻量分割解码器与多尺度特征融合解决像素级理解难题,分割精度提升至37.7%,并构建MUSE数据集支持训练。视频生成方面,StoryDiffusion结合LLM与扩散模型,引入一致性注意力与运动生成模块,优化角色一致性与动态表现。未来聚焦多模态交互、具身智能及统一视觉模型,推动LLM在图像生成、视频创作与物理环境交互中的深度应用。

© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容