2024AiCon：大语言模型在计算机视觉领域的应用-威创保

2024AiCon：大语言模型在计算机视觉领域的应用.pptx

pptx文件

5.8M

大语言模型（LLM）在计算机视觉领域实现生成与理解统一，提出PixelLM模型，通过轻量分割解码器与多尺度特征融合解决像素级理解难题，分割精度提升至37.7%，并构建MUSE数据集支持训练。视频生成方面，StoryDiffusion结合LLM与扩散模型，引入一致性注意力与运动生成模块，优化角色一致性与动态表现。未来聚焦多模态交互、具身智能及统一视觉模型，推动LLM在图像生成、视频创作与物理环境交互中的深度应用。

文章版权归作者所有，未经允许请勿转载。

THE END

生成式AI产业落地案例库

2024AiCon：大语言模型在计算机视觉领域的应用

请登录后发表评论