通义万相

2周前更新 21 0 0

通义是一个通情、达义的国产AI模型,可以帮你解答问题、文档阅读、联网搜索并写作总结,最多支持1000万字的文档速读。通义tongyi.ai_你的全能AI助手

收录时间:
2025-02-10
通义万相通义万相
通义万相
通义万相是阿里云推出的一款功能强大的视觉生成大模型,在图像与视频生成领域有着卓越表现,为创作者和各行业带来了全新的创作与应用体验。
  • 发展历程:2023 年 7 月,通义万相图像生成大模型首次亮相,凭借其出色的图像生成能力,迅速在行业内崭露头角,累计生成了 7500 万张图片,展现出强大的潜力。2024 年 9 月 19 日,在杭州云栖大会上,阿里云 CTO 周靖人宣布通义万相全面升级,并发布全新视频生成模型,标志着通义万相从单一的图像生成迈向图像与视频生成的多领域发展,为影视创作、动画设计、广告设计等领域提供了影视级高清视频生成能力。2025 年 1 月 9 日,通义万相再次迎来重磅升级,推出万相 2.1 视频生成模型,在大幅度复杂运动、物理规律遵循、艺术表现等方面全面提升,并在权威评测榜单 VBench 上以总分 84.7% 的成绩斩获第一,超越众多国内外视频生成模型 ,进一步巩固了其在视觉生成领域的领先地位。
  • 功能特性
    • 文生视频精准呈现:用户只需输入任意文字提示词,无论是描述一个奇幻的冒险场景,如 “勇敢的骑士在神秘森林中寻找失落的宝藏,周围是闪烁着奇异光芒的魔法植物”,还是日常的生活片段,像 “一家人在阳光明媚的海滩上快乐地嬉戏”,通义万相都能精准理解语义,生成一段高清视频。它支持中英文多语言输入,还可通过灵感扩写功能智能丰富视频内容表现力,支持 16:9、9:16 等多种比例生成,满足不同平台的展示需求。
    • 图生视频创意转化:支持用户将任意图片转化为动态视频,用户上传一张静态的风景照片,通过输入提示词,如 “微风轻拂,树叶沙沙作响,河水潺潺流淌”,通义万相就能按照上传的图像比例或预设比例,将静态画面转化为生动的动态视频,赋予图片新的生命力 。
    • 复杂动作流畅生成:在人物肢体运动展示方面表现出色,能够稳定展现各种复杂的肢体运动,如花样滑冰中运动员的旋转、跳跃,霹雳舞中的高难度动作等,动作流畅自然,肢体协调并符合正常运动轨迹,让视频内容更加生动真实 。
    • 物理规律逼真还原:能逼真地还原真实世界的物理规律,如物体的碰撞、反弹、切割、挤压等效果。在生成汽车碰撞测试视频时,通义万相可以准确模拟出车辆碰撞瞬间的变形、碎片飞溅等物理现象,使生成的视频具有高度的真实感 。
    • 视频特效丰富多样:提供多种视频特效选项,能一键生成中英文视频特效,如在制作广告视频时,为文字添加炫酷的光影效果、粒子效果等,增强视频的视觉冲击力和表现力 。
    • 艺术风格随心转换:具备强大的艺术风格转换能力,能一键将视频转换为电影色调、印象笔触、抽象表现、卡通、3D 风格、油画、古典等各种艺术风格,满足不同创作者对于视频风格的多样化需求 。
  • 应用场景
    • 影视创作领域:编剧可以借助通义万相快速生成故事分镜视频,将脑海中的创意初步可视化,提高创作效率;导演在拍摄前可以利用它进行预演,提前规划镜头语言和场景效果;影视后期制作中,通义万相可以帮助制作特效镜头、补充素材等,降低制作成本 。
    • 广告设计行业:广告设计师能通过输入产品特点、宣传语等文字描述,快速生成广告视频初稿,再根据实际需求进行调整优化,大大缩短广告制作周期,提升广告制作的创意和效率 。
    • 短视频创作:短视频创作者可以利用通义万相生成各种有趣、新颖的视频内容,如搞笑短剧、知识科普动画视频等,丰富短视频的形式和内容,吸引更多观众 。
    • 教育教学场景:教师可以将通义万相用于制作教学视频,把抽象的知识转化为生动形象的动画或视频,帮助学生更好地理解和掌握知识,提高教学效果 。
  • 技术优势
    • 先进架构设计:采用自研高效的 VAE 和 DiT 架构,有效增强时空上下文关系建模能力。在 DiT 设计中,使用时空全注意机制,让模型能更准确地模拟现实世界的复杂动态;引入参数共享机制,提升性能的同时降低训练成本;针对文本的嵌入进行优化,实现更优的文本可控性,减少计算需求 。
    • 创新视频编解码:设计了创新的视频编解码方案,通过将视频拆分成若干块 (Chunk) 并缓存中间特征的方式,代替直接对长视频的 E2E 编解码过程,实现显存的使用与原始视频长度无关,从而支持无限长 1080P 视频的高效编解码,为任意时长视频的训练提供新路径 。
    • 高效训练优化:在训练方法上采用基于线性噪声轨迹的 Flow Matching 方案,并针对该框架进行深度设计,提升了模型收敛性、生成质量和效率;结合全新模型工作负载特点和训练集群硬件性能,制定分布式、显存优化的训练策略,实现了 100 万超长序列的高效训练,达到业界领先的 MFU 。

数据统计

相关导航

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...