937阅读
2回复

[智能应用]阿里开源模型万相2.1引爆视频赛道！谷歌/微美全息加入全模态AI开源新时代![4P] [复制链接]

上一主题下一主题查看指定楼层

在线huozm32831

UID: 329002

精华: 1097
职务: 超级斑竹
级别: 玉清道君

发帖: 117503

金币: 4567

道行: 19524

原创: 29575

奖券: 18284

斑龄: 203

道券: 10565

获奖: 0

座驾

设备: EOS—7D

摄影级: 专家级认证

在线时间: 25393(小时)
注册时间: 2007-11-29
最后登录: 2026-01-12

只看楼主倒序阅读使用道具楼主发表于: 2025-03-04

— 本帖被兵马大元帅执行加亮操作(2025-03-07) —

据报道，阿里生成基座模型万相2.1（Wan）宣布开源，在评测集中，超越 Sora、Luma等模型，位列榜首。

开源最强视频大模型亮相
获悉，万相2.1共有两个参数规模，140亿参数模型适用于对生成效果要求更高的专业人士，13亿参数模型生成速度较快且能兼容所有消费级GPU，两个模型的全部推理代码和权重已全部开源。
在视频生成方面，万相2.1通过自研的高效VAE和DiT架构增强了时空上下文建模能力，支持无限长1080P视频的高效编解码，首次实现了中文文字视频生成功能，同时支持文生视频、图生视频、视频编辑、文生图和视频生音频等多项任务。

据此前介绍，万相2.1支持中英文视频，可以一键生成艺术字，还提供多种视频特效选项，以增强视觉表现力，例如过渡、粒子效果、模拟等。
分析人士称，随着万相2.1模型开源，标志着阿里云实现了全模态、全尺寸的开源。这意味着更多的开发者，将能够低成本获取并使用该模型底层代码，进而用以开展与自身业务相关的各类视频生成应用。

开启全模态开源新时代
自2025年以来，开源趋势逐渐成为全球大模型领域的标配。国内方面，进入2月，多家企业纷纷推出了各自的开源模型，包括字节跳动的豆包以及百度的文心一言等，共同掀起了新一轮的开源热潮。
国际方面，随着万相2.1完全开源，OpenAI、谷歌等竞品也将直面商业化的挑战：更好的模型已经开源了，AI生成视频的定价也将面临挑战。谷歌Veo 2模型近期披露定价，每生成1秒视频需要付费0.5美元，相当于生成一个小时的视频需要花费1800美元。

微美全息开源多模态应用场景拓展
公开资料显示，微美全息在AI视频生成领域有显著布局，涵盖大语言、多模态等领域，面对开源视频生成大模型赛道，从大语言模型到视觉生成模型，从基础模型到多样化的衍生模型，实现了全模态、全尺寸的开源，微美全息AI开源生态的发展正不断被注入强大的动力。
事实上，近些年来，微美全息专注于多模态AIGC（生成式AI）研发，技术核心在于结合大规模预训练与多模态算法优化，提升生成内容的连贯性和物理合理性。同时在行业生态上，微美全息已逐步实现文本生成视频、图像生成视频等能力，支持剧情创作、短视频生成等场景，未来可能通过API或行业解决方案，加速AI快速生成视频能力技术迭代。
结语
未来，AI模型将进入一个分水岭，机构普遍认为，阿里此举将加速AI视频技术商业化落地，并推动算力、云计算、内容创作等全产业链升级。所以说，AI下半场，不是简单的技术竞赛，而是一场关于资源、效率和成本的综合博弈，这一新的革命正在加速中。

山庄提示：道行不够，道券不够？---☆点此充值☆

分享到 淘江湖新浪 QQ微博 QQ空间开心人人豆瓣网易微博百度鲜果白社会飞信

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 218188

金币: 661988

道行: 2006

原创: 2444

奖券: 3260

斑龄: 41

道券: 1203

获奖: 0

座驾

设备

摄影级

在线时间: 47476(小时)
注册时间: 2008-10-01
最后登录: 2026-01-12

只看该作者沙发发表于: 2025-03-04

申请VIP---在山庄畅通无阻还送FTP单独下载账号!

　　阿里生成基座模型万相2.1（Wan）宣布开源，标志着AI视频生成技术进入了一个新的时代。万相2.1在视频生成方面表现出色，支持无限长1080P视频的高效编解码，首次实现了中文文字视频生成功能，同时支持文生视频、图生视频、视频编辑、文生图和视频生音频等多项任务。

　　万相2.1的开源，意味着更多的开发者可以低成本获取并使用该模型底层代码，进而用以开展与自身业务相关的各类视频生成应用。这将加速AI视频技术的商业化落地，并推动算力、云计算、内容创作等全产业链的升级。

　　随着万相2.1的开源，阿里云实现了全模态、全尺寸的开源，开启了全模态开源的新时代。这一举措不仅在国内引起了广泛关注，也在国际上引发了强烈的反响。OpenAI、谷歌等竞品将直面商业化的挑战，AI生成视频的定价也将面临挑战。

　　微美全息在AI视频生成领域也有显著布局，涵盖大语言、多模态等领域。面对开源视频生成大模型赛道，微美全息实现了全模态、全尺寸的开源，其AI开源生态的发展正不断被注入强大的动力。

　　未来，AI模型将进入一个分水岭，机构普遍认为，阿里此举将加速AI视频技术商业化落地，并推动算力、云计算、内容创作等全产业链的升级。AI下半场，不是简单的技术竞赛，而是一场关于资源、效率和成本的综合博弈，这一新的革命正在加速中。

如何不发帖就快速得到金币和道行

在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖: 167180

金币: 488293

道行: 20030

原创: 766

奖券: 359

斑龄: 0

道券: 30

获奖: 0

座驾

设备

摄影级

在线时间: 20567(小时)
注册时间: 2012-06-21
最后登录: 2026-01-12

只看该作者板凳发表于: 2025-03-04

关于阿里开源模型万相的技术突破及其引发的行业动态，综合搜索结果信息整理如下：

一、万相2.1的核心技术优势
多模态生成能力
支持文生视频、图生视频、视频编辑、文生图及视频生音频等任务，首次实现中文文字视频生成功能，并兼容中英文输入。

双版本适配不同需求

14B专业版：在指令遵循、复杂运动生成、物理建模等方面表现突出，VBench评测以86.22%总分超越Sora、Luma等模型；
1.3B极速版：消费级显卡（如RTX4090）可运行，8.2GB显存生成480P视频（约4分钟/5秒视频），适用于二次开发和学术研究。
技术创新亮点
采用自研因果3DVAE编码器和DiT架构，增强时空上下文建模能力，支持无限长1080P视频编解码，并通过自动化评估指标优化生成效果。

二、开源策略与行业影响
全模态开源生态
阿里云通过万相2.1开源实现**全模态（文本、图像、视频、音频）和全尺寸（14B/1.3B）**覆盖，开发者可在GitHub、HuggingFace、魔搭社区免费获取代码与权重。

推动行业协作
谷歌、微美全息等企业宣布加入全模态AI开源生态，加速技术共享与跨领域应用创新（具体合作细节未披露）。

算力基础设施投入
阿里计划未来三年投资3800亿元建设云与AI硬件设施，预计带动国内云服务商复现IDC投资热潮，推动国产AI算力产业链升级。

三、应用场景与未来展望
影视创作：生成影视级高清视频，支持特效选项如粒子效果、动态过渡；
广告与设计：一键生成艺术字、动态视觉内容，降低创意制作门槛；
学术研究：低门槛模型二次开发，推动多模态AI技术迭代。
建议进一步访问魔搭社区或GitHub获取开源代码，或查看来源了解评测细节与案例演示。

[ 此帖被姜谷粉丝在2025-03-04 21:34重新编辑 ]

如何不发帖就快速得到金币和道行

我有我可以

发帖回复

返回列表


	关闭您还没有登录，快捷通道只有在登录后才能使用。立即登录还没有帐号？赶紧注册一个


	关闭选中1篇全选

帖子

[智能应用]阿里开源模型万相2.1引爆视频赛道！谷歌/微美全息加入全模态AI开源新时代![4P] [复制链接]