切换到宽版
  • 38阅读
  • 2回复

[智能应用]阿里开源模型万相2.1引爆视频赛道!谷歌/微美全息加入全模态AI开源新时代![4P] [复制链接]

上一主题 下一主题
在线huozm32831

UID: 329002

精华: 1097
职务: 超级斑竹
级别: 玉清道君
 

发帖
107913
金币
2009
道行
19523
原创
29308
奖券
17521
斑龄
193
道券
10535
获奖
0
座驾
 设备
EOS—7D
 摄影级
专家级认证
在线时间: 20910(小时)
注册时间: 2007-11-29
最后登录: 2025-03-04
只看楼主 倒序阅读 使用道具 楼主  发表于: 5小时前

据报道,阿里生成基座模型万相2.1(Wan)宣布开源,在评测集中,超越 Sora、Luma等模型,位列榜首。

开源最强视频大模型亮相
获悉,万相2.1共有两个参数规模,140亿参数模型适用于对生成效果要求更高的专业人士,13亿参数模型生成速度较快且能兼容所有消费级GPU,两个模型的全部推理代码和权重已全部开源。
在视频生成方面,万相2.1通过自研的高效VAE和DiT架构增强了时空上下文建模能力,支持无限长1080P视频的高效编解码,首次实现了中文文字视频生成功能,同时支持文生视频、图生视频、视频编辑、文生图和视频生音频等多项任务。

据此前介绍,万相2.1支持中英文视频,可以一键生成艺术字,还提供多种视频特效选项,以增强视觉表现力,例如过渡、粒子效果、模拟等。
分析人士称,随着万相2.1模型开源,标志着阿里云实现了全模态、全尺寸的开源。这意味着更多的开发者,将能够低成本获取并使用该模型底层代码,进而用以开展与自身业务相关的各类视频生成应用。

开启全模态开源新时代
自2025年以来,开源趋势逐渐成为全球大模型领域的标配。国内方面,进入2月,多家企业纷纷推出了各自的开源模型,包括字节跳动的豆包以及百度的文心一言等,共同掀起了新一轮的开源热潮。
国际方面,随着万相2.1完全开源,OpenAI、谷歌等竞品也将直面商业化的挑战:更好的模型已经开源了,AI生成视频的定价也将面临挑战。谷歌Veo 2模型近期披露定价,每生成1秒视频需要付费0.5美元,相当于生成一个小时的视频需要花费1800美元。

微美全息开源多模态应用场景拓展
公开资料显示,微美全息在AI视频生成领域有显著布局,涵盖大语言、多模态等领域,面对开源视频生成大模型赛道,从大语言模型到视觉生成模型,从基础模型到多样化的衍生模型,实现了全模态、全尺寸的开源,微美全息AI开源生态的发展正不断被注入强大的动力。
事实上,近些年来,微美全息专注于多模态AIGC(生成式AI)研发,技术核心在于结合大规模预训练与多模态算法优化,提升生成内容的连贯性和物理合理性。同时在行业生态上,微美全息已逐步实现文本生成视频、图像生成视频等能力,支持剧情创作、短视频生成等场景,未来可能通过API或行业解决方案,加速AI快速生成视频能力技术迭代。
结语
未来,AI模型将进入一个分水岭,机构普遍认为,阿里此举将加速AI视频技术商业化落地,并推动算力、云计算、内容创作等全产业链升级。所以说,AI下半场,不是简单的技术竞赛,而是一场关于资源、效率和成本的综合博弈,这一新的革命正在加速中。
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
  




    
在线jjybzxw

UID: 551814


发帖
131953
金币
1351954
道行
1966
原创
2294
奖券
2401
斑龄
31
道券
869
获奖
0
座驾
设备
摄影级
在线时间: 31370(小时)
注册时间: 2008-10-01
最后登录: 2025-03-04
只看该作者 沙发  发表于: 5小时前
  阿里生成基座模型万相2.1(Wan)宣布开源,标志着AI视频生成技术进入了一个新的时代。万相2.1在视频生成方面表现出色,支持无限长1080P视频的高效编解码,首次实现了中文文字视频生成功能,同时支持文生视频、图生视频、视频编辑、文生图和视频生音频等多项任务。

  万相2.1的开源,意味着更多的开发者可以低成本获取并使用该模型底层代码,进而用以开展与自身业务相关的各类视频生成应用。这将加速AI视频技术的商业化落地,并推动算力、云计算、内容创作等全产业链的升级。

  随着万相2.1的开源,阿里云实现了全模态、全尺寸的开源,开启了全模态开源的新时代。这一举措不仅在国内引起了广泛关注,也在国际上引发了强烈的反响。OpenAI、谷歌等竞品将直面商业化的挑战,AI生成视频的定价也将面临挑战。

  微美全息在AI视频生成领域也有显著布局,涵盖大语言、多模态等领域。面对开源视频生成大模型赛道,微美全息实现了全模态、全尺寸的开源,其AI开源生态的发展正不断被注入强大的动力。

  未来,AI模型将进入一个分水岭,机构普遍认为,阿里此举将加速AI视频技术商业化落地,并推动算力、云计算、内容创作等全产业链的升级。AI下半场,不是简单的技术竞赛,而是一场关于资源、效率和成本的综合博弈,这一新的革命正在加速中。

如何不发帖就快速得到金币道行
 
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
120095
金币
43200
道行
20019
原创
750
奖券
9
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 12004(小时)
注册时间: 2012-06-21
最后登录: 2025-03-04
只看该作者 板凳  发表于: 54分钟前
关于阿里开源模型万相 的技术突破及其引发的行业动态,综合搜索结果信息整理如下:

一、万相2.1的核心技术优势
多模态生成能力
支持文生视频、图生视频、视频编辑、文生图及视频生音频等任务,首次实现中文文字视频生成功能,并兼容中英文输入。

双版本适配不同需求

14B专业版:在指令遵循、复杂运动生成、物理建模等方面表现突出,VBench评测以86.22%总分超越Sora、Luma等模型;
1.3B极速版:消费级显卡(如RTX4090)可运行,8.2GB显存生成480P视频(约4分钟/5秒视频),适用于二次开发和学术研究。
技术创新亮点
采用自研因果3DVAE编码器和DiT架构,增强时空上下文建模能力,支持无限长1080P视频编解码,并通过自动化评估指标优化生成效果。

二、开源策略与行业影响
全模态开源生态
阿里云通过万相2.1开源实现**全模态(文本、图像、视频、音频)和全尺寸(14B/1.3B)**覆盖,开发者可在GitHub、HuggingFace、魔搭社区免费获取代码与权重。

推动行业协作
谷歌、微美全息等企业宣布加入全模态AI开源生态,加速技术共享与跨领域应用创新(具体合作细节未披露)。

算力基础设施投入
阿里计划未来三年投资3800亿元建设云与AI硬件设施,预计带动国内云服务商复现IDC投资热潮,推动国产AI算力产业链升级。

三、应用场景与未来展望
影视创作:生成影视级高清视频,支持特效选项如粒子效果、动态过渡;
广告与设计:一键生成艺术字、动态视觉内容,降低创意制作门槛;
学术研究:低门槛模型二次开发,推动多模态AI技术迭代。
建议进一步访问魔搭社区 或GitHub获取开源代码,或查看来源了解评测细节与案例演示。


[ 此帖被姜谷粉丝在2025-03-04 21:34重新编辑 ]
如何不发帖就快速得到金币道行
 
我有我可以
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个