这个名为“缅因猫”的新模型,打开了AI视频新赛道

📅 2026/7/4 3:29:38
这个名为“缅因猫”的新模型,打开了AI视频新赛道
今天给大家看一个好玩的。我给大家介绍过许多AI视频创作工具这些视频生成模型都是需要先生成视频然后才能观看。这已经成为大家的共识。但大家看看下面这个AI视频模型我刚开始生成大概过了三秒视频就直接播放了而且视频在播放的过程中我可以随时介入修改视频的内容比如让人物说话更亢奋一些可以明显看出视频中的角色说话方式变了然后我输入一个问题让对方跟我们对话对方也会接着我输入的问题继续对话看起来不像AI视频更像是一个能跟你实时互动的视频角色。这是最近一个叫做Catnip.AI的团队发布的视频生成模型「MaineCoon」我也是幸运得拿到了邀请码以上都是我初次尝试时看到的效果。它和我以前给大家介绍的AI视频模型都不同它是一款流式音视频模型。啥叫流式生成呢简单说就是边生成边播放。别的视频模型做不到吗这个时候就有同学要问了不就是一边生成一边播放吗其它视频模型做不到吗说实话还真做不到。因为现在的主流视频模型的方向都是向着“增强画面”这个方向走的画面越好自然生成所需要使用的时间就越多。大家想想一段10秒钟的视频都需要5分钟左右才能生成完自然也做不到边生成边播放了。而开发MaineCoon模型的这个团队为了达成这个效果也是做了许多努力。流式媒体更像是即兴演员只能根据上一帧画面来判断接下来该怎么演所以需要极强的临场应变能力。这个过程中如果出现一点小误差下一帧就可能基于这个误差继续生成继续按照错误的方式演下去最终误差会像滚雪球一样越滚越大。同时它还要足够快往往需要每秒稳定生成几十帧并保证画面不崩本身就是一件很矛盾的事情。而且流式是实时发生的生成后直接就呈现给用户没有回炉重造的余地任何一帧画面都会被用户立刻看到。这样的内容连续生成十几分钟真的很难保持稳定。正是因为这些难点堆在一起行业里才久久没有出现这样的模型而一个只有10人的团队却做到了。具体效果怎么样我的总体评价是效果很惊艳体验很新奇但还有许多值得提升的空间。我初次打开MaineCoon的官网时觉得官网效果做得真不错向下滑动时这个猫咪还会向一边走开。后来深入了解了以后发现这个官网和测试网站居然都是他们用vibe coding的方式做完的。因为他们团队只有10个人然后用了两个月的时间搓出了缅因猫这个流式音视频模型估计也没有多余人手手搓官网。了解完这个我只能说一句牛逼。测试网站倒是还挺简单的输入提示词创建场景然后就可以直接开始播放视频了。不知道是不是这个背景图片的关系使用过程中我总有一种导演看监视器的感觉视频里是演员在演戏而我发送的指令就是对演员下的指令让演员改变情绪或者换台词。实际上缅因猫与传统AI视频模型对比的话也确实是这个意思。接下来我把实际测试中发现的这个模型不错的地方给大家罗列一下1.三秒出画面MaineCoon的核心设计理念是原生流式生成从数据基础设施、训练框架、注意力模式、KV-Cache使用到推理部署全链路围绕“实时”重新设计而不是把现有模型改得更快。根据官方提供的数据输入提示词后1到3秒就可以开始出画面随后就会不间断生成画面可以顺畅播放。不过我目前测试的话并不是每次都可以快速出现画面的。我第一次用确实3秒出画面后面用的时候偶尔十秒左右才开始播放。我猜测是网络原因因为之后测试时都是晚上了用的人比较多加上这个小团队也没啥成本购买更多服务器有点慢也比较正常。根据官方提供的信息得知这个模型最高可以实现每秒47.5FPS。而一般流媒体视频是每秒24到30帧这个帧率已经超过了普通流媒体视频的播放帧率。也就是只要跑起来它理论上可以24小时不停歇地生成并播放。官方说目前只支持连续生成播放30分钟但我觉得以后肯定可以实现24小时只是稳定性上可能会有比较大的考验。2.音画同步生成这里我让角色从开心逐渐变得委屈在情绪变化的情况下声音仍然紧贴表情和嘴型。这种协同变化的能力才是让视频有活人感的关键。这个时候就有人要说了很多传统的AI视频模型不是也能音画同步生成吗这有啥新鲜的。其实音画同步生成这个东西也是去年才出现的还算比较新鲜。更何况我们要考虑到这是边生成边播放。也就是模型不仅要考虑画面还要考虑音频这其实就给模型增加了一个维度会额外消耗性能他们能在实现实时播放的同时还能解决音视频同步本身就挺牛的。3.中途交互控制这个视频播放过程中我分别让角色“笑出来”、“转头看一下左边”、“变得紧张”视频都按照指令发生了改变。同时画面也很自然不会突然变化而是说完当前话题之后再做出相应的变化。这个延迟时间大概是六七秒钟左右这样虽然有一点点的延迟感但为了保证画面流畅和话题平稳转换也是可以理解的事情。4.生成稳定性根据官方介绍这个模型可以连续生成30分钟的视频。现在用来测试的网站只开放了最长三分钟的生成更长的效果后续应该会逐步开放。我用下来发现只要场景提示词写得巧妙一些的话这三分钟的视频播放过程中画面可以从头到尾保持稳定。这其实非常难得因为你用传统AI视频模型生成一个10秒钟的时候可能都需要抽卡个两三次才能得到自己想要的画面。当然前提是得提示词要写得巧妙一点比如画面中不要有多余的元素尽量少的展现背景画面等等。我在使用过程中就遇到画面崩掉的情况比如下面这个角色还在说话但同时也在喝水以及手和杯子重叠等问题。但是瑕不掩瑜概率崩坏相较于模型表现出来的性能其实是可以接受的。另外我分别用SoulX和LiveAvatar以及缅因猫跑了同一个场景前两个虽然也是实时生成的视频模型但都是数字人模型主要是根据输入的音频来实现对口型的画面生成。而缅因猫是更接近传统AI视频模型的纯生成的模型只是在此基础上加入了同步播放的功能。从视频里也能很明显的看出它与另外两个模型的对比前两个模式是只有主角会有画面变化背景几乎无变化有一点微小的变化背景人物还直接分裂了。而缅因猫则是视频生成背景也会有变化而且画面更加稳定崩坏的地方更少。放这个对比也是为了展示一下它和AI数字人视频生成的本质区别。一个是基于人物画像根据上传的音频来改变角色面部一个是整幅画面都是完全生成的。为什么要做“实时流式”视频模型这个时候就有同学要说了做这个东西有什么意义吗画质看起来也没现在的主流视频模型好啊。确实画质相比较主流模型要差一些但它主打的本来就不是画质好而是流式生成。现在主流的AI视频模型都是先生成再播放用户只能在生成前或生成后参与在生成过程中就什么都做不了了。这就好像在现实生活中拍戏导演跟演员说演一下这段戏然后导演就被锁在门外等5分钟后门才打开然后导演只能看表演的回放。如果导演想要修改其中的某段戏就只能让演员重新再演一遍。实时流式生成更像真实的现场导戏场景演员在表演过程中你可以随时喊“表情更丰富些”或者让他立刻说某个台词演员也可以立即调整。通过实时流式生成这种方式AI视频就不再是一个生成完之后再看的成品而是一个可以持续被影响的实时画面。虽然听起来都是 AI 视频生成但其实这已经是另外一个东西适用场景也不同。传统AI视频生成可以用在电影、短剧、广告等视频制作中而缅因猫这种流式生成的视频可以实时影响角色情绪、语气、动作和剧情走向等所以可以在下面这些领域得到应用1.AI视频客服可以根据客户的问题实时生成画面并解答。2.虚拟主播可以持续与弹幕互动而不只是按照预设脚本输出内容。3.实时互动内容比如互动短剧可以根据用户输入实时改变角色反应和剧情走向。4.教育和培训语言陪练、销售培训、面试模拟、心理陪伴等等都可以从文字对话升级到面对面的实时互动。而这些场景则是传统的AI视频生成模式做不到的。因为反馈速度从几分钟变成了几秒AI视频就产生了质变蜕变出了新的形态也诞生了更多的应用方向。总结一下过去几年AI视频的核心叙事一直是让视频更好看这个阶段其实更注重内容生产是为了帮创作者更快产出更好的内容。而从MaineCoon可以看到的方向是消费侧的改变AI视频不再只是生成工具而是互动媒介。未来某些行业或许会因为MaineCoon产生一些变化让许多内容固定的领域变得可以互动根据用户的反馈随时改变。比如现在和豆包语音通话以后也许就可以变成视频通话豆包可以在另一头根据你说话的内容实时做出动态表情和动作MaineCoon现在还只是起步阶段目前这个模型也才做了两个月阿枫非常期待后续的更新迭代毕竟他们团队实力强劲未来可期(听说他们还在做一个更厉害的全新实时互动模型)~如果你对AI角色、互动视频、虚拟陪伴、AI视频客服这类方向感兴趣这个模型值得拿邀请码试一下。但也要有心理预期它现在还是早期版本惊喜和bug都会同时存在~