近期,多家厂商发布了视觉模型,结合C端应用市场的情况,我有理由相信,AI应用方向正在从LLM聊天应用向视觉应用转变。从单纯的聊天工具大行其道,到类似写作类copilot工具的盛行,AI应用在2024年已经呈现出了巨大的潜力,但你要知道,现在才5月,从业界顶尖会议提出AI应用将成大趋势,到现在才不过短短半年,可见在AI应用领域,世界发展的有多快。本文就来聊一聊我所看到的趋势和机会。
大模型成为AI领域统治级范式
在GPT-3.5之前,AI训练总是具有针对性,不同厂商、团队的方案百家争鸣,但在ChatGPT被广泛认可之后,大模型已经成为AI领域的核心范式,甚至成为一家新的AI创业公司的唯一选择。通过训练大模型来获得需要的AI能力,已经成为一种普遍被认可的方式,这一模式从LLM领域扩展到多模态领域、文生图领域、图生图领域、文生视频领域、图生视频领域……几乎我们已知的各类领域,都可以使用训练大模型的方式,获得针对该领域的AI模型。
AI领域当下发生着哪些有趣的事?
Stability在经历了创始人出走的情况下,发布了Stable Diffusion 3,获得了更优秀的成图能力,结合早前发布的Stable Diffusion XL底层架构,可以预测新版本的SD将拥有更强的性能。同时,官方推出的Stable Video Diffusion也是令人眼前一亮。SD生态中,SD webui发布了1.9,新工具forge将让客户端具有更强的性能和能力。在文生图领域,除了Stability之外,国内的一众团队开发出的新产品也是令人兴奋,在开源工具的基础上,分享绘画模型、工作流等,形成了AI视觉领域的社区氛围。
在Suno几乎成为统治者的时候,Udio横空出世与之分庭抗礼。从歌词到歌曲再到MV,几个新平台可以让音乐创作从专业工作,变为普通人可以短短几分钟实现的有趣事情,AI在音乐领域真正做到了平权,让普通人可以通过音乐这种形式,完成自己抒发某时某刻心情的创意。
从阿里所谓开源EMO引起的争议,到最终在通义应用中落地的不错效果,在AI视频领域也出现百花斗艳的场景。通过一张照片就可以让其中的人物活起来,并且具有较强的口型拟合,非常有意思。腾讯开源VideoReTalking,微软在azure平台上线具有情感和语气的文转音,数字人领域平民化也是指日可待。
从年初Sora PPT式发布,到陆续有厂商进入内测名单,到open-sora开源项目上线,再到业内其他竞品陆续跟进,虽然sora至今未上线对公众服务,但是整个业界在AI生成视频领域已经发出了最强的期待之声。虽然目前几乎所有的工具在生成视频这件事上,还很难做到完全规避大模型的幻觉问题,以及保持一致性问题,但是在退一步的情况下,利用SD关键帧等的技术方案,也可以实现视频换风格、换脸、换人、换背景等效果,和传统视频处理工具要方便很多。
对于老厂家们而言,微软在office软件中接入copilot技术,实现文件编辑时局部生成能力;Adobe在其全线设计软件中接入AI能力,可以通过涂抹局部后,用文字描述来实现设计,效果炸裂;苹果则是在前脚宣布与谷歌合作后,推出自己的小体量参数大模型ReALM,实现了对屏幕信息的识别和理解,让大模型在用户操作的理解上更进一步。
AI将主导内容领域生产
这一轮LLM-based Agent的大发展,将会颠覆内容生产方式,无论是在C端还是B端,过去我们很多内容生产很多讲创意,讲技术,但真正是创意的寥寥无几,很多都是搬运工。而这一轮AI技术的发展,将彻底颠覆之前的状况,B站百大影视飓风之前一期节目讲帮助一个残疾的兄弟实现运动梦想,使用了非常多传统的影视剪辑和特效技术,成本巨大,但就当前的AI技术而言,要实现相同的效果,或许并不需要那么大的人力物力成本。在B端,很多所谓的编辑、整理、分析工作,本质上都是文字处理的关联工作,在AI的冲击下,这些工作人的成分会逐渐减少,除了人力成本的考虑之外,内容质量和时间效率的考量才是最重要的。
过去半年,我注意到抖音上AI创作的内容比重在不断攀升。以网文故事创作为例,通过大模型生成故事,通过生图、生视频模型完成素材生产,再配合工具自动完成剪辑,连载网文短视频以强烈的AI画风口感和爆爽的故事背景设定,剥夺了很多其他短视频的生成空间。而就这类短视频的制作团队而言,除了成本降低之外,还可以通过推流来实现为其他短剧、游戏平台、购物平台的引流,从而实现盈利。这种AI内容抢占用户流量的现象,在未来只会愈演愈烈。不能说劣币驱逐良币,只能说基于流量为目的的内容推送时代,会被AI所统治,进而有可能出现,人类的内容消费由AI来决定的最终局面。
AI向内容领域的入侵,必然带来某些职业群体的危机,这值得我们关注。从辅助人类提升效率提升生产力的工具,到变成抢人类工作的威胁,AI在现实中的应用范围,应该值得所有人思考。
为什么视听领域是Agent趋势
首先,当下的AI技术本身具有内容增强属性,人们正在利用AI的工具属性改造现有工具,以在内容创作领域更快的产生内容,而内容领域的终极就是视听产品,例如短视频、电影、电视节目、游戏等。这一轮AI技术的发展,就目前来看,在应用领域,将AI作为内容生产工具首当其冲,而技术研究和应用总是相辅相成的,当应用领域对内容生产的需求巨大时,大模型基座的研究也会顺着需求的方向,在内容生产的终极方向——视听领域——不断发力。如此相互作用,类似Stability的SDXL方向,清华研究团队的LCM方向,都为实现实时生成(Realtime Generation)提供了可能性。一旦实时生成技术成熟,那么我在以前多次提到的实时互动视频生成将成为可能。
其次,图像和声音的生成,给大模型团队更多挑战的刺激感,而大模型范式遵循scaling law,只要按照其范式训练大模型,总是能大力出奇迹,看到胜利的曙光,不用担心失败,因此,对于视听大模型的训练团队而言,将来必然获得成就感,而难度摆在那里,未来成功的可能性也大大增强。南开大学和字节跳动合作,提出了StoryDiffusion模型,以较小的训练代价生成一致的漫画和长视频。随着商业应用的竞争白热化,底层模型的研究也愈发激烈。视听模型的潜在商业价值无可估量,甚至一个模型的应用化就是一家独角兽创业公司的全部核心。
最后,视听是人类对世界模型认知的凝固。人类对外界的认知,80%以上来自视听感官,而很明显,即便是盲人摸象,这80%的认知也足够构建起真实世界80%的真相。可见,视听模型的建立,对人类认识这个世界意义重大。从Sora出现开始,对建立AI自动生成的世界模型的追求,成为很多人在AI领域研究的主要动力。把人类认知中,最高形态的部分,通过AI表现出来,在现实世界中也可能存在重要意义,例如对自闭症患者认知世界的理解,对婴幼儿认知教育的辅助等等。正如我们在有些电影中听到的一样,正常人眼中的数字,在文字认知障碍小孩眼中可能就是遨游在宇宙中的怪物一样。通过构建世界模型,我们可以更了解人类自身。
Agent的智能将成为人类的第二大脑
目前,AI在内容领域的颠覆性已经被展现的淋漓尽致,但作为“人工智能”的“智能”部分,并不局限于对人类语言的理解和生成。例如我多次提到的comfyui,其本质上还是利用SD的生成能力,而在智能上的体现,显得非常死板。
人类对AI的最终幻想,是有自我意识和决策能力的超级智能体。最近微软首次推出了VIDiff(Video Instruction Diffusion),一个通用的视频扩散框架,统一的视频理解和编辑。据我所知,剪映团队也正在利用AI升级其视频编辑系统。被称为“人工智能教母”的李飞飞宣称将休学创业,她提出一种可以合理推断出图像和文字在三维环境中的样子的算法,并据此预测采取行动,这种算法概念被称为“空间智能”。而openAI与Figure合作后,公开视频显示该公司最新机器人在有了大模型的支持后,自主决策能力更强。
LLM涌现的推理能力、CoT等,让我们意识到,“思考”这件事本身是有迹可循的。AI智能体的终极形态,是完全自主的思考和决策,以服务于人。但就当下而言,我们对这个部分的开发还很少,我们把大部分精力都投入在内容生产方面,而对开发“第二大脑”的重要程度放在“后面再说”的位置上。最近以付盛为代表的人士提出类似“大模型没必要,小模型刚刚好”这样的理念,他们关注实际应用的商业成本与利润,大于让大模型在思考能力上更进一步。
虽然当下,AI在内容生产领域非常火爆,但是我相信,在工业领域、交通领域、金融领域、安全领域等的AI应用,才意味着作为“工业革命”概念股的成功。而能够作为“人类第二大脑”存在,弥补人类在认知和决策上的不足,才是这一轮Agent发展的目标。
结语
2024年,作为AI元年次年,整个行业发生着巨大的变化。而2024年的国际金融处于冰封期,AI行业没有遇到投资的好时候,却也能如此强劲的发展,在夹缝中投资者们依然看好这一领域。第一次工业革命大约从18世纪末开始,持续到19世纪中叶,大约100年左右的时间;第二次工业革命大约从1870年代开始,到1920年代结束,大约50年不到的时间;第三次科技革命大约从1970年代开始,到1990年代,大约20年左右的时间。科技革命的迭代速度就如宇宙的膨胀速度一样,越来越快,意味着这其中的挑战和机遇将难以想象的一闪而过。被预测为“第四次科技革命”的AI浪潮或许在5年以内就会完成整个底层技术的构建,并在未来几十年中不断开枝散叶。虽然当下在内容领域应用火爆,但我相信,很快,在其他领域,AI也将展现其超凡能力。
2024-05-05 1370