又一个新的视频生成大模型——Luma。号称可以生成电影级别的视频。 Luma AI是什么? Luma AI 是 […]
Kling AI是快手发布的视频生成大模型,能够生成长达2分钟的视频。其主要优势在于利用快手自研的3D表情和身体重建技术,实现通过一张人物全身照片驱动表情和身体动作。Kling AI适用于生成人物唱跳视频和长视频等场景。
概述 最近,一个文本转语音的模型比较火,那就是:ChatTTS。而且,这个模型还是国内的一个小团队搞的。专注于 […]
GPT-4o的发布标志着混合输入输出大模型的新里程碑,对话更丰富、速度更快。其免费使用和降低的API费用使更多人能够接触到这项技术。相较于Gemini1.5 Pro,GPT-4o在对话体验方面更胜一筹,推动了机器人和AIGC应用的发展。这一进步代表着生成式AI领域的重要发展,为人机交互和内容生成等领域带来了新的可能性。
视频生成模型如Sora和Stable Video Dissfusion常面临无法精准控制输出视频的问题,尤其是在人物动作上。可控视频模型能通过提示词精确控制视频中的人物动作。Viggle AI,作为首个具备实际物理理解能力的视频-3D模型,能自由控制角色动作,并植入于Discord平台。这种可控视频技术将显著降低数字人产品成本,并实现多样化的数字人视频创作。
用户在测试新升级的多模态AI模型Gemini 1.5 Pro后发现,尽管它支持更全面的输入类型包括文字、图片、视频、文件和文件夹,推理能力却没有显著提升,特别在分辨是非方面。此外,处理视频、文件和文件夹输入时耗时较长,并且对大量数据的处理存在限制。
On February 16, 2024, Open AI released its advanced video generation model named Sora, sparking interest almost rivalling that of GPT. Sora, which is not yet available for public use, combines Transformer and diffusion architectures for high-fidelity video simulation. Open AI’s TikTok showcases Sora’s capabilities with unedited videos from various prompts, previewing its potential impact in the burgeoning video generation field.
Google Gemini1.5 pro概述 Google Gemini1.5 pro于2024年02月15日 […]
一、Google趋势:对比“AI”,“gpt”,“palworld” 这是今天(2024/01/31)的截图。 […]
2023年11月06日,Wordpress v6.4.2发布。 两天后,我迁移自己的博客到别的服务器上。之后顺 […]