互联网观察

GPT-4o:免费的混合输入和混合输出大模型

GPT-4o的发布标志着混合输入输出大模型的新里程碑，对话更丰富、速度更快。其免费使用和降低的API费用使更多人能够接触到这项技术。相较于Gemini1.5 Pro，GPT-4o在对话体验方面更胜一筹，推动了机器人和AIGC应用的发展。这一进步代表着生成式AI领域的重要发展，为人机交互和内容生成等领域带来了新的可能性。

互联网观察作者：neo yang

Viggle AI: 如何生成人物动作可控的视频

视频生成模型如Sora和Stable Video Dissfusion常面临无法精准控制输出视频的问题，尤其是在人物动作上。可控视频模型能通过提示词精确控制视频中的人物动作。Viggle AI，作为首个具备实际物理理解能力的视频-3D模型，能自由控制角色动作，并植入于Discord平台。这种可控视频技术将显著降低数字人产品成本，并实现多样化的数字人视频创作。

互联网观察作者：neo yang

Google Gemini 1.5 Pro亲测：强大与脆弱并存

用户在测试新升级的多模态AI模型Gemini 1.5 Pro后发现，尽管它支持更全面的输入类型包括文字、图片、视频、文件和文件夹，推理能力却没有显著提升，特别在分辨是非方面。此外，处理视频、文件和文件夹输入时耗时较长，并且对大量数据的处理存在限制。

互联网观察作者：neo yang

2024年02月热点：Sora——Open AI的视频生成大模型

On February 16, 2024, Open AI released its advanced video generation model named Sora, sparking interest almost rivalling that of GPT. Sora, which is not yet available for public use, combines Transformer and diffusion architectures for high-fidelity video simulation. Open AI’s TikTok showcases Sora’s capabilities with unedited videos from various prompts, previewing its potential impact in the burgeoning video generation field.