观察

GPT-4o:免费的混合输入和混合输出大模型

2024年6月10日 · 1 分钟阅读

概述

GPT-4 “o”了。

GPT-4o发布了。

你可以通过语音和它对话，可以让它给你唱歌了。

GPT-4o的特点和优势

混合输入和混合输出

混合输入，就是你可以同时输入文字、图像、语音、视频等

混合输出，就是GPT-4o可以同时输出文字、图像、语音、视频等。

这样一来，输入和输出更加丰富，更加人性化。

速度更快

GPT-4o的速度比GPT-4 Turbo快了不少，几乎和人类的反应速度差不多了。

以上两点，使得和GPT-4o的对话，和真人对话很相似。

GPT-4o的价格

GPT-4o可以免费使用。

它的API使用费也比之前降低了一半。

GPT-4o VS Gmini1.5 Pro

同样是混合输入和混合输出的大模型Gemini1.5 Pro，发布时间要早于GPT-4o，技术和各方面的性能其实和GPT-4o相差无几。

然而，在对话的体验方面，Gemini1.5 Pro要明显的比GPT-4o差一些。

其实，这也是情理之中的，毕竟使用GPT的用户比使用Gemini的用户多太多了，这就导致GPT每天的对话量远远大于Gemini，时间一长，自然就会有差距。

当然，如果只是生成内容，那其实这种差距就不会有那么明显了。

GPT-4o的应用场景

机器人

GPT等大模型的出现，直接推动了机器人产业的发展。

GPT-4o将对话体验做到了和真人几乎一样，那么必将让机器人产业有新的发展。

AIGC应用

GPT-4o给各种AIGC应用提供了一个好的接口，有很多同时会生成文本、图片、语音等混合内容AIGC应用可能会大量出现。

结论

GPT-4o和Gemini1.5 Pro这样的混合输入和混合输出的大模型的出现，对于生成式AI来说是一次大的进步。

参考

https://openai.com/index/hello-gpt-4o/

独立产品人日记

记录独立产品、AI 工具、增长方法和技术实践。

返回博客列表订阅 RSS

观察

2026年7月10日 · 1 分钟阅读

GPT 5.6发布：Codex升级为ChatGPT

GPT 5.6 发布后，Codex 升级为 ChatGPT。记录新版客户端整合聊天记录、支持手动编辑代码，以及 Luna、Terra、Sol 三个版本的使用感受。

观察

2026年6月18日 · 1 分钟阅读

AI UI Designer：如何快速搞明白你的产品长什么样

很多人用AI UI Designer并不是在设计UI界面，而是在探索自己想要做的产品。把模糊的产品想法交给AI，让它帮你规划页面、梳理流程、生成原型，让产品从模糊变清晰。

观察

2026年6月14日 · 2 分钟阅读

从Claude Fable 5说起：自动化不等于AI Agent

通过两个实际案例，探讨自动化与AI Agent的本质区别——明确工作流用脚本，模糊步骤用Agent，优先不使用AI才是成本最优的自动化方案。