OpenAI最近宣布了两项重大更新。首先,o3模型的价格降低了80%。其次,他们发布了一个名为o3-pro的新模型。
OpenAI最近宣布了两项重大更新。首先,o3模型的价格降低了80%。其次,他们发布了一个名为o3-pro的新模型。
O3-pro是目前OpenAI最先进的多模态模型,具有深度推理能力。它能够一步步解决问题,使其在编码、数学、科学、视觉感知等领域表现更加可靠。
我知道OpenAI在命名模型方面并不擅长。如果你对o3与GPT-4.x系列或GPT-4o的区别感到困惑,你并不孤单。这里有一个快速的总结来帮助你理解这一切:
GPT-4.x:没有高级推理能力的多模态模型。支持文本和图像。 GPT-4o:"o"代表"omni"。这个模型处理文本、图像和音频。 o3和o3-pro:具有推理能力的多模态模型。这些是"思考"模型,主要是基于文本的,有一些有限的图像支持。
这些推理模型可以代理地使用和组合ChatGPT内的每一个工具。这包括搜索网络、使用Python分析上传的文件和数据、推理视觉输入,甚至在某些情况下生成图像。
与o3模型相比,o3-pro使用更多的计算资源来更深入地思考并提供更一致的更好答案。
o3-pro是什么?
要理解o3-pro,你真的必须理解OpenAI的_o3_模型在幕后做了什么,因为o3-pro只是o3给了更多的时间和更多的计算资源来更深入地思考。
o系列模型是OpenAI专注于推理的线路。它们的训练方式与旧的GPT系列不同。不仅仅是在互联网文本上进行预训练,OpenAI通过大规模强化学习(RL)对o3进行了训练。这个想法是:你可以教模型不仅仅是复述信息,而是通过问题一步步推理。
作为一个开发者,有一点真的引起了我的注意。
在o3的开发过程中,OpenAI注意到RL展示了与GPT预训练相同的"更多计算=更好性能"的缩放。换句话说,如果你给模型更多的计算预算并让它推理更长时间,性能会持续上升,甚至超出了他们的预期。
他们使用RL技术重新追踪了缩放路径,在训练和推理中投入了_数量级_更多的计算。结果,o3在你让它思考得越多时,它就变得越聪明。
我认为这是一个关键的见解,因为它解释了为什么o3-pro存在。它不是一个单独的架构。它是o3,但每个请求运行时有更大的计算和推理预算。同样的缩放法则适用——给它更多的时间和计算,你会得到更好的答案。
OpenAI甚至验证了在相同的延迟和成本下,o3已经超过了o1。但当他们让o3"思考更长时间"时,它的性能_持续提高_。这正是o3-pro设计用来利用的。
让我们看看一些基准测试,显示o3-pro在写作、编程和数据分析等各种领域的比较评估中胜过o3。
在编码、数学和科学问题的可靠性方面,o3-pro仍然比旧的o系列模型得分更高。
o3分解复杂查询的能力,特别是多步骤编码任务或推理密集的业务逻辑,感觉比GPT-4o和4.1有了很大的提升。
例如,我尝试构建一个规划代理,它必须将一个高级目标分解为可操作的任务,并在每一步提供推理和理由。GPT-4o经常会走捷径或产生模糊的列表。o3是我使用的第一个模型,它一致地生成了详细、逻辑正确的计划。
现在有了o3-pro,开发者得到了相同的架构,但有更多的计算和推理预算。理论上,这应该给我们更可靠的深度推理和在真正困难问题上的更好表现。
o3-Pro的能力和限制
以下是o3-pro能做什么的总结:
200,000上下文窗口 100,000最大输出标记 2024年6月1日的知识截止 推理标记支持
100K的输出标记目前受到一些开发者的批评。谷歌已经支持高达1M的输出标记。为什么OpenAI不能增加这个限制?
个人而言,我并不介意100K的限制。实际上,我几乎从未使用过全部。对于长格式的结构化输出或需要管理大量状态的代理,100K是完全可用的。当我在Cursor中使用时,如果我达到了输出标记限制,代理只需请求我的许可继续这个过程。这不是什么大问题。
支持的工具(仅限API):
文件搜索 图像生成(仅输入) MCP(多模态对话编程 - 基本上是代理的工具编排)
不支持的工具:
网络搜索 代码解释器 计算机使用
换句话说,o3-pro是一个深度思考者,但不是瑞士军刀。它不会运行你的Python脚本或浏览网页。但它_会_比OpenAI迄今为止发布的任何其他模型更好地推理复杂的输入和多部分查询。
o3-pro仅通过Responses API可用,该API设计用于多轮交互,其中模型需要保持状态并更深入地推理。
o3-pro超级酷的地方在于它能够访问诸如搜索网络、分析文件、推理视觉输入、使用Python、利用记忆个性化其响应等工具。
由于扩展的思考能力和工具的使用,请求将需要几分钟才能完成。我读到一些用户测试了一些复杂的编码任务,并看到高推理提示的延迟时间为1-3分钟。因此,OpenAI明确建议使用后台模式以避免超时。
其他需要注意的限制:
目前,ChatGPT中与模型的临时聊天已禁用,而OpenAI正在解决一个"技术问题"。 O3-pro不能生成图像。 ChatGPT的Canvas功能不受o3-pro支持。
o3-Pro定价
现在让我们谈谈成本,因为如果你是一个基于此构建代理或应用的开发者,这一点很重要。
每100万标记的定价:
输入:$20 输出:$80
如果你将这个价格与现已弃用的o1-pro模型相比,那是87%的价格降低。
但请记住,o3-pro仍然比基础o3模型贵10倍。以下是三个o3模型的比较:
如果你的应用需要高吞吐量或快速响应,这将很快变得昂贵。对于真正受益于更深推理的代理,价值可能是值得的。对于休闲应用或聊天UX,o3或甚至GPT-4.x模型仍然是更好的选择。
了解更多关于每个模型的详细定价这里。
如何访问o3-pro
截至今天,ChatGPT Pro和Team用户可以在应用内访问o3-pro,取代o1-pro(已弃用)。开发者也可以通过API访问o3-pro。企业和教育客户将在下周获得它。
如果你是Plus订阅者,尚未通过API或ChatGPT访问o3-pro,这里有一个小技巧你可以尝试:
首先,前往platform.openai.com并用你的ChatGPT账户登录。然后打开Playground仪表板,在Prompts标签下,展开Model下拉菜单,你会发现o3-pro-2025–06–10
你也可以连接各种工具来激活更强大的功能,如文件搜索、图像生成、连接到MCP服务器等。
个人而言,我对MCP集成非常感兴趣。目前,只有11个应用可用作模板。你也可以通过点击"Add new"按钮并填写表格手动连接服务器。
现在,让我们继续测试o3-pro的推理能力。
提示:你的回答中有多少个单词?
O3-pro返回了正确的响应,但思考过程耗时超过34秒。对于一个简单的单字答案来说,这出奇地慢。
出于好奇,我切换到GPT-4o并问了同样的问题。GPT-4o在不到两秒的时间内回答了。
这表明你并不总是需要一个具有高级推理能力的模型来完成基本任务。选择适合工作的正确模型很重要。
尽管具有高级推理能力,o3-pro在某些视觉任务上仍然有困难。在AshutoshShrivastava分享的一个例子中,他让AI计算一个手表情符号中的手指数量。
提示:这只手有多少个手指?
AI错误地回答了5,因为图像输入显示手表情符号中有6个手指。
这可能是因为o3-pro依赖于_学习模式_而不是真正的视觉"理解"。它们在数百万张正常手的图像上进行了训练,这些手几乎总是有5个手指。所以当它们看到一只6个手指的手时,它们的内部偏见强烈地"期望"它是一只5个手指的手。
此外,这些模型的图像编码器部分有时在将图像转换为嵌入时会压缩或丢失精细细节。像额外的手指这样的微妙或不寻常的变化可能不会在语言模型推理的表示中完全保留。
无论原因是什么,计算图像中的对象、手指或精细细节仍然是任何"多模态"模型的较难任务之一。
接下来,一个更具挑战性的提示:
提示:评估在六个月内将新产品推出欧洲市场的可行性。考虑市场需求、竞争、监管要求和经济条件等因素。使用可用的市场分析工具获取准确数据。
响应耗时一分三十九秒完成。输入标记计数为47,输出标记计数为2,013。
模型返回了一个非常详细的分析,涵盖了所有请求的因素。
可行性评估:在六个月内将新产品推出欧洲市场
执行裁决
• 在六个月内在一个到三个欧盟市场实现有限(软)推出是可以实现的,如果:
– 你立即开始执行,
– 产品已经有一个MVP或最终原型,并且
– 你专注于监管和物流要求简化的国家(例如荷兰、德国或法国)。
• 在同一时间框架内进行泛欧洲、全面推出是不太可能的,除非产品是纯数字的,不需要物理物流或复杂的认证。
以下是对四个请求标准的结构化分析,随后是一个里程碑级别的时间表和风险缓解计划。
────────────────────────────────────────
市场需求
────────────────────────────────────────
方法论:使用Statista、Eurostat和Google Trends(Q2-2024数据)加上关键词量工具(SEMrush)和社交监听(Brandwatch)进行快速信号检查。
1.1 市场规模和增长
• 你的类别的总可寻址市场(TAM)(说明性):
– 智能家居设备细分:2023年240亿欧元,复合年增长率12%。
– 功能性饮料:2023年420亿欧元,复合年增长率6%。
(替换为你产品的实际细分。)
1.2 需求信号
• 在EU5(DE、FR、IT、ES、UK)中,"智能恒温器"、"节能小工具"的搜索量同比增长15-30%。
• 社交聊天:自2023年底以来,关于降低能源成本的对话增加了22%(Brandwatch)。
• 零售商预购兴趣:大型连锁店(MediaMarkt、Fnac)寻求第四季度以可持续性为中心的SKU。
结论:如果产品提供成本节约、可持续性或健康益处,潜在需求存在。
────────────────────────────────────────
2. 竞争格局
────────────────────────────────────────
2.1 集中度和关键玩家
• 大多数欧盟消费科技领域的平均赫芬达尔-赫希曼指数≈1,200-1,400→适度分散。
• 每个类别的前三大品牌通常占据40-55%的份额;对于具有利基价值主张(设计、生态认证、价格性能)的挑战者品牌有强大空间。
2.2 定价和定位窗口
• 中高端价格带(相对于类别中位数的指数110-140)显示最高的利润率(GfK面板数据)和来自AmazonBasics和中国进口的最低的直接竞争。
2.3 战略意义
• 在ESG(环境、社会和治理)指标和数据隐私(如果是物联网)上差异化。
• 利用欧盟绿色交易沟通;消费者重视碳足迹透明度。
────────────────────────────────────────
3. 监管和合规
────────────────────────────────────────
3.1 强制性认证(说明性物理设备)
• CE标记(安全、EMC、RoHS)–如果文档准备就绪,4-8周。
• REACH和WEEE注册–2-3周同时进行。
• 包装和标签:多语言,可回收性信息,FR + DE的EPR费用。
• 数据:GDPR合规(如果处理任何个人数据)。DPIA可能增加2周。
3.2 国家特定障碍
• 法国:扩展生产者责任(EPR)生态税预付款。
• 德国:VerpackG(包装注册)。
• 西班牙/意大利:ENAC/RoHS本地备案;实验室测试产品的较长交货时间。
3.3 纯数字产品说明
• SaaS/应用:只有GDPR、ePrivacy、消费者保护(Omnibus指令)→较低障碍,轻松在六个月内。
────────────────────────────────────────
4. 经济和运营条件
────────────────────────────────────────
4.1 宏观指标(Q2-2024)
• 欧元区GDP增长:0.6%(温和但积极)。
• 通货膨胀:2.4%—回落至ECB目标;缓解成本压力。
• 消费者信心指数:-14(仍然负面但正在恢复)。
→ 消费者仍然对价格敏感;物有所值的定位很重要。
4.2 供应链现实
• 从亚洲到欧盟港口的货运交货时间:35-42天(红海改道)。
• 欧盟内陆卡车运输能力稳定;费率同比下降6%。
• 组件短缺(MCU、Wi-Fi芯片)缓解;交货时间≈12-14周。
4.3 劳动力和招聘
• 可以通过代理机构招聘专门人员(监管事务、本地营销);平均合同入职时间为3-4周。
────────────────────────────────────────
5. 六个月时间表(倒排计划)
────────────────────────────────────────
第0个月(现在)
• 最终确定产品规格、BoM和试运行。
• 任命CE + GDPR的授权代表。
第1个月
• 开始符合性评估和实验室测试。
• 锁定制造槽;启动包装设计(多语言)。
• 市场研究深入;选择推出国家。
第2个月
• 提交CE文档;预注册WEEE/EPR号码。
• 排队3PL合作伙伴(荷兰或德国枢纽)。
• 与零售商确认SKU和EAN创建。
第3个月
• 接收测试报告;附加CE。开始大规模生产。
• 软启动数字营销(等候名单、影响者预告)。
• 为每个国家本地化电子商务网站和T&C。
第4个月
• 货物在水上/铁路上。
• 获得保险,最终确定退货物流。
• 简报PR机构;确保推出日媒体独家。
第5个月
• 海关清关进入欧盟枢纽仓库。
• 零售商销售会议;加载产品页面。
• 最终QA,随机样本测试。
第6个月(推出)
• 上线D2C和选定的零售商。
• 启动付费媒体活动;跟踪KPIs(CPA、ROAS、销售通过)。
• 立即推出后客户反馈循环。
────────────────────────────────────────
6. 关键风险和缓解措施
────────────────────────────────────────
风险1:测试延迟→在时间表中缓冲2周;预预订实验室。
风险2:组件短缺→双源关键IC,保持20%的安全库存。
风险3:监管变化(例如AI法案)→聘请欧盟法律顾问,设计可解释性。
风险4:货币波动→如果收入以GBP或USD计价,对冲50%的EUR购买。
风险5:需求预测不足→使用可扩展存储的3PL;分阶段生产订单。
────────────────────────────────────────
7. ROI快照(说明性)
────────────────────────────────────────
• 单位落地成本:€42
• 批发价格:€85(零售商利润率35%),D2C价格:€99
• 混合毛利率:45%
• 盈亏平衡量:≈35,000单位(资本支出+工具€600k,OPEX推出€950k)。
以12个月销售目标100,000单位(中案例),IRR~36%。
────────────────────────────────────────
8. 决策矩阵
────────────────────────────────────────
评分1-5(5=非常有利):
• 市场需求:4
• 竞争:3
• 监管障碍:3
• 经济气候:3
• 运营准备(六个月窗口):3
加权平均(等权重)=3.2→可行但紧张;专注很重要。
────────────────────────────────────────
建议
选择分阶段推出:从D2C + 1个大零售合作伙伴在DE或NL开始,然后扩展。
立即确保测试/认证槽;将它们视为关键路径。
在营销中强调ESG和成本节约效益;与消费者情绪和欧盟政策一致。
早期对冲供应链和货币风险。
为未预见的监管或物流成本建立10%的应急预算。
如果执行团队本月承诺资源,六个月内市场进入对于受控、高影响力推出是现实的。
这正是o3-pro闪耀的推理任务类型。对于深度规划或多因素评估,模型明显比简单的LLM更有能力。
最终想法
对我来说,这次更新很重要。不是因为我认为o3-pro是最好的模型,而是因为大幅降价现在使更多开发者能够接触到高级推理模型。
在过去三年中,我一直在使用编码代理来帮助我构建和推出web应用。在OpenAI的模型中,o3给了我最好的编程结果。现在有了更低的价格和o3-pro的发布,我终于可以开始在重要的地方更频繁地使用这个模型了。o3-pro提供的推理深度对于复杂任务可能是一个很大的优势。
o3-pro的价格并不便宜。但对于需要更深思考和更高质量推理的代理或应用,价值可能是合理的。我需要更多的测试时间来确认。
我也在密切关注竞争。就在OpenAI的o3-pro发布后,我读到谷歌正准备推出新的Gemini Ultra模型。如果Gemini Ultra最终更便宜、更快、在编码或推理方面更好,那么这个月我们真的会看到模型之间的一场有趣战斗。
目前,我正在等待o3在Cursor中可用。那是我做很多编码工作的地方,能够将o3与Claude 4 Sonnet、Opus和Gemini 2.5 Pro在Cursor中并排比较,将告诉我它在日常开发中真正有多有用。
我将在本周测试o3-pro更多,并关注其他开发者的反馈。如果结果保持一致良好,我可能会升级我的订阅,并开始在即将到来的项目中更认真地使用它。
当然,我很想听听你对o3-pro的看法。你已经测试过了吗?
专注搞钱与健康 | "欢迎关注、点赞、分享"
爆料 / 交流 / 合作:请加微信 ifloop
加入副业交流群:请加微信 ifloop(备注加群)
推荐阅读
没有评论:
发表评论