GPT-5猛了，但普通人不感兴趣了 - 程序员中文网-程序员中文网

“头部应用 DeepSeek 月均下载量较第一季度环比下跌 72.2% ；腾讯元宝月均下载量环比下跌 54% ； Kimi 月均下载量环比跌 57.7% 。”

文 / 巴九灵（微信公众号：吴晓波频道）

900天，GPT-5终于闪亮登场，但是朋友圈似乎并没有那么热闹。

圈内人士转发点赞，说要“抢走打工人饭碗了”，而圈外人士了无波澜。

图源：OpenAI官网

在发布会前后，OpenAI CEO山姆·奥特曼做足了给世界一个“惊喜”的氛围。

会场前说，面对GPT-5，感觉自己一无是处；会场中，把GPT-5形容为熟悉各个领域的专家；在会后的宣发文章，则是强调它“博士级”的智能水平。

奥特曼甚至不惜否定前作：“GPT-3像个高中生，GPT-4像个大学生。”“我尝试过用回GPT-4，但效果相当糟糕。”

他在发布会上反复强调这些话。

OpenAI发布会，山姆·奥特曼

怎么形容GPT-5呢？结合报道和专家分析，总结如下

◎ 首先，编程能力变强了。

比如，可以两分钟就可以搭建出一个完整网站，五分钟做出一款语言学习App，并能精准识别并修复Bug。

当然，还是不免出现Bug。比如，演示过程中展示的性能测试图表制造了GPT-5“碾压式领先”GPT-o3和GPT-4o模型的“幻象”。

◎ 其次，实现免费了。

GPT-5首次使用推理模型来支持ChatGPT的免费版本。用奥特曼的话来说：“让每个人都能获得博士级别的智慧。”

知名数字经济学者刘兴亮高速小巴，“这反映了AI应用正逐渐迈向‘免费也能用上高级能力’的趋势，标志着更复杂、更可靠的AI技术正在普惠大众，不再局限于付费人群。”

但是，“不是真免费，有限制，用多了或者问题太复杂，它就会切换成“迷你版”（GPT-5 mini），这个版本能力就弱一些了。想一直用好的，还是得掏钱买Plus或者更贵的Pro。”深度科技研究院院长张孝荣如此补充道。

◎ 第三，下了大力气解决“AI幻觉”。

GPT-5联网搜索时错误率比GPT-4o低45%，独立思考时错误率比OpenAI o3低80%。

OpenAI发布会

然而，就在GPT5发布前的几个月，人们对AI应用的热情出现明显消退。

点点数据显示，2025年5月，全球AI APP苹果App Store与谷歌GooglePlay双端预估下载总量达2.8亿次（不含重复下载），环比4月下滑了16.4%。

6月，下载总量达2.7亿次，环比下滑了1.6%；7月，3.4亿次，环比6月上涨了24.9%。

此外，TOP 5应用下载量占比中，ChatGPT、Google Gemini分别由6月份的35%和8%下滑至7月份的29%和5%。

在国内，据《2025年二季度AI应用价值榜》显示，头部应用DeepSeek月均下载量较第一季度环比下跌72.2%，其MAU环比下滑9.3%；腾讯元宝月均下载量环比下跌54%；Kimi月均下载量环比跌57.7%，同时MAU环比降35%。

姗姗来迟的GPT-5到底带来了哪些突破性的改变，为什么普通人对包括它在内的AI应用不再“热诚”，要如何唤起大家对AI的兴趣？小巴邀请了业内人士来深入谈谈。

GPT-5的核心优势是什么？哪些方面不如预期？

陆新之

商界AI新媒体总编辑

央媒评论员

可能是因为事先张扬很久，千呼万唤始出来之后，倒没有感觉到特别惊艳。

但是用起来还是能有变化，回答更严谨，准确度变高，也更简洁了。

实事求是来说，今时今日的大模型的版本进化，不会有太革命性的飞跃了。

之前4o的多模态发布那次的惊艳感，已经很难重现。暂时可见，对比国内的DeepSeek、豆包和通义等同类，GPT-5还是综合能力更强一些，而且自动动态切换思考和非思考模型。

初步感觉的这版核心优势，就是代码能力和推理能力的进化，这个大部分普通人感知不明显，开发者可能感知明显一些。

当然，不及我们期待的，就是Agent能力，因为这应该是OpenAI的方向之一，本来期待的是一出来就可以替代大部分通用Agents，显然现在还做不到，得等下一版了。

张孝荣

深度科技研究院院长

GPT-5确实进步不小，好用多了，但没能成神。

尤其是所谓“博士级智能水平”还是有点夸大。

我认为，它在编程领域进步最突出，比如让它写个带学习功能的法语小游戏网页，几分钟就能整出来，代码写得还挺好看，比之前处于大学生水平的GPT-4强一截。数学推理能力的得分也不错，准确率提升，幻觉率下降。

看病历报告啥的，也能解释得比较清楚，还带点人情味儿（当然，医生还是得看，不能全靠它）。

文章写作上，比上一代更接近人类风格，当然，跟人类作家相比，还是有点生硬。

中文能力还是差点意思。用中文写东西，比如写短视频脚本、文章啥的，它出来的东西还是有点“外国味儿”，语感不如国内的通义千问，DS，文小言等。

看图看视频的能力，也比不过之前的GPT-4o和国内的通义，比如让它分析个复杂图表或者中国公司财报，就很容易抓瞎。

AI幻觉下降是值得称道的一大进步。比如让它上网查资料再回答，它犯错几率比GPT-4o低了45%；让它认真思考复杂问题，犯错几率比之前的“聪明版”低了80%。实在搞不懂或者问题不对，它也会老实承认“我不会”或者“你这问题有问题”，不会硬着头皮瞎蒙。

美国用户使用OpenAI GPT-5人工智能模型

刘兴亮

知名数字经济学者

工信部信息通信经济专家委员会委员

1.形态进化。从“选模型”到“模型会选自己”，GPT-5直接成了ChatGPT的默认款，会根据任务自动决定“快答”还是“深想”，你也能手动切换到“GPT-5 Thinking/Pro”来走更长推理，而且这次面向所有用户开放，付费用户只是额度更高，同时还上了语音升级、学习模式，以及接入了Gmail/日历等“生活插件”。

一句话，少折腾菜单，多交付结果。

2.硬指标+新工具。码得更像人，写得更像你。官方放出的基准显示，GPT-5在数字、真实世界编码、视觉和健康等多项评测拔尖，并且强化多步指令与工具编排……翻译成人话就是：写代码更少废话，走流程更少走神。

3.更聪明不等于更“上道”，更安全不等于没风险。

我很认可它在推理/编码的进步，但在写作质感和AGI跨度上并没有达到我的想象。OpenAI一边高举“更少幻觉/更少欺骗”的大旗，一边推出“Safe-Completions”安全训练并承认涉及生物等领域的高风险属性，这意思就是说能干的更多了，能“作妖”的边界也得更严。

在商业层面上，GPT-5更像一台利润引擎，铺开给全体用户，押注企业用量会放大。所以，我给GDP-5的初步结论是四个更——更快更强更准更懂我。

但我更想强调的是，别急着给程序员写墓志铭，也别指望它给PPT装灵魂，先把它当超级实习生，该放权放权，该验收验收。

怎么看国内外头部AI应用的下载和月活出现明显下滑？

陆新之

商界AI新媒体总编辑

央媒评论员

大模型厂家与巨头很兴奋，但是一直没有刚需应用，还缺一个现象级出圈的产品，所以在杀手级应用出来之前，大多数开发者与中小公司还得煎熬一段。AI时代也在呼唤移动互联网时代的TikTok与拼多多。

现在的AI应用发力方向，逐步转向业务+AI，而不是纯AI应用，这是比较务实的。但是也缺少一点想象力。目前，除了顶级的大模型，大部分AI应用都是基于原有的业务或者行业经验+AI去做原有业务的增长和进化。当然，原生AI应用新造的需求很难出圈，目前也难有清晰的商业模式。但是真正未来能够指数级发展的公司，更大可能还是在原生AI应用。

张孝荣

深度科技研究院院长

当前下滑是行业挤泡沫的阵痛，用户过了尝鲜期，只保留有用的工具，这也是市场走向成熟的必经之路——能活下来的，必是那些让AI从“炫技”变成“水电煤”的产品。那些蹭热点、同质化、做流量、创新不足的产品，注定会被淘汰。

现在AI圈打得很热闹，基本是“巨头打架，小厂找缝钻”的局面，现在拼的是谁能绑定用户生活、谁更便宜、谁解决实际问题。单打独斗的小AI，基本没戏了。

从国内外对比来看，国外AI在算力上领先优势明显，技术迭代速度加快。

刘兴亮

知名数字经济学者

工信部信息通信经济专家委员会委员

普适型聊天机器人疲软，用户兴趣转移。通用AI聊天应用下载量大幅下降，MAU也下滑明显，这说明这一类产品已经失去新鲜感，用户转而青睐更具针对性的工具型应用（如办公、教育类AI工具）。

产品定位与差异化不足。很多AI社交或聊天产品同质化严重，功能体验重复、引导缺乏新意，导致用户留存率下降、兴趣减弱。

行业转向“功能垂类”应用。诸如AI写作、在线辅导、助考类工具，在特定场景需求推动下表现仍强劲（如毕业季写作需求上涨、AI高考志愿专家应用暴涨）。

AI应用市场已从“聊天爆款”回归理性阶段，用户更愿意为“解决实际问题”的垂直应用埋单。

AI是否已经开始改变了人们的生活？

张孝荣

深度科技研究院院长

在重复劳动、数据活上超有用，但搞艺术、做复杂决策、惠及普通人还差点意思，现在还是花拳绣腿，最多只发挥了六成功力。

大模型本质是“语言缝合怪”，全靠拼词造句碰答案，不懂分辨事实真假，加强伦理限制后，幻觉率更高。从根本上说，AI幻觉像“改不掉的撒谎习惯”，能管住七八成就不错了，现在有许多技术可以减少AI幻觉，但是没法根除。

陆新之

商界AI新媒体总编辑

央媒评论员

目前，AI应用的价值还远远没有发挥出来，无论是对于工作与生活。更多的用户还是当一个问答机器人，加点画画生成视频等等，还是很浅的尝试。

比如教育，对于懂AI的人来说会用提示词就能把豆包变成一个很好用的教育工具，但是对于普通人就不知道怎么问，所以现阶段的Agents有真实的需求，也能够发展得快。对智能体来说，2025年下半年是一个窗口期。

幻觉问题我反而不是很担心，因为还是能有解决的方法。大模型都有一个范围调节，创意优先的选择但是自然幻觉率最高，而控制幻觉率的话，容易回答不全面，这也取决于个体的使用习惯。

其实大模型的预训练的数据相对来说还是比较可控的，主要是联网搜索之后的内容常常出问题，这个需要巨头后面改善搜索的RAG技术。同时，个人也要对于幻觉有警惕与觉察，要有自己的判断来使用。

Source link

近期文章