2025年6月5日:AI产业投入空前,应用边界持续拓展,竞争格局多元化
今日AI领域动态频频,Mary Meeker最新报告揭示全球AI投入空前,训练成本飙升而推理成本暴跌。OpenAI、亚马逊、英伟达等巨头持续布局,从企业级应用到创新工具层出不穷,同时行业面临版权诉讼与人才争夺挑战。
🌟 AI行业深度观察
Mary Meeker最新AI趋势报告:洞察全球AI“史无前例”变革
被称为“互联网女皇”的知名投资人Mary Meeker发布了一份长达340页的《趋势——人工智能》报告,强调AI技术发展、采纳、投入和应用速度已远超以往任何技术革命。
- 用户增长与资本支出: ChatGPT用户数在17个月内激增至8亿,年收入接近40亿美元,商业化速度远超历史任何技术产品。美国六大科技公司(苹果、英伟达、微软、Alphabet、亚马逊、Meta)在AI相关资本支出上加速增长,预计2024年将达2120亿美元,年均复合增长率高达63%,AI已从研究功能转变为重要资本支出项目。
来源:AI Base - 成本结构巨变: 报告指出,训练最强大的AI模型已成为人类历史上最昂贵、资本最密集的投入之一,每个模型训练成本常超1亿美元,Anthropic CEO预测2025年可能出现100亿美元的模型训练项目。然而,模型推理成本却在两年内暴跌99.7%,极大地降低了AI实验和产品化门槛,引发“创造力大爆发”。
来源:AI Base - 全球竞争格局与人才市场: 中国AI模型(如DeepSeek、阿里Qwen、百度文心一言)在性能上快速逼近美国,并在工业机器人装机量上超越美国。开源浪潮也打破垄断,Llama模型下载量和Hugging Face开源模型数量激增。同时,AI相关职位增长448%,但传统IT岗位需求减少,预示就业市场深刻变革,强调开发者生态的重要性。
来源:AI Base
🚀 巨头动态
OpenAI:付费企业用户突破300万,产品升级助力企业高效办公
OpenAI宣布其付费企业用户已突破300万,较2月份的200万实现爆发式增长,并预计今年营收达127亿美元。同时,ChatGPT新增核心企业功能:
- 连接器(Connectors): 支持连接Microsoft Outlook、Teams、SharePoint、Dropbox、Google Drive、Gmail等内部数据源,实现私域知识的智能检索与Deep Research。
- 录制模式(Record Mode): 专为macOS版ChatGPT Team用户设计,可录制会议音频并自动生成会议记录、待办事项和摘要等结构化内容。
来源:财联社、CNBC | 来源:OpenAI | 来源:AIGCLINK
亚马逊:大手笔投资AI基础设施,并测试人形机器人
亚马逊宣布将在北卡罗来纳州投资100亿美元扩展数据中心基础设施,以支持AI和云计算技术发展,预计创造至少500个高技能就业岗位,并支持数千个供应链岗位。

来源:AI Base
此外,亚马逊正在开发一款专门用于包裹配送的人形机器人软件,旨在逐步实现配送工作的自动化,提升物流效率并可能减少人工成本。

来源:AI Base
微软:强化欧洲网络安全,任命新Office负责人,开源AI助手
微软宣布将加强与欧洲国家政府的合作对抗网络威胁,部署由AI驱动的情报收集工作,将AI置于网络安全核心。
来源:法新社
微软任命LinkedIn首席执行官瑞安·罗斯兰斯基兼任Office产品负责人,他将负责Word、Excel以及Copilot等产品,显示微软在AI生产力领域的整合深化。
来源:路透社
微软还在Teams应用中整合了开源AI助手Athena,旨在优化产品开发流程。Athena能智能识别团队下一步工作,处理代码审查、工作项管理等重复性任务,已在微软内部2000多名工程师中投入使用,显著提升开发效率和代码质量。

来源:AI Base
Alphabet CEO驳斥AI就业担忧,强调扩张计划
Alphabet CEO Sundar Pichai驳斥了对AI可能导致失业的担忧,强调AI通过消除繁琐任务,提高工程师效率,并作为新产品开发的“加速器”来创造更多就业需求,预计扩张计划将持续。
来源:cnBeta.COM
苹果与阿里AI部署因贸易战推迟
据英国金融时报报道,苹果公司与阿里巴巴在中国推出人工智能服务的计划正被中国监管机构叫停,成为特朗普贸易战的最新牺牲品。
来源:英国金融时报
🔬 前沿技术突破
英伟达:Llama-Nemotron-Nano-VL-8B-V1发布,多模态AI新利器
英伟达发布了Llama-3.1-Nemotron-Nano-VL-8B-V1,一款8B参数的视觉到文本模型(VLM),支持图像、视频和文本输入,输出高质量文本并具备图像推理能力。该模型在OCRbench V2测试中位列榜首,可部署在云端到边缘设备,并通过AWQ4bit量化技术实现高效运行。

来源:AI Base
谷歌Gemini 2.5版本发布原生音频功能,AI对话更自然
谷歌更新了Gemini 2.5版本,标志着AI音频对话和生成技术的重大进步。Gemini 2.5是一个多模态AI系统,能够原生理解和生成文本、图像、音频、视频和代码,提供高质量的语音交互,支持风格控制、工具集成、多语言、情感对话及高级思维对话,所有音频输出均嵌入SynthID水印。

来源:AI Base
Midjourney视频功能本月上线,V8模型加速开发
Midjourney视频生成功能预计本月正式发布,将以图像到视频为核心,初期提供两种分辨率,且价格亲民。新版风格引用(sref)功能下周发布,显著提升准确性。V7.1将优化手部和身体连贯性,更令人期待的V8模型正全力研发,有望带来“巨大差异”。

来源:AI Base
日本AI逆袭全球:Shisa V2 405B开源发布,碾压GPT-4的日语神器
专注于日语微调的Shisa.AI发布了基于Llama3.1的Shisa V2 405B模型,被誉为“日本有史以来训练的最强大型语言模型”。该模型在多项日语基准测试中超越GPT-4,并与GPT-4o和DeepSeek-V3不相上下,展现了强大的日英双语处理能力。

来源:AI Base
Bland TTS:语音AI终极突破,一键克隆任意人声
Bland AI正式发布全新Bland TTS引擎,号称首个跨越“恐怖谷”的语音AI技术。仅需一个短音频即可实现任意人声克隆,并支持语调、节奏等风格的灵活“混搭”,同时具备上下文学习能力和音效生成功能,为智能客服、内容创作、虚拟助手等带来革命性应用。

来源:AI Base
Luma Labs 发布 Modify Video:AI视频后期一键改风格、换场景
Luma Labs推出全新视频编辑工具Modify Video,基于其Dream Machine平台和Ray2模型。该工具支持用户上传视频后通过文本提示进行风格重塑、场景替换、角色调整等深度编辑,大幅降低视频制作复杂度和成本,实现“一次拍摄,无限重塑”。

来源:AI Base
Suno升级AI音乐编辑工具,允许上传和混音未完成作品
人工智能音乐创作平台Suno对其音乐编辑工具进行重大升级,允许用户上传未完成的音乐作品并进行重新编排或混音,还可修改歌词,最大时长提高至8分钟。Suno目前正面临主要唱片公司的版权诉讼,但仍在积极研发新功能,并在2024年春季融资1.25亿美元。

来源:AI Base
Omdia预测:到2030年6G用户数将达2.89亿
研究机构Omdia预测,在AI的全力支持下,“6G时代”预计将在2027年至2030年间到来,到2030年全球6G用户数将达到2.89亿,RAN投资将达40亿美元,显著超越5G系统,提供更高容量、数据速率和更低时延。
来源:Omdia
💡 AI应用新场景
芝加哥米其林餐厅用ChatGPT打造九道虚拟主厨菜单
芝加哥知名餐厅Next将推出一份独特的九道式菜单,每一道菜由一位“虚构主厨”设计,而这些主厨背后的创意全部来自ChatGPT。主厨Grant Achatz通过对话构建虚拟厨师,借助AI生成菜谱并优化。

来源:The New York Times
《逆水寒》手游与可灵AI合作,上线“图生动图”玩法
热门手游《逆水寒》与可灵AI达成合作,推出全新的“图生动图”玩法。玩家可通过游戏内【剧组模式】中的【动图创作】功能,将静态截图或图片转变为个性化动图,支持品质、时长和提示词控制,甚至双人互动。

来源:AI Base
蚂蚁国际发布AI金融平台Cockpit,开启智能代理驱动新金融时代
蚂蚁国际正式推出人工智能即服务(AIaaS)平台——Alipay+ GenAI Cockpit,旨在为金融科技公司和超级应用构建AI代理和AI原生金融服务,融合自动化工作流程与智能任务编排,覆盖支付、客户引导、合规检查、欺诈检测等关键流程。

来源:AI Base
Wordsmith AI获Index领投2500万美元融资,重塑企业法务工作方式
法律科技公司Wordsmith AI完成2500万美元A轮融资,旨在通过Agentic AI和聊天机器人,帮助企业内部法务团队自动审查合同与政策文件、提取洞见,并嵌入Microsoft Word、Slack、Google Docs等工具中,提升法律团队工作效率。

来源:AI Base
腾讯公益首次引入AI大模型,提升公益项目互动体验
腾讯公益正式推出“问AI”功能,首次将大型人工智能模型应用于公益领域。用户可就腾讯公益的各类项目和机构提问,即时获取相关信息,旨在提升公众与公益组织之间的互动和透明度。

来源:AI Base
🛠️ AI工具与平台
Anthropic Claude Code现已对Pro订阅用户开放
Anthropic官方宣布,Claude Code(即Code Interpreter功能)现在也已对Pro计划用户开放。该功能可用于编写、调试代码,处理数据,甚至进行网页搜索和翻译等任务。
来源:宝玉
Cursor 1.0正式发布:Bugbot、记忆功能、一键安装MCP等亮点
AI代码编辑器Cursor发布1.0版本,推出多项新功能:
- Bugbot: 自动在GitHub Pull Request中发现潜在bug,并支持一键快速修复。
- 记忆(Memories): Beta版本,Cursor从用户交互中学习和积累知识,未来支持团队知识共享。
- 一键安装MCP: 简化模型扩展插件(MCP)的安装和配置。
- 后台智能体: 正式上线,与Slack无缝整合,并支持Jupyter Notebooks。
来源:宝玉
Jaaz开源AI设计Agent:一键批量生成图像,创意生产提速
Jaaz是一款专为图像生成设计的开源AI Agent,支持通过简单的API配置实现自动化批量图像生成。用户只需配置LLM API和图像生成API,即可自动生成批量图像,简化创意生产流程,尤其适合需要快速生成大量视觉内容的场景。

来源:AI Base
Firecrawl /search API发布:一键搜索+抓取,AI数据处理新时代
Firecrawl推出突破性功能——全新/search API,通过一次API调用即可实现网页搜索与内容抓取,输出AI友好的数据格式(Markdown、HTML、纯链接、网页截图)。该功能无需第三方依赖,完全在后端运行,高效且可靠,为智能代理、内容分析等AI应用提供高质量数据输入。
来源:AI Base
秘塔AI搜索“今天学点啥”上线PPT导出功能
秘塔AI搜索旗下AI知识分享平台“今天学点啥”上线PPT导出功能。用户在视频讲解页面可一键下载包含图文(可编辑)、语音讲解及逐字稿的完整PPT。该功能在前三天(6月5日-6月7日)限时免费,之后需消耗计算额度。

来源:AI Base
Pollo AI更新Veo3和FLUX Kontext,推出API平台
Pollo AI近期更新频繁,新增支持Veo3和FLUX Kontext模型,并推出API平台,可一次性集成市面上所有视频大模型。平台还提供贴心设计,如Veo3的英文提示词翻译开关,以及FLUX Kontext支持自定义图片比例和内置AI提示词生成工具。
来源:歸藏(guizang.ai)
💼 市场与法律
Reddit起诉Anthropic未经授权使用其数据训练AI
社交媒体网站Reddit正式起诉人工智能初创公司Anthropic,指控其违反合同并未经授权使用Reddit平台内容训练AI模型,自去年7月以来非法访问数据超十万次。Reddit已与OpenAI、谷歌等达成数据授权协议,但与Anthropic谈判未果。
来源:CNBC | 来源:彭博社
AI行业人才争夺战:Anthropic大举挖角OpenAI与谷歌高管
《商业内幕》报告显示,初创公司Anthropic正成为AI顶尖人才聚集地。OpenAI工程师跳槽至Anthropic的比例高达8:1,谷歌DeepMind部门人才流失比例达11:1。Anthropic以其对AI安全的重视、较短成立时间及股权激励吸引人才,员工留任率高达80%。

来源:AI Base
马斯克xAI获得TPG债务融资支持
有消息透露,TPG Angelo Gordon成为埃隆·马斯克旗下人工智能初创公司xAI Corp.债务融资计划的主要投资者。摩根士丹利已开始对这项债务融资进行预售,为xAI提供必要的资金支持以推动其在AI领域的发展。

来源:AI Base
英伟达董事马克・史蒂文斯一周内抛售超百万股股票
英伟达公司董事马克・史蒂文斯本周内出售超过一百万股公司股票,交易总价值接近1.5亿美元。此举发生在英伟达股票近期回升之际,引发市场对公司未来表现的关注。

来源:AI Base
摩根士丹利开发AI工具,助力旧代码现代化
金融巨头摩根士丹利开发了一款自家AI工具DevGen.AI,帮助将COBOL等老旧代码转化为现代语言。该工具基于OpenAI的GPT模型,今年已审阅900万行旧代码,节省了开发人员28万小时,解决企业软件现代化改造的痛点。
来源:宝玉
🌐 其他值得关注
TypeScript在AI应用领域地位上升
有观点认为,TypeScript正在AI应用领域逐渐蚕食Python的地位。主要原因在于AI产品普遍需要集成ChatBot等前端功能,而前端首选TypeScript。同时,TypeScript作为AI友好的语言,拥有丰富的训练语料和强类型定义,有助于AI生成高质量代码。然而,Python作为原生操作AI模型的语言,在这方面仍不可替代。
来源:宝玉
Windows 11将限制CPU以延长电池续航
微软的一篇博客文章提到“用户交互感知CPU电源管理”,Windows 11将在用户不主动使用电脑时(未检测到鼠标、键盘等交互)积极限制CPU使用率,应用激进的CPU电源管理设置,以延长电池续航。
来源:cnBeta.COM