2025年7月3日:大模型编码与视觉能力齐飞,AI生产力工具持续迭代
今日AI领域热点频出。Anthropic的Claude Code推出了Hooks功能,大幅提升代码代理的自动化能力;字节跳动发布了单目视频生成极端视角4D视频的EX-4D工具及上下文图像编辑模型VINCIE-3B。此外,多款AI驱动的生产力工具如星流Agent和Excel助手Shortcut也迎来重要更新。
今日AI领域动态丰富,从大模型的底层能力提升到面向终端用户的创新应用,都展现出人工智能技术日益成熟和普及的趋势。Claude Code通过引入更灵活的自动化机制,进一步赋能开发者;字节跳动在视频和图像生成领域持续深耕,带来了令人惊艳的视觉内容创作工具;同时,AI在设计和办公效率方面的应用也日趋完善,预示着未来工作方式的深刻变革。
Claude Code 推出 Hooks 功能,增强自动化与协作能力

摘要: 据 dotey 和 op7418 报道,Anthropic 旗下的 Claude Code 近期推出了名为“Hooks”的新功能。类似于 GitHub Hooks,此功能允许用户在 Claude Code 代理循环(agent loop)中的特定事件(如任务完成)自动执行自定义的 Shell 命令。这意味着开发者可以更精确地控制和自动化代码生成及处理流程,例如在代码完成后自动执行 Lint 或格式化操作。此外,用户可以添加自定义指令,如 /project:ultrathink-task
,调用架构、研究、编码和测试等多个智能体,模拟小型开发团队协作完成复杂任务,大幅提升开发效率。
一句话点评: Hooks的引入使大模型在软件开发流程中的集成度更高,向真正的“智能体工作流”迈出重要一步,极大地提升了AI辅助编程的灵活性和实用性。
字节跳动发布 EX-4D,单目视频生成极端视角4D内容

摘要: 据 aigclink 消息,字节跳动推出了一款名为 EX-4D 的工具,能够从单一视角视频生成极端视角的4D视频内容。该工具在极端视角下(相机运动范围达-90°至90°)依然能保持较强的生成能力和几何一致性。其核心技术在于使用了深度水密网格技术,确保了场景的完整性,即使从物体的背面或从地面向上观看,画面依然保持真实一致,避免了物体变形或突然消失的问题。
一句话点评: EX-4D在多视角视频生成方面取得了显著突破,其强大的几何一致性为沉浸式内容创作和虚拟现实应用带来了新的可能性。
Lovart 官方中文版“星流Agent”上线,大幅提升设计效率

摘要: 据 oran_ge、imxiaohu 和 op7418 透露,知名AI设计师工具 Lovart 的官方中文版“星流Agent”已正式上线。这款工具支持从Logo、海报到图片和视频的“一句话”智能生成。其最核心亮点是集成了最新的 FLUX.1 Kontext 模型,可实现一键批量修改图片,例如在测试中仅凭一张参考图和一句简单指令,便能生成多种配色和环境风格的海报,甚至能同步修改车身和天空的颜色。星流Agent中文支持更加友好,且内置了Veo 3模型(被称为Video 3模型),极大地降低了专业设计门槛,无需设计基础即可进行复杂创作。
一句话点评: 星流Agent的推出结合了强大的生成模型和便捷的中文支持,有望让AI设计真正普及,赋能更多普通用户进行专业级创作。
AI Excel 助手 Shortcut:自然语言驱动,效率十倍提升

摘要: 据 imxiaohu 和 op7418 报道,Shortcut 是一款超强的 AI Excel 助手,通过自然语言对话自动处理 Excel 表格,无需编写公式或 VBA 代码。用户只需描述任务,如“帮我计算总销售额”,Shortcut 即可自动完成填充、格式化、计算、透视表和图表生成等操作。该工具在 Excel 世界锦标赛案例中,能在10分钟内得分超过80%,比人类快10倍,并且拥有接近 Excel 的全部功能,包括直接编辑、导入和导出文件,对于财务和数据分析人员而言,具有巨大的效率提升潜力。
一句话点评: Shortcut将Excel操作从繁琐的公式和代码中解放出来,让数据处理变得像对话一样简单,是AI赋能办公自动化的又一里程碑。
NVIDIA TensorRT 加速 FLUX Kontext 与 Google Gemma 3n

摘要: 据 op7418 消息,英伟达的加速生成服务 TensorRT 现在已支持 FLUX Kontext,使其生成速度加快两倍。同时,谷歌的最新模型 Gemma 3n 也获得了 TensorRT 的加速支持。这意味着这两个重要的AI模型在推理和生成效率上将有显著提升,为更流畅、更快速的应用部署提供了硬件层面的强力支持。
一句话点评: 芯片巨头与模型开发者深度合作,通过底层优化加速AI模型运行,是AI技术从研究走向大规模应用的关键一环。
字节跳动开源上下文图像编辑模型 VINCIE-3B

摘要: op7418 报道称,字节跳动开源了一个名为 VINCIE-3B 的图像编辑模型,该模型支持上下文连续图像编辑。VINCIE-3B 能够根据一系列文本描述和之前生成的图片,对现有图片进行智能修改。其训练方法颇具创新性:不同于传统需要专家模型生成训练数据的方式,VINCIE-3B 直接从视频中学习,将视频自动转化为多模态(文本+图片)序列进行训练,使其不仅能编辑单一图片,还能组合多个概念,甚至生成一系列具有故事性的图片。
一句话点评: VINCIE-3B在图像编辑领域实现了多模态和上下文理解的进步,尤其是其独特的视频学习方法,为未来AI内容创作开辟了新路径。
Bilibili 开源动漫视频生成模型 AniSora 更新 V3

摘要: 据 op7418 消息,Bilibili 开源的动漫视频生成模型 AniSora 已更新至 V3 版本。新版本支持一键生成多种风格的动漫视频镜头,包括番剧片段、国创动画、漫画视频改编、VTuber内容以及动画PV、鬼畜(MAD)等,极大地丰富了动漫内容创作者的工具箱,有望推动AI辅助下的动漫创作和个性化内容生产。
一句话点评: AniSora V3的更新标志着AI在垂类内容生成领域的专业化和精细化发展,对于二次元文化爱好者和内容创作者来说是重要的利好。
Freepik 平台开放无限 AI 图像生成服务
摘要: 据 op7418 消息,知名设计资源平台 Freepik 现在对 Premium+ 和 Pro 订阅用户开放了无限额度的AI图像生成服务。平台支持的模型包括 Mystic、Google Imagen、Flux、Seedream、Ideogram、Runway References 和 GPT,为专业设计师和内容创作者提供了极其丰富的AI生成能力,降低了创作成本,提升了效率。
一句话点评: Freepik的无限生成服务是AI生成内容普惠化的重要一步,将极大地促进设计和创意行业的AI应用。
Perplexity 推出 Perplexity Max 服务
摘要: 据 op7418 报道,AI问答搜索引擎 Perplexity 推出了新的订阅服务 Perplexity Max。该服务将为用户提供无限额度的 Labs 查询,允许其使用更广泛的前沿模型套件,并能提前体验如 Comet 等未来产品,为需要深度研究和前沿模型体验的用户提供了更多便利和强大的功能。
一句话点评: Perplexity Max的推出满足了高端用户对更多算力和前沿AI模型的需求,是知识问答类产品向专业化服务延伸的体现。