核心用法
Nano Banana Pro 是一款基于 Google Gemini 3 Pro Image API 的图像生成与编辑 Skill,通过命令行脚本实现三种核心功能:
1. 文本生成图像:使用 uv run 执行 generate_image.py,通过 --prompt 参数描述所需图像内容,,--resolution 指定 1K/2K/4K 输出分辨率,结果自动保存为 PNG 格式。
2. 单图编辑:添加 -i 参数传入现有图像路径,结合编辑指令 prompt 实现局部修改、风格迁移或内容增强。
3. 多图合成:支持最多 14 张输入图像的复杂场景组合,适用于创意拼贴、场景融合等高级创作需求。
API 认证通过 GEMINI_API_KEY 环境变量或配置文件管理,脚本输出包含 MEDIA:: 标记便于 Moltbot 自动附件识别。
显著优点
- 官方 SDK 保障:采用 Google 官方
google-genai库,协议合规、更新及时,避免第三方封装的不确定性。 - 分辨率灵活:1K/2K/4K 三档输出适配不同场景,从社交媒体预览到印刷级素材均可覆盖。
- 多图处理能力:14 张图像上限超越多数同类工具,适合复杂视觉叙事和批量素材整合。
- 生态集成:与
uv现代 Python 包管理器深度整合,依赖解析和隔离自动化,降低环境配置成本。 - 输出规范:强制时间戳命名约定减少版本混乱,MEDIA 标记实现与聊天机器人的无缝衔接。
潜在缺点与局限性
- 外部 API 依赖:功能完全绑定 Google 服务,网络中断或 API 变更将直接导致服务不可用。
- 密钥管理负担:用户需自行申请并保管 Gemini API 密钥,存在泄露风险和配额管理复杂度。
- 无本地模型选项:所有计算在云端完成,无法离线使用,敏感图像内容需上传至 Google 服务器。
- 输出格式单一:仅支持 PNG 输出,缺乏 JPEG 质量调节、WebP 优化或透明通道精细控制选项。
- 编辑可控性有限:基于 prompt 的编辑依赖模型理解能力,精细像素级调整或遮罩编辑无法实现。
适合的目标群体
- 内容创作者:博主、设计师、营销人员需要快速生成配图或视觉素材。
- 开发者与产品经理:原型设计阶段需要低成本、高效率的视觉概念验证。
- AI 工作流集成者:已将 Moltbot 或类似 Agent 平台纳入日常工具链的技术用户。
- 教育与研究:需要批量生成示例图像用于教学材料或数据集构建的学术场景。
使用风险
- 性能波动:图像生成耗时受网络延迟和 Google API 负载影响,4K 分辨率可能出现超时或重试。
- 成本累积:Gemini API 按调用计费,高频使用或高分辨率输出可能产生意外费用。
- 内容合规:生成内容受 Google 使用政策约束,特定主题可能触发审核或拒绝。
- 文件覆盖:未检查目标路径是否存在,重复运行可能意外覆盖历史输出。
- 依赖版本锁定:
google-genai>=1.0.0的宽松约束可能在未来引入破坏性变更。