kaggle · COCOLOOP

使用说明

核心用法

Kaggle Skill 是一个面向数据科学和机器学习工程的综合集成工具，提供四大核心模块协同工作：

1. Registration（注册模块）：自动化完成 Kaggle 账户设置与 API 凭证配置，支持三种凭证类型（KAGGLE_USERNAME、KAGGLE_KEY、KAGGLE_API_TOKEN）的统一管理和安全存储。

2. Comp-Report（竞赛报告）：通过 Python API 获取竞赛元数据，结合 Playwright 进行 SPA 内容抓取，生成包含问题描述、评估指标、排行榜和解决方案的综合性竞赛 landscape 报告。

3. KLLM（核心交互模块）：提供四种 Kaggle 交互方式——kagglehub（Python SDK 快速下载）、kaggle-cli（完整工作流脚本）、MCP Server（AI Agent 集成）、Kaggle UI（账户管理），覆盖数据集/模型下载、笔记本执行、竞赛提交、资源发布等全场景。

4. Badge-Collector（徽章收集器）：系统化自动化获取约 38 个 Kaggle 徽章，分 5 个阶段执行（Instant API、Competition、Pipeline、Browser、Streaks），支持进度持久化和断点续传。

显著优点

全栈覆盖：从账户注册到竞赛夺冠的完整数据科学生命周期支持
多模式交互：灵活适配不同技术栈和使用场景（Python/CLI/Browser/Agent）
安全优先设计：凭证掩码显示、文件权限 600、资源默认私有、API 速率限制
自动化能力：徽章收集和竞赛报告大幅减少重复性手动操作
免费算力利用：无缝集成 Kaggle Kernel Backend 的免费 GPU/TPU 资源

潜在缺点与局限性

依赖官方生态：kagglehub v0.4.3 存在 dataset_load()() 损坏等已知问题，需使用替代方案
竞赛规则限制：Phase 2 竞赛提交需用户先在网页端手动接受竞赛规则，无法完全自动化
Playwright 可选依赖：Phase 4 浏览器自动化需要额外安装 playwright，增加环境复杂度
个人开发者维护：非 Kaggle/Google 官方项目，长期维护稳定性存在不确定性
网络环境要求：需稳定访问 Kaggle 官方 API 和 Google Cloud Storage

适合的目标群体

Kaggle 竞赛参与者：需要系统化追踪竞赛动态、快速提交方案的数据科学家
ML 工程师：需要批量下载预训练模型、数据集进行迁移学习或基准测试
教育机构/学生：利用免费 GPU/TPU 资源进行机器学习课程实践和作业提交
自动化爱好者：希望系统化获取 Kaggle 徽章、建立技术影响力档案的开发者
AI Agent 开发者：需要通过 MCP Server 将 Kaggle 能力集成到自主代理系统中

使用风险

凭证泄露风险：虽然已采取掩码和权限控制，但 .env 和 kaggle.json 的本地存储仍需用户严格管理
资源创建可见性：虽然默认私有，但误操作可能导致敏感数据集/模型意外公开
API 限流影响：大规模批量操作可能触发 Kaggle API 速率限制，影响工作流连续性
竞赛合规性：自动化提交需确保符合各竞赛的具体规则，避免成绩被取消
依赖更新滞后：官方 SDK 更新可能导致 Skill 脚本出现兼容性问题，需关注版本适配

data-analytics machine-learning education-research automation api development-engineering content-media

kaggle 内容

modules文件夹

badge-collector文件夹

references文件夹

scripts文件夹

templates文件夹

comp-report文件夹

references文件夹

scripts文件夹

kllm文件夹

references文件夹

scripts文件夹

registration文件夹

references文件夹

scripts文件夹

shared文件夹

手动下载zip · 77.1 kB

badge-catalog.mdtext/markdown

请选择文件