核心用法
investment-data 是一款面向 A 股市场的专业数据获取工具,基于 chenditc/investment_data 开源项目构建。用户可通过 Python API 或命令行两种方式操作:Python 端提供 InvestmentData 客户端类,支持 get_stock_data()()、()、get_index_weights()()、()、get_limit_data()() 等方法进行精细化查询;命令行端则提供 query.py、、query_batch.py、、update_data.py 等脚本,便于批量处理和自动化集成。数据覆盖日终价格(开高低收、成交量额)、涨跌停状态、指数成分权重及前后复权价格,每日自动更新并通过多数据源交叉验证。
显著优点
数据质量可靠:采用 final、Tushare、AKShare、Yahoo 等多源优先级策略,自动修正异常值,包含退市公司历史数据,完整性优于单一数据源。格式兼容性强:原生支持 Qlib 量化框架格式,同时提供 CSV、JSON、Excel 等多种导出格式,降低与现有工作流整合成本。自动化程度高:内置定时更新机制,可通过 OpenClaw cron 配置每日 9:00 自动拉取最新数据,减少人工维护成本。存储与性能优化:约 5GB 的本地化存储设计,查询响应快,适合大规模回测场景。
潜在缺点与局限性
实时性不足:数据为 T+1 日终更新,无法满足高频交易或实时盯盘需求。网络依赖严格:首次下载及日常更新需稳定访问 GitHub API 和 DoltHub,国内网络环境可能需配置代理。可选功能受限:实时数据更新需自备 Tushare Token,免费版有调用频次限制。解压安全风险:使用 tarfile.extractall()() 解压数据文件,虽来源可信但仍存在路径遍历的理论风险。
适合的目标群体
量化研究员与策略开发者、金融数据分析师、高校金融工程师生、个人投资者中的技术派用户。尤其适合已使用 Qlib 框架或需要离线批量处理历史行情数据的场景。
使用风险
存储与性能:需预留 5GB 以上磁盘空间,大规模批量查询时注意内存占用。依赖稳定性:pandas、numpy 等核心库版本需满足最低要求,升级时可能产生兼容性冲突。数据合规性:A 股行情数据受监管约束,商用需确认授权范围,本工具仅提供技术获取能力。环境隔离建议:建议在独立虚拟环境或容器中运行,避免与生产系统共享 Python 环境。