Skip to content

数据集与连接器

数据集是分析的数据来源。创建后系统会读取表结构和样本数据,供 Agent 理解。 连接信息加密存储,界面不会显示明文。

新建数据集

进入 数据集 → 新建 → 选择类型 → 填写连接信息 → 测试连接 → 保存。 保存后状态会经历「同步中 → 已连接」,如果失败会显示异常并给出错误说明。

一个数据集可以被多个工作空间复用。

支持的数据源

按类别分组(实际可选类型以控制台为准):

关系型数据库

类型主要信息
MySQL主机 / 端口 / 账号 / 密码 / 数据库
PostgreSQL主机 / 端口 / 账号 / 密码 / 数据库
SQL Server主机 / 端口 / 账号 / 密码 / 数据库
SQLite数据库文件路径

数据仓库

类型说明
Snowflake账号、仓库、数据库、schema 等
BigQuery项目、数据集、凭据
DuckDB数据库文件路径

湖格式 / 表格式

类型说明
Icebergcatalog 类型、地址、warehouse、凭据
Delta表路径
DuckLakecatalog + 数据路径 + 对象存储凭据
Avro文件路径

文件

类型说明
CSV / Excel直接上传,自动识别列与类型
Google Sheets表格地址 + 授权

对象存储

类型主要信息
S3(及兼容存储,如 MinIO)接入地址 / 区域 / 桶 / 密钥;可切换 vhost / path 寻址方式
Azure Blob账号 / 容器 / 凭据

日志 / NoSQL / 空间数据

类型说明
阿里云 SLS接入地址、project、logstore、密钥
MongoDB连接信息、数据库、集合
空间数据(GeoParquet)文件路径

提升回答准确度

  • 填写列描述:为字段补充业务含义,Agent 生成 SQL 时会更准确。
  • 维护业务说明:把表关系和指标口径写在工作空间里。
  • 重新同步:连接信息或表结构变更后重新同步,让 Agent 读到最新结构。

常见排错

  • 测试连接失败:检查账号密码、网络可达性、数据库 / 表名是否正确。
  • 状态异常:在数据集详情查看具体错误,常见为凭据过期或网络不通。

DataFinder · Agent 原生的智能数据分析底座