外观
数据集与连接器
数据集是分析的数据来源。创建后系统会读取表结构和样本数据,供 Agent 理解。 连接信息加密存储,界面不会显示明文。
新建数据集
进入 数据集 → 新建 → 选择类型 → 填写连接信息 → 测试连接 → 保存。 保存后状态会经历「同步中 → 已连接」,如果失败会显示异常并给出错误说明。
一个数据集可以被多个工作空间复用。
支持的数据源
按类别分组(实际可选类型以控制台为准):
关系型数据库
| 类型 | 主要信息 |
|---|---|
| MySQL | 主机 / 端口 / 账号 / 密码 / 数据库 |
| PostgreSQL | 主机 / 端口 / 账号 / 密码 / 数据库 |
| SQL Server | 主机 / 端口 / 账号 / 密码 / 数据库 |
| SQLite | 数据库文件路径 |
数据仓库
| 类型 | 说明 |
|---|---|
| Snowflake | 账号、仓库、数据库、schema 等 |
| BigQuery | 项目、数据集、凭据 |
| DuckDB | 数据库文件路径 |
湖格式 / 表格式
| 类型 | 说明 |
|---|---|
| Iceberg | catalog 类型、地址、warehouse、凭据 |
| Delta | 表路径 |
| DuckLake | catalog + 数据路径 + 对象存储凭据 |
| Avro | 文件路径 |
文件
| 类型 | 说明 |
|---|---|
| CSV / Excel | 直接上传,自动识别列与类型 |
| Google Sheets | 表格地址 + 授权 |
对象存储
| 类型 | 主要信息 |
|---|---|
| S3(及兼容存储,如 MinIO) | 接入地址 / 区域 / 桶 / 密钥;可切换 vhost / path 寻址方式 |
| Azure Blob | 账号 / 容器 / 凭据 |
日志 / NoSQL / 空间数据
| 类型 | 说明 |
|---|---|
| 阿里云 SLS | 接入地址、project、logstore、密钥 |
| MongoDB | 连接信息、数据库、集合 |
| 空间数据(GeoParquet) | 文件路径 |
提升回答准确度
- 填写列描述:为字段补充业务含义,Agent 生成 SQL 时会更准确。
- 维护业务说明:把表关系和指标口径写在工作空间里。
- 重新同步:连接信息或表结构变更后重新同步,让 Agent 读到最新结构。
常见排错
- 测试连接失败:检查账号密码、网络可达性、数据库 / 表名是否正确。
- 状态异常:在数据集详情查看具体错误,常见为凭据过期或网络不通。