数据处理
智能数据处理
image_099
智能数据处理用于通过自然语言交互的方式,对结构化数据进行自动化分析、清洗、转换与加工。用户无需编写脚本,仅需通过对话描述需求,即可完成数据统计、异常处理、字段加工、数据筛选等操作,降低数据处理门槛,提升数据准备效率。
在流程界面中,选中已导入的数据集节点,右侧展开对应算子列表;点击【智能数据处理】算子,即可创建智能数据处理任务。
进入智能数据处理界面后,用户可直接通过自然语言输入处理需求,智能体将自动识别操作意图,并生成对应的数据处理方案。当前智能数据处理支持以下能力:
- 数据统计指标:最大值、最小值、中位数、平均值、四分位数、标准差、计数、去重计数等统计分析;
- 缺失值与异常值处理:空值检测、异常值识别、均值填充、删除异常记录等;
- 数据筛选:支持按字段条件筛选数据;
- 列拆分与合并:支持字段拼接、表达式生成与列拆分;
- 自定义删除:支持按条件删除指定数据;
- 采样:支持随机采样、间隔采样等;
- 数据清理:支持基于智能算法进行风险数据识别与自动清理。
完成处理后,系统将在右侧实时展示执行结果,对应脚本也进行更新。
image_098
image_100
获取文件列表
获取文件列表用于将文件夹中的文件信息自动转换为结构化数据集,是图像数据处理、标注、模型训练与预测任务中的核心基础操作。通过该功能,系统可自动扫描文件夹中的全部文件,并生成包含文件路径、文件名称、文件类型、文件大小、分类标签等信息的结构化文件列表数据,为后续机器学习任务提供标准化输入。
在流程界面中,选中已导入的文件夹节点,右侧将展开对应算子列表;点击【获取文件列表】算子,即可创建文件列表转换任务。
image-20260513165507147
文件夹层级匹配中,需手动配置需要提取的文件夹层级,并设置对应输出列名。系统将自动读取对应层级的目录名称,生成结构化标签字段。
image-20260513165445159
点击【运行】显示运行完成后回到流程中,产生的数据集会展示在画布中
image-20260513171604316