数据处理

智能数据处理

image_099
image_099

智能数据处理用于通过自然语言交互的方式,对结构化数据进行自动化分析、清洗、转换与加工。用户无需编写脚本,仅需通过对话描述需求,即可完成数据统计、异常处理、字段加工、数据筛选等操作,降低数据处理门槛,提升数据准备效率。

在流程界面中,选中已导入的数据集节点,右侧展开对应算子列表;点击【智能数据处理】算子,即可创建智能数据处理任务。

进入智能数据处理界面后,用户可直接通过自然语言输入处理需求,智能体将自动识别操作意图,并生成对应的数据处理方案。当前智能数据处理支持以下能力:

  • 数据统计指标:最大值、最小值、中位数、平均值、四分位数、标准差、计数、去重计数等统计分析;
  • 缺失值与异常值处理:空值检测、异常值识别、均值填充、删除异常记录等;
  • 数据筛选:支持按字段条件筛选数据;
  • 列拆分与合并:支持字段拼接、表达式生成与列拆分;
  • 自定义删除:支持按条件删除指定数据;
  • 采样:支持随机采样、间隔采样等;
  • 数据清理:支持基于智能算法进行风险数据识别与自动清理。

完成处理后,系统将在右侧实时展示执行结果,对应脚本也进行更新。

image_098
image_098

image_100
image_100

获取文件列表

获取文件列表用于将文件夹中的文件信息自动转换为结构化数据集,是图像数据处理、标注、模型训练与预测任务中的核心基础操作。通过该功能,系统可自动扫描文件夹中的全部文件,并生成包含文件路径、文件名称、文件类型、文件大小、分类标签等信息的结构化文件列表数据,为后续机器学习任务提供标准化输入。

在流程界面中,选中已导入的文件夹节点,右侧将展开对应算子列表;点击【获取文件列表】算子,即可创建文件列表转换任务。

image-20260513165507147
image-20260513165507147

文件夹层级匹配中,需手动配置需要提取的文件夹层级,并设置对应输出列名。系统将自动读取对应层级的目录名称,生成结构化标签字段。

image-20260513165445159
image-20260513165445159

点击【运行】显示运行完成后回到流程中,产生的数据集会展示在画布中

image-20260513171604316
image-20260513171604316

© 2026 南京天洑软件有限公司 版权所有