题目

10.在模型训练中常用的数据清洗技术包括哪些?A.去重B.提高数据多样性C.自动生成数据D.语义分析

10.在模型训练中常用的数据清洗技术包括哪些? A.去重 B.提高数据多样性 C.自动生成数据 D.语义分析

题目解答

数据清洗是模型训练前的重要步骤，主要目的是处理数据中的错误、重复、缺失或不一致问题，确保数据质量。本题需明确区分数据清洗与其他数据处理技术（如数据增强、特征工程）的边界：

选项分析

A. 去重

重复数据会增加模型训练的计算负担，并可能导致过拟合。数据清洗中需通过唯一性检查删除重复项，是基础操作。

B. 提高数据多样性

通过数据增强（如图像翻转、噪声添加）提升模型泛化能力，但本质是生成新样本，与清洗无关。

C. 自动生成数据

利用生成模型填补数据缺口，属于数据合成，而非清洗已有数据的质量问题。

D. 语义分析

用于提取数据语义信息（如实体识别、情感分析），属于特征工程或自然语言处理的高级步骤，非清洗任务。