题目
10.在模型训练中常用的数据清洗技术包括哪些?A.去重B.提高数据多样性C.自动生成数据D.语义分析
10.在模型训练中常用的数据清洗技术包括哪些? A.去重 B.提高数据多样性 C.自动生成数据 D.语义分析
题目解答
答案
A
解析
数据清洗是模型训练前的重要步骤,主要目的是处理数据中的错误、重复、缺失或不一致问题,确保数据质量。本题需明确区分数据清洗与其他数据处理技术(如数据增强、特征工程)的边界:
- 去重(A)属于清洗核心任务,直接解决重复数据问题。
- 提高数据多样性(B)属于数据增强,通过引入更多样化的样本,与清洗无关。
- 自动生成数据(C)用于数据扩展,而非处理已有数据的质量。
- 语义分析(D)常用于理解数据含义,属于高级处理步骤。
选项分析
A. 去重
重复数据会增加模型训练的计算负担,并可能导致过拟合。数据清洗中需通过唯一性检查删除重复项,是基础操作。
B. 提高数据多样性
通过数据增强(如图像翻转、噪声添加)提升模型泛化能力,但本质是生成新样本,与清洗无关。
C. 自动生成数据
利用生成模型填补数据缺口,属于数据合成,而非清洗已有数据的质量问题。
D. 语义分析
用于提取数据语义信息(如实体识别、情感分析),属于特征工程或自然语言处理的高级步骤,非清洗任务。