题目
词向量可以降低自然语言处理中的数据稀疏性。○ 正确 ○ 错误
词向量可以降低自然语言处理中的数据稀疏性。 ○ 正确 ○ 错误
题目解答
答案
正确
解析
考查要点:本题主要考查对自然语言处理中数据稀疏性问题的理解,以及词向量在解决这一问题中的作用。
核心思路:
自然语言处理任务中,传统方法(如独热编码)会导致高维稀疏特征向量,而词向量通过低维密集表示有效缓解这一问题。关键在于理解词向量如何通过分布式语义表示降低维度并捕捉语义信息。
数据稀疏性是自然语言处理中的常见问题,表现为特征向量中大部分元素为0。例如,若词汇表大小为$V$,用独热编码表示每个词会得到一个$V$维向量,仅有一个位置为1,其余为0。当$V$很大时,向量高度稀疏,导致模型训练困难。
词向量(如Word2Vec、GloVe)通过以下方式降低稀疏性:
- 低维映射:将高维稀疏的独热向量映射到低维(如100~300维)空间,大幅减少参数数量。
- 语义保留:通过上下文共现信息,使语义相似的词在向量空间中接近(如“国王”与“王后”向量相似)。
- 密集表示:低维向量元素多为非零值,向量更“密集”,便于模型高效计算。
因此,词向量能有效缓解数据稀疏性问题,提升模型性能。