“我们是中国人”，这句话到底是如何进行向量化的？

2025-02-07 00:05#1 标记1

最近有朋友留言，说没看懂之前写的：《自然语言转换为向量的技术原理》这篇文章，让我举个例子聊聊一个句子到底是如何被进行向量化转换的。
这期内容，我们就从自然语言处理（NLP）技术的角度来看，“我们是中国人”这句话的向量化过程到底是怎样的？那么这个问题，一共可以拆分为以下几个步骤来阐述：

文本预处理（主要是分词）
在进行向量化之前，需要对文本进行预处理。包括分词、去除停用词、词干提取等操作。中文分词是关键步骤，因为中文没有明确的单词分隔符，因此需要使用分词工具，如jieba分词等，将句子分解为词语单元。
示例：
输入句子：“我们是中国人”
分词结果：“我们”、“是”、“中国”、“人”
构建词汇表（索引）
将分词后的词语整理成词汇表，为每个词语分配唯一的索引，这一步骤通常使用词频统计来选择高频词汇，以减少维度灾难。
示例：假设词汇表中包含以下词语及其索引：
我们 -> 1 是 -> 2 中国 -> 3 人 -> 4
词级别的向量化
根据选择的向量化方法，将词语映射为向量表示。常见的方法包括 one-hot 编码、词袋模型（Bag of Words, BOW）、TF-IDF、词嵌入（如：Word2Vec、GloVe、BERT）等。
示例：使用词嵌入（如Word2Vec）：Word2Vec通过上下文学习词语的向量表示，生成稠密的低维向量。例如：
我们 -> [0.1, -0.2, ...] 是 -> [0.3, -0.4, ...] 中国 -> [0.5, -0.6, ...] 人 -> [0.7, -0.8, ...]

句子级别的向量化
将整个句子的词语向量进行整合，形成句子的向量表示。常用的整合方法包括：
平均池化：将所有词语向量求平均。
最大池化：取所有词语向量的最大值。
循环神经网络（RNN）：通过RNN模型捕捉词语之间的顺序关系。
Transformer模型：利用自注意力机制捕捉全局上下文信息。
示例：假设使用平均池化方法，将“我们是中国人”的词向量平均化：
[ (0.1, -0.2, ...), (0.3, -0.4, ...), (0.5, -0.6, ...), (0.7, -0.8, ...) ]平均值 = [ (0.1+0.3+0.5+0.7)/4, (-0.2-0.4-0.6-0.8)/4, ... ]= [0.4, -0.5, ...]
应用深度学习模型
其实，在完成向量化后，也可以将句子向量输入到深度学习模型中进行进一步处理。例如，使用BERT模型对句子进行语义理解。
示例：输入句子向量到BERT模型中，输出句子的语义向量表示：
BERT("我们是中国人") -> [0.9, -0.1, ...]
通过上面示例也可以看出，如果采用基于矩阵的方法（如Word2Vec、GloVe），每个词会被转换成一个固定长度的向量。例如，“我们”的向量可能是[0.2, 0.4, ..., 0.1]，具体数值取决于训练好的模型。
而对于上下文相关的词嵌入方法（如BERT），每个词会根据其上下文环境产生不同的向量表示。这意味着同一个词在不同句子中可能会有不同的向量表示。对于“我们是中国人”，模型会考虑整个句子的语境来生成每个词的向量。
课代表小结
从“我们是中国人”这句话的分词到最终的向量化表示，经历了以下步骤：
分词：将句子拆分为词语单元。
构建词汇表：为词语分配唯一索引。
单词向量化：选择one-hot编码、TF-IDF或词嵌入等方法。
句子向量化：通过平均池化、RNN或Transformer等方法整合词语向量。
深度学习模型：利用预训练模型（如BERT）处理句子向量化。
通过这些步骤，最终将“我们是中国人”转化为计算机可计算的向量表示数据，从而实现自然语言的理解和分析。
往期推荐：
1. AI编程神器：Cursor
2. DeepSeek为何最近频繁被国外媒体关注？
3. 深入理解：BERT模型
好了，本期内容就是这么多，希望能够帮助到您，感谢您能读到最后，如果觉得内容不错，请您点赞转发给予鼓励，咱们下期再见。