word2vec
単語を意味のベクトルに変換する技術。言葉の関係を計算で扱えるようにした
自然言語処理機械学習
「word2vec」の技術書を見る (52 冊) →word2vec とは
word2vec (ワードトゥベック) は、単語を「意味を表す数値の並び (ベクトル)」に変換する技術だ。Google の研究者が 2013 年に発表した。大量の文章から、各単語がどのような文脈で使われるかを学習し、意味の近い単語ほど近い位置に配置されるベクトルを生成する。これにより、言葉の意味や関係を計算で扱えるようになった。
何が画期的だったか
word2vec の有名な例に、ベクトルの足し引きで単語の関係を表現できる点がある。「王様 - 男性 + 女性 ≒ 女王」のように、意味の関係が計算として成り立つ。これは、単語を単なる記号ではなく、意味的な空間上の点として捉えられるようになったことを示す。
| 特徴 | 内容 |
|---|---|
| 分散表現 | 単語を密なベクトルで表す |
| 文脈から学習 | 周囲の単語から意味を推定 |
| 意味の演算 | ベクトルの計算で関係を表現 |
なぜ重要か
それまでの自然言語処理は、単語を個別の記号として扱い、単語同士の意味的な近さを捉えにくかった。word2vec は、単語を意味の詰まったベクトルにすることで、機械が言葉の類似性や関係を扱えるようにした。検索、推薦、文書分類など、さまざまな応用の基礎技術になった。
位置づけと限界
word2vec は自然言語処理を大きく前進させたが、限界もある。各単語に固定のベクトルを割り当てるため、「銀行」と「土手」のように、文脈で意味が変わる同じ単語を区別できない。この課題は、後に登場した BERT などの文脈を考慮するモデルによって克服された。とはいえ、word2vec が示した「単語を意味のベクトルで表す」という考え方は、現在の大規模言語モデルにも受け継がれる重要な礎になっている。
理解を深めるには関連書籍が参考になる。
この記事は役に立ちましたか?