word2vec

word2vec とは

word2vec (ワードトゥベック) は、単語を「意味を表す数値の並び (ベクトル)」に変換する技術だ。Google の研究者が 2013 年に発表した。大量の文章から、各単語がどのような文脈で使われるかを学習し、意味の近い単語ほど近い位置に配置されるベクトルを生成する。これにより、言葉の意味や関係を計算で扱えるようになった。

何が画期的だったか

word2vec の有名な例に、ベクトルの足し引きで単語の関係を表現できる点がある。「王様 - 男性 + 女性 ≒ 女王」のように、意味の関係が計算として成り立つ。これは、単語を単なる記号ではなく、意味的な空間上の点として捉えられるようになったことを示す。

特徴	内容
分散表現	単語を密なベクトルで表す
文脈から学習	周囲の単語から意味を推定
意味の演算	ベクトルの計算で関係を表現

なぜ重要か

それまでの自然言語処理は、単語を個別の記号として扱い、単語同士の意味的な近さを捉えにくかった。word2vec は、単語を意味の詰まったベクトルにすることで、機械が言葉の類似性や関係を扱えるようにした。検索、推薦、文書分類など、さまざまな応用の基礎技術になった。

位置づけと限界

word2vec は自然言語処理を大きく前進させたが、限界もある。各単語に固定のベクトルを割り当てるため、「銀行」と「土手」のように、文脈で意味が変わる同じ単語を区別できない。この課題は、後に登場した BERT などの文脈を考慮するモデルによって克服された。とはいえ、word2vec が示した「単語を意味のベクトルで表す」という考え方は、現在の大規模言語モデルにも受け継がれる重要な礎になっている。

理解を深めるには関連書籍が参考になる。

word2vec とは

何が画期的だったか

なぜ重要か

位置づけと限界

関連用語

自然言語処理

BERT

機械学習

ベクトルデータベース

埋め込みベクトル

PostgreSQL

関連する記事

わからない単語が出てきたら飛ばしていい

わからない単語は調べなくていい

プログラミングの本に出てくる英語がわからなくても大丈夫