t_wの輪郭

Feedlyでフォローするボタン

「本当にsentence embeddingにござるか~~~~?単なるWord Embeddingじゃないの~~~?」と思ったので、異なる文脈における同一単語のEmbeddingの差異を取った。

結論としては差異は無いため、単なるWord Embeddingと思われる。

東京は日本の首都です東京は関東に位置しており、埼玉や千葉が近隣にあります東京のEmbedding結果を取った結果は以下の通りとなる。

tf.Tensor(
[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0.], shape=(128,), dtype=float32)

あれ

2023/6/23 2:03:00

これ文脈化単語埋め込み(contextualized word embeddings, BERTのTransformer Stackから出力される方)じゃないので、その点だけご注意を。

上を読むにどうもEmbedding(というか出力)を取ってくる層を変えれば、文脈に応じてWord Embeddingが変化しそう。