t_wの輪郭

Sentence Embedding knownetにベクトル検索を実装 ajinkyaT/albert-japanese-v2-finetuned-ner

ajinkyaT/albert-japanese-v2-finetuned-nerからsentence embeddingっぽいものが取れた

2023/6/22 23:41:00

何も分かってないけどajinkyaT/albert-japanese-v2-finetuned-nerでsentence embeddingっぽいものが取れて、大体良い感じの類似度が出る。

from transformers import (
    TFAutoModelForMaskedLM, AutoTokenizer, TFAutoModel
)
import tensorflow as tf
import tensorflowjs as tfjs
from tensorflow import keras
import numpy as np

tokenizer = AutoTokenizer.from_pretrained("ajinkyaT/albert-japanese-v2-finetuned-ner")
model = TFAutoModel.from_pretrained("ajinkyaT/albert-japanese-v2-finetuned-ner")
print(model.summary())

def embedding_calc(text):
    tokens = tokenizer(text, return_tensors="tf")
    return model.layers[0].get_input_embeddings().call(tokens["input_ids"])[0]
    
def cos_sim(v1, v2):
    return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))

embedding1 = tf.reduce_sum(embedding_calc("東京は日本の首都です"), 0)
embedding2 = tf.reduce_sum(embedding_calc("日本の首都は東京です"), 0)
embedding3 = tf.reduce_sum(embedding_calc("this is test sentence to test"), 0)
embedding4 = tf.reduce_sum(embedding_calc("japanese capital is Tokyo"), 0)

print(cos_sim(embedding1.numpy(), embedding2.numpy()))  # 0.9314501
print(cos_sim(embedding2.numpy(), embedding4.numpy()))  # 0.66796505
print(cos_sim(embedding2.numpy(), embedding3.numpy()))  # 0.44220626

ajinkyaT/albert-japanese-v2-finetuned-nerはTensorFlow.jsで読み込める可能性がある ajinkyaT/albert-japanese-v2-finetuned-nerからsentence embeddingっぽいものが取れたと思ったが、Word Embeddingだった

Sentence Embedding ajinkyaT/albert-japanese-v2-finetuned-nerからsentence embeddingっぽいものが取れた ajinkyaT/albert-japanese-v2-finetuned-ner

ajinkyaT/albert-japanese-v2-finetuned-nerからsentence embeddingっぽいものが取れたと思ったが、Word Embeddingだった

2023/6/23 1:58:00

「本当にsentence embeddingにござるか～～～～？単なるWord Embeddingじゃないの～～～？」と思ったので、異なる文脈における同一単語のEmbeddingの差異を取った。

結論としては差異は無いため、単なるWord Embeddingと思われる。

東京は日本の首都ですと東京は関東に位置しており、埼玉や千葉が近隣にありますの東京のEmbedding結果を取った結果は以下の通りとなる。

tf.Tensor(
[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0.], shape=(128,), dtype=float32)

あれあれ

knownetにベクトル検索を実装 TensorFlow.js tensorflowjs_converter ajinkyaT/albert-japanese-v2-finetuned-nerからsentence embeddingっぽいものが取れた ajinkyaT/albert-japanese-v2-finetuned-ner

ajinkyaT/albert-japanese-v2-finetuned-nerはTensorFlow.jsで読み込める可能性がある

2023/6/22 23:44:00

さらにajinkyaT/albert-japanese-v2-finetuned-nerの良い所は、TensorFlow.jsで読み込める可能性がある。
tensorflowjs_converterでTensorFlow.jsレイヤー形式に変換できたので。何やってるかはなんもわからん。TensorFlow.js

ajinkyaT/albert-japanese-v2-finetuned-nerはEnergeticAI Embeddingsで動く可能性があるかと思われたが動かなかった