t_wの輪郭

Sentence Embedding

2023/7/3 8:57:00

Cartesian Genetic Programmingで文章の類似度を学習あれ 2023年11月14日日記 Next.jsでサーバーレスSentence Embedding あれあれ AWS LambdaでSentence Embedding あれ『日本語Embeddingモデルのベンチマーク比較: OpenAIが圧倒的な精度でリード』Amazon BedrockのSentence Embeddingの料金はOpenAIと同じ Titan Text Embeddings v2 あれ SimCSE JSTS 輪郭法によるSentence Embeddingを用いた検索の強化あれあれ『【論文要約】SimCSE: Simple Contrastive Learning of Sentence Embeddings』llm-book/bert-base-japanese-v3-unsup-simcse-jawiki あれ EnergeticAI Embeddings Universal Sentence Encoder lite qxencoder sonoisa/sentence-bert-base-ja-mean-tokens-v2 『local llmでsentence embeddingどれ使えば良いんだっけ』『sentence transformersで日本語を扱えるモデルのまとめ』sentence-transformers/all-MiniLM-L6-v2 『Sentence Transformers 2.2 : 事前訓練済みモデル』『OpenAIの埋め込みよりも高性能？多言語E5を日本語で評価してみる』E5 『オープンな日本語埋め込みモデルの選択肢 / Exploring Publicly Available Japanese Embedding Models』あれ JaColBERT GLuCoSE Sentence EmbeddingはBERTよりGloVeの方が良い GloVe Amazon BedrockでSentence Embeddingを取得するあれあれあれ tokenAとtokenBの全組み合わせからEmbeddingを計算して平均を取る instructor-embedding intfloat/multilingual-e5-small 『日本語に対応した Embedding Model のベクトル検索での精度比較』ajinkyaT/albert-japanese-v2-finetuned-nerからsentence embeddingっぽいものが取れた ajinkyaT/albert-japanese-v2-finetuned-nerからsentence embeddingっぽいものが取れたと思ったが、Word Embeddingだった ajinkyaT/albert-japanese-v2-finetuned-nerはEnergeticAI Embeddingsで動く可能性があるかと思われたが動かなかった E5でTwo-Towerモデルっぽいことができる knownetの2023年9月30日アップデートあれあれ albert-japanese-tinysegmenter universal-sentence-encoder cl-nagoya/ruri-small cl-nagoya/ruri-v3-30m

Sentence Embedding

cl-nagoya/ruri-v3-30m

2025/4/18 5:31:00

『cl-nagoya/ruri-v3-30m · Hugging Face』

Sentence Embedding ruri

cl-nagoya/ruri-small

2025/3/13 23:41:00

『cl-nagoya/ruri-small · Hugging Face』

Sentence Embedding

instructor-embedding

2024/2/25 15:52:00

あれ

Sentence Embedding instructor-embedding

あれ

2024/2/25 14:14:00

この方針をさらに推し進めたのがinstructor-embedding[8]で、色々なプロンプトを入れてタスクごとに埋め込みを最適化できるらしい
── 『オープンな日本語埋め込みモデルの選択肢 / Exploring Publicly Available Japanese Embedding Models』

『オープンな日本語埋め込みモデルの選択肢 / Exploring Publicly Available Japanese Embedding Models』

Sentence Embedding Two-Towerモデル

E5でTwo-Towerモデルっぽいことができる

2024/2/25 14:12:00

Multilingual-E5でも実は入力文に"query:" "document:"というプロンプトを入れて、2つ（検索文と検索対象）を識別できる
── 『オープンな日本語埋め込みモデルの選択肢 / Exploring Publicly Available Japanese Embedding Models』

『オープンな日本語埋め込みモデルの選択肢 / Exploring Publicly Available Japanese Embedding Models』

Sentence Embedding

JaColBERT

2024/2/25 14:06:00

『オープンな日本語埋め込みモデルの選択肢 / Exploring Publicly Available Japanese Embedding Models』

Sentence Embedding PKSHA

GLuCoSE

2024/2/25 14:03:00

『オープンな日本語埋め込みモデルの選択肢 / Exploring Publicly Available Japanese Embedding Models』

Sentence Embedding BERT GloVe 単語埋め込み

Sentence EmbeddingはBERTよりGloVeの方が良い

2024/2/25 14:00:00

実験的にも、BERTの[CLS]トークン埋め込みや平均プーリング埋め込みを使うぐらいだったら、GloVe等の（もっと古い時代の）単語埋め込みを使った方がましということが知られている
── 『オープンな日本語埋め込みモデルの選択肢 / Exploring Publicly Available Japanese Embedding Models』

『オープンな日本語埋め込みモデルの選択肢 / Exploring Publicly Available Japanese Embedding Models』

Sentence Embedding 単語埋め込み

GloVe

2024/2/25 13:58:00

『オープンな日本語埋め込みモデルの選択肢 / Exploring Publicly Available Japanese Embedding Models』Sentence EmbeddingはBERTよりGloVeの方が良い

RAG Sentence Embedding E5 あれ E5でTwo-Towerモデルっぽいことができる JaColBERT GLuCoSE Sentence EmbeddingはBERTよりGloVeの方が良い GloVe NTT Com Node AI

『オープンな日本語埋め込みモデルの選択肢 / Exploring Publicly Available Japanese Embedding Models』

2024/2/25 13:51:00

https://speakerdeck.com/nttcom/exploring-publicly-available-japanese-embedding-models

あれ

Sentence Embedding E5

intfloat/multilingual-e5-small

2024/2/25 13:40:00

https://huggingface.co/intfloat/multilingual-e5-small

あれ

Sentence Embedding

『日本語に対応した Embedding Model のベクトル検索での精度比較』

2024/2/25 13:40:00

https://note.com/tatsuyashirakawa/n/n0dabf8c6f88a

あれ

Sentence Embedding Web Prowler User Embedding

あれ

2023/12/5 1:10:00

Web Prowlerの推薦性能を改善する方法が見えた。
ユーザーのベクトル化であるUser Embeddingを計算して、User EmbeddingとリンクのSentence Embeddingの類似度でクロールすれば良い。
推薦も今見ているページのSentence Embeddingを使って良きようにする。
User Embeddingは操作に応じて随時修正する。

User Embeddingの初期状態は、ブラウザに保存されたお気に入りや、履歴から計算すれば良い。ローカルで動作して情報が外には出ないので、こういった情報を安全に取り扱える。

あれ

BERT Sentence Embedding onnxに変換して量子化するコマンド ONNX onnxruntime-nodeでgzipで圧縮したonnxファイルを読み込む

あれ

2023/12/3 0:24:00

500MBあるBERTをONNXに変換した後に量子化したら110MBほどになってLambdaで動かせるようになった。
Githubに乗せるファイルは100MB以下でないとだめなので、ダメ押しでgzipで圧縮したら75MBになった。

あれ

Sentence Embedding

sonoisa/sentence-bert-base-ja-mean-tokens-v2

2023/12/2 19:40:00

https://huggingface.co/sonoisa/sentence-bert-base-ja-mean-tokens-v2/tree/main

あれ

Sentence Embedding

『local llmでsentence embeddingどれ使えば良いんだっけ』

2023/12/2 19:37:00

https://note.com/if001/n/n25d795afe571

あれ

Next.js Sentence Embedding サーバーレス

Next.jsでサーバーレスSentence Embedding

2023/11/28 1:19:00

onnxに変換して量子化するコマンドあれ AmplifyのBuildでムリクソgit lfsを使う方法

Sentence Embedding

『sentence transformersで日本語を扱えるモデルのまとめ』

2023/11/27 8:47:00

https://tech.yellowback.net/posts/sentence-transformers-japanese-models

あれ

Sentence Embedding

sentence-transformers/all-MiniLM-L6-v2

2023/11/27 8:44:00

https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2

あれ

Sentence Embedding

『Sentence Transformers 2.2 : 事前訓練済みモデル』

2023/11/27 8:41:00

https://torch.classcat.com/2022/11/24/sentence-transformers-2-2-pretrained-models/

あれ

Sentence Embedding OpenAI

『日本語Embeddingモデルのベンチマーク比較: OpenAIが圧倒的な精度でリード』

2023/11/20 22:37:00

http://www.jiang.jp/posts/20230601_embedding_benchmark/

あれ

『t_wの輪郭』knownet BERT Amplify Next.js React Sentence Embedding DataStore

2023年11月14日日記

2023/11/15 0:26:00

朝

　特に記憶に無いです。

仕事

　「Next.jsを使えば忌々しいAmplifyのDataStoreを無くせるんじゃね？」とか思って、社内システムの移植を開始した。もともとReactで動いていたので、3時間ほどでシステムがNext.jsの上で動くようになった。Next.jsの恩恵が受けられるのはこれからだ。

夜

　「Next.jsを使えばBERTでSentence Embeddingを取るAPIをサーバーレスでつくれるんじゃね？」とかおもって実装した結果、比較的高性能な開発機であっても計算に3秒もかかることがわかり、検索には使えず無事死亡した。

デライトが落ちていた

　「あれ」ってどんなんだったっけと思って、デライトで検索しようとしたところ、デライトが落ちていた(障害のお知らせ)。普段当たり前のようにデライトが使えているが、knownetの開発を通じてデライトが安定稼働していたことの異常さに気付きつつある。knownetの方はちゃんと動いている期間のほうが短い。

　探そうとしていた情報については『t_wの輪郭』を参照して見つけられた。いざというときの保証として機能してくれた。

あれ

輪郭法 Sentence Embedding 検索

輪郭法によるSentence Embeddingを用いた検索の強化

2023/11/6 18:47:00

検索結果の候補として、知名とトークンが一致した輪郭に加えて、そこから前景後景を2回まで辿った輪郭も、検索候補とする。これにより、類義語を考慮した検索となる。
ベクトル検索と比較して、実装が簡単。ベクトル検索がまだ簡単ではないので。

輪郭の順位づけに、輪郭本体のSentence Embeddingに加えて、前景後景のSentence Embeddingを用いる。輪郭単体のSentence Embeddingでは、意図せず順位が高くなる恐れがあるが、互助的に順位を出すことで、より安定した順位付けとなる。
輪郭本体のSentence Embeddingがまだ計算されていない間も、前景後景から補完されて順位付けができる利点もある。

あれ

knownet Sentence Embedding knownetの検索

knownetの2023年9月30日アップデート

2023/9/30 17:09:00

knownetの検索をアップデート: Sentence EmbeddingをALBERTからAmazon BedrockのTitan Text Embeddings v2に変更; 検索結果としてSentence Embeddingの類似順で100個だしていたのを、なんかいい感じに変更

URLを変更: 新URL: https://main.d3qyy5iftduw62.amplifyapp.com/; 旧URL: https://stg.d3qyy5iftduw62.amplifyapp.com/; バックエンドは同じなので投稿データはそのまま引き継がれている; いい加減にドメインを割り当てたい

Sentence Embeddingを用いた検索の様子

Bedrock Sentence Embedding Titan Text Embeddings v2 Amazon BedrockでSentence Embeddingを取得する

あれ

2023/9/29 22:42:00

来ましたわあああああ

あれ

Bedrock Sentence Embedding Titan Text Embeddings v2

Amazon BedrockでSentence Embeddingを取得する

2023/9/29 22:25:00

import boto3
import json

bedrock_runtime = boto3.client('bedrock-runtime', region_name="us-east-1")

def handler(event, context):
    # プロンプトに設定する内容を取得
    prompt = event.get('prompt')

    # 各種パラメーターの指定
    modelId = 'amazon.titan-embed-text-v1' 
    accept = 'application/json'
    contentType = 'application/json'

    # リクエストBODYの指定
    body = json.dumps({
        "inputText": prompt,
    })

    # Bedrock APIの呼び出し
    response = bedrock_runtime.invoke_model(
    	modelId=modelId,
    	accept=accept,
    	contentType=contentType,
        body=body
    )

    # APIレスポンスからBODYを取り出す
    response_body = json.loads(response.get('body').read())

    print(response_body)

    # レスポンスBODYから応答テキストを取り出す
    embedding = response_body.get('embedding')

    return embedding

コードの改変元

https://dev.classmethod.jp/articles/invoke-bedrock-form-lambda-function/

あれ

Bedrock Sentence Embedding

Titan Text Embeddings v2

2023/9/29 18:27:00

Amazon BedrockのSentence Embeddingの料金はOpenAIと同じあれ Amazon BedrockでSentence Embeddingを取得するあれ

Bedrock Sentence Embedding OpenAI Titan Text Embeddings v2

Amazon BedrockのSentence Embeddingの料金はOpenAIと同じ

2023/9/29 17:05:00

あれ

Sentence Embedding Cartesian Genetic Programming 遺伝的プログラミング knownetにベクトル検索を実装

Cartesian Genetic Programmingで文章の類似度を学習

2023/9/18 20:19:00

あれあれあれ学習には遺伝的プログラミングというのを使っていますあれあれあれあれあれあれあれあれあれあれあれあれあれあれあれあれあれあれあれあれあれあれあれ 2023年6月25日の遺伝的プログラミングのパラメーターチューニングあれ

BERT ベクトル検索 DynamoDB Sentence Embedding Go言語 Azure Cognitive Search あれ ALBERT AWS LambdaでSentence Embedding

あれ

2023/8/13 22:06:00

いや、「ベクトル検索ぐらいマネージドサービスあるやろ」とはなるんだけど、たけーのよ。Azure Cognitive Searchとか、一番安いので月額1万円以上する。

DynamoDBとLambdaでやりくりすれば、維持費をほぼ0円、処理があっても月額100円ぐらいで何とかなるはずなんや。

で、そのために文章をベクトル化（Sentence Embedding）する処理が必要だったのだけどもですね、世のSentence Embeddingするライブラリやら言語モデル（BERTとか）やらはファイルサイズが巨大で、Lambda関数に乗り切らんかったわけです。

そこで、BERTを小型化したALBERTでSentence Embeddingが取れるように学習してたんですけども、やっとこさそれらしい結果が出せるようになってきた。

となると、次の課題はベクトル検索のDB部分なわけです。今はJavaScriptのライブラリを使ってるので速くないので、Go言語とかでやりたい。

というか、JavaScriptでのSentence Embeddingの計算は遅いはずなので、そこもGo言語に切り替えるうまみがあるはず。

あれ

Sentence Embedding ALBERT 教師ありSimCSE 教師なしSimCSE

あれ

2023/8/13 17:03:00

そういうわけで、ALBERTを教師なしSimCSEの後に教師ありSimCSEで学習したところ、ここまで学習できた。

あれ

Sentence Embedding ALBERT 機械学習淡い夢 SimCSE 2023年8月11日

あれ

2023/8/11 14:09:00

昨日・今日とSentence Embeddingを吐くALBERTをSimCSEで学習させているが、少し前にちょいと試しで学習させたときの性能を上回ることができない。

機械学習はそんな淡い夢みたいなことが度々起こる。

あれ

Sentence Embedding 機械学習

SimCSE

2023/8/11 14:09:00

Sentence Embeddingの学習方法

あれあれあれ教師ありSimCSE 教師なしSimCSE あれ『【論文要約】SimCSE: Simple Contrastive Learning of Sentence Embeddings』llm-book/bert-base-japanese-v3-unsup-simcse-jawiki

Sentence Embedding SimCSE

『【論文要約】SimCSE: Simple Contrastive Learning of Sentence Embeddings』

2023/8/11 14:09:00

https://qiita.com/thmd9726/items/50fe52d8b0481cccf238

あれ

Sentence Embedding SimCSE

llm-book/bert-base-japanese-v3-unsup-simcse-jawiki

2023/8/1 10:26:00

https://huggingface.co/llm-book/bert-base-japanese-v3-unsup-simcse-jawiki

あれ

Sentence Embedding ONNX Go言語 AWS LambdaでSentence Embedding Google Colaboratory

あれ

2023/7/29 23:17:00

「ONNXならGo言語で動くし、AWS LambdaでSentence Embeddingの計算イケんじゃね？？？」と思われたが、そもそも日本語のSentence Embeddingに対応した小さいモデルが市井になかった。終わり。

「自分で作れや」というあれがある。GPUがねぇ。いい加減にGoogle Colaboratoryの有償契約をすべきか。

あれ

Sentence Embedding Lambda AWS Lambdaでベクトル検索

AWS LambdaでSentence Embedding

2023/7/29 22:41:00

あれあれあれ

Sentence Embedding Cartesian Genetic Programming 遺伝的プログラミング誤差逆伝播法 Cartesian Genetic Programmingで生成したプログラムを誤差逆伝播で学習

あれ

2023/7/25 23:49:00

遺伝的プログラミングで誤差逆伝播法行くぞ！！！

遺伝的プログラミング（Cartesian Genetic Programming）で得られたグラフ構造に内在するパラメーターを誤差逆伝播法で学習してやるのだぁ！！

遺伝的プログラミング単体ではどうにも学習が進まないのでやってやろうじゃねぇかよとなった。

『生成 AI に必要な「基盤モデル」のメモリ使用量 98％削減につながる技術を開発 ─ 自動運転車や工作用ロボット用組み込みシステムへの搭載を目指す』も背中を後押しした。良い構造の小さいモデルで良い性能が出せることが示された。

あれ

Sentence Embedding コサイン類似度微分コサイン類似度を目標値に近づける

あれ

2023/7/25 9:39:00

sentence embeddingの学習のために、コサイン類似度（cos(X,Y) - target_similarity)^2 の微分がしたいが、もはや微分は記憶の彼方。

コサイン類似度からなる損失関数の微分コサイン類似度を目標値に近づける勾配の微分の計算過程（できてない）全微分ですか？それともどっちかの偏微分？

Sentence Embedding Embed4All

あれ

2023/7/15 18:01:00

あれ

Sentence Embedding あれ

あれ

2023/7/14 2:42:00

LZWからあれこれして、文章を256長の固定長配列に変換し、その類似度を計算すると次のような結果が得られた

ぶっちゃけうまくいってない。

あれ

Sentence Embedding gzip あれ

あれ

2023/7/14 1:24:00

そういうわけでgzipでSentence Embeddingが作れるんじゃないかと予備実験してみるとこんな感じ。そこまでパキッとしてないのでそんなに精度が出なさそうな感じがある。類義語をうまく取り扱えてないという感触。

類義語はともあれ、同じ文字が使われていれば類似度が出るので、最低限のベースラインとしては使えそう。

ちなみに、「類似度」というラベルで出しているが、サイズの比になるので、この値は小さいほど類似度が高いということになっている。

あれ

Sentence Embedding データセット

JSTS

2023/7/6 7:15:00

JSTSは、日本語の文ペアの意味がどのくらい近いかを測定するためのデータセット
── 『OpenAIの埋め込みよりも高性能？多言語E5を日本語で評価してみる』

『OpenAIの埋め込みよりも高性能？多言語E5を日本語で評価してみる』

Sentence Embedding

E5

2023/7/6 7:07:00

『OpenAIの埋め込みよりも高性能？多言語E5を日本語で評価してみる』『オープンな日本語埋め込みモデルの選択肢 / Exploring Publicly Available Japanese Embedding Models』intfloat/multilingual-e5-small

Sentence Embedding JSTS E5

『OpenAIの埋め込みよりも高性能？多言語E5を日本語で評価してみる』

2023/7/6 7:06:00

https://hironsan.hatenablog.com/entry/2023/07/05/073150

あれ

Sentence Embedding

tokenAとtokenBの全組み合わせからEmbeddingを計算して平均を取る

2023/7/3 8:52:00

あれ

Sentence Embedding ajinkyaT/albert-japanese-v2-finetuned-nerからsentence embeddingっぽいものが取れた ajinkyaT/albert-japanese-v2-finetuned-ner

ajinkyaT/albert-japanese-v2-finetuned-nerからsentence embeddingっぽいものが取れたと思ったが、Word Embeddingだった

2023/6/23 1:58:00

「本当にsentence embeddingにござるか～～～～？単なるWord Embeddingじゃないの～～～？」と思ったので、異なる文脈における同一単語のEmbeddingの差異を取った。

結論としては差異は無いため、単なるWord Embeddingと思われる。

東京は日本の首都ですと東京は関東に位置しており、埼玉や千葉が近隣にありますの東京のEmbedding結果を取った結果は以下の通りとなる。

tf.Tensor(
[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0.], shape=(128,), dtype=float32)

あれあれ

Sentence Embedding EnergeticAI Embeddings ajinkyaT/albert-japanese-v2-finetuned-nerはTensorFlow.jsで読み込める可能性がある tensorflowjs_converter ajinkyaT/albert-japanese-v2-finetuned-ner

ajinkyaT/albert-japanese-v2-finetuned-nerはEnergeticAI Embeddingsで動く可能性があるかと思われたが動かなかった

2023/6/23 1:45:00

さらにさらにajinkyaT/albert-japanese-v2-finetuned-nerの良い所は、EnergeticAI Embeddingsで動かせる可能性がある。tensorflowjs_converterが出力したファイル形式に見覚えがあるので。

そう思って読み込ませてみたが動かなかった。model.jsonの中身を見ると、modelTopologyがnullになっており、そのためにエラーが発生する。

あれ

Sentence Embedding knownetにベクトル検索を実装 ajinkyaT/albert-japanese-v2-finetuned-ner

ajinkyaT/albert-japanese-v2-finetuned-nerからsentence embeddingっぽいものが取れた

2023/6/22 23:41:00

何も分かってないけどajinkyaT/albert-japanese-v2-finetuned-nerでsentence embeddingっぽいものが取れて、大体良い感じの類似度が出る。

from transformers import (
    TFAutoModelForMaskedLM, AutoTokenizer, TFAutoModel
)
import tensorflow as tf
import tensorflowjs as tfjs
from tensorflow import keras
import numpy as np

tokenizer = AutoTokenizer.from_pretrained("ajinkyaT/albert-japanese-v2-finetuned-ner")
model = TFAutoModel.from_pretrained("ajinkyaT/albert-japanese-v2-finetuned-ner")
print(model.summary())

def embedding_calc(text):
    tokens = tokenizer(text, return_tensors="tf")
    return model.layers[0].get_input_embeddings().call(tokens["input_ids"])[0]
    
def cos_sim(v1, v2):
    return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))

embedding1 = tf.reduce_sum(embedding_calc("東京は日本の首都です"), 0)
embedding2 = tf.reduce_sum(embedding_calc("日本の首都は東京です"), 0)
embedding3 = tf.reduce_sum(embedding_calc("this is test sentence to test"), 0)
embedding4 = tf.reduce_sum(embedding_calc("japanese capital is Tokyo"), 0)

print(cos_sim(embedding1.numpy(), embedding2.numpy()))  # 0.9314501
print(cos_sim(embedding2.numpy(), embedding4.numpy()))  # 0.66796505
print(cos_sim(embedding2.numpy(), embedding3.numpy()))  # 0.44220626

ajinkyaT/albert-japanese-v2-finetuned-nerはTensorFlow.jsで読み込める可能性がある ajinkyaT/albert-japanese-v2-finetuned-nerからsentence embeddingっぽいものが取れたと思ったが、Word Embeddingだった

Cartesian Genetic Programmingで文章の類似度を学習ヒートマップ Sentence Embedding Go言語 LLM 遺伝的プログラミング knownetにベクトル検索を実装