Sentence Embedding

Web Prowlerの推薦性能を改善する方法が見えた。
ユーザーのベクトル化であるUser Embeddingを計算して、User EmbeddingとリンクのSentence Embeddingの類似度でクロールすれば良い。
推薦も今見ているページのSentence Embeddingを使って良きようにする。
User Embeddingは操作に応じて随時修正する。

User Embeddingの初期状態は、ブラウザに保存されたお気に入りや、履歴から計算すれば良い。ローカルで動作して情報が外には出ないので、こういった情報を安全に取り扱える。

あれ

Lambda AWS Lambdaでベクトル検索 Sentence Embedding

AWS LambdaでSentence Embedding

2023/7/29 22:41:00

あれあれあれ

ヒートマップ Cartesian Genetic Programmingで文章の類似度を学習遺伝的プログラミング knownetにベクトル検索を実装 LLM Go言語 Sentence Embedding

あれ

2023/6/18 14:57:00

ボロボロの研究成果です

遺伝的プログラミング、精度出ねぇんだわ。

でも、モデルのサイズは小さいぞ！！
812KBや。
一般的な大規模言語モデルというかディイイイイイプラーニングはGBとかサクッと行く

食事の文章に関してはいい感じに類似判定されているのは、データ元の人格が出てますねぇ。

学習には遺伝的プログラミングというのを使っていますあれあれあれあれ

遺伝的プログラミング Cartesian Genetic Programming knownetにベクトル検索を実装 Sentence Embedding

Cartesian Genetic Programmingで文章の類似度を学習

2023/9/18 20:19:00

学習には遺伝的プログラミングというのを使っていますあれ 2023年6月25日の遺伝的プログラミングのパラメーターチューニングあれあれあれあれあれあれあれあれあれあれあれあれあれあれあれあれあれあれあれあれあれあれあれあれあれあれ

OpenAI Bedrock Titan Text Embeddings v2 Sentence Embedding

Amazon BedrockのSentence Embeddingの料金はOpenAIと同じ

2023/9/29 17:05:00

あれ

『t_wの輪郭』Amplify BERT DataStore React Next.js knownet Sentence Embedding

2023年11月14日日記

2023/11/15 0:26:00

朝

　特に記憶に無いです。

仕事

　「Next.jsを使えば忌々しいAmplifyのDataStoreを無くせるんじゃね？」とか思って、社内システムの移植を開始した。もともとReactで動いていたので、3時間ほどでシステムがNext.jsの上で動くようになった。Next.jsの恩恵が受けられるのはこれからだ。

夜

　「Next.jsを使えばBERTでSentence Embeddingを取るAPIをサーバーレスでつくれるんじゃね？」とかおもって実装した結果、比較的高性能な開発機であっても計算に3秒もかかることがわかり、検索には使えず無事死亡した。

デライトが落ちていた

　「あれ」ってどんなんだったっけと思って、デライトで検索しようとしたところ、デライトが落ちていた(障害のお知らせ)。普段当たり前のようにデライトが使えているが、knownetの開発を通じてデライトが安定稼働していたことの異常さに気付きつつある。knownetの方はちゃんと動いている期間のほうが短い。

　探そうとしていた情報については『t_wの輪郭』を参照して見つけられた。いざというときの保証として機能してくれた。

onnxに変換して量子化するコマンド onnxruntime-nodeでgzipで圧縮したonnxファイルを読み込む BERT ONNX Sentence Embedding

あれ

2023/12/3 0:24:00

500MBあるBERTをONNXに変換した後に量子化したら110MBほどになってLambdaで動かせるようになった。
Githubに乗せるファイルは100MB以下でないとだめなので、ダメ押しでgzipで圧縮したら75MBになった。

OpenAI Sentence Embedding

『日本語Embeddingモデルのベンチマーク比較: OpenAIが圧倒的な精度でリード』

2023/11/20 22:37:00

http://www.jiang.jp/posts/20230601_embedding_benchmark/