t_wの輪郭

RSS

Sentence Embedding universal-sentence-encoder-lite

EnergeticAI Embeddings

2023/6/10 14:50:00

https://www.npmjs.com/package/@energetic-ai/embeddings

あれあれ ajinkyaT/albert-japanese-v2-finetuned-nerはEnergeticAI Embeddingsで動く可能性があるかと思われたが動かなかったあれあれ『Add support for multilingual embedding models #1』あれ

Sentence Embedding EnergeticAI Embeddings ajinkyaT/albert-japanese-v2-finetuned-nerはTensorFlow.jsで読み込める可能性がある tensorflowjs_converter ajinkyaT/albert-japanese-v2-finetuned-ner

ajinkyaT/albert-japanese-v2-finetuned-nerはEnergeticAI Embeddingsで動く可能性があるかと思われたが動かなかった

2023/6/23 1:45:00

さらにさらにajinkyaT/albert-japanese-v2-finetuned-nerの良い所は、EnergeticAI Embeddingsで動かせる可能性がある。tensorflowjs_converterが出力したファイル形式に見覚えがあるので。

そう思って読み込ませてみたが動かなかった。model.jsonの中身を見ると、modelTopologyがnullになっており、そのためにエラーが発生する。

knownetにベクトル検索を実装 EnergeticAI Embeddings universal-sentence-encoder-lite

あれ

2023/6/12 12:18:00

EnergeticAI Embeddingsで使われているuniversal-sentence-encoder-liteを転移学習すれば、日本語に対応できるだろうという能天気なことを考えていたが、以下のような難題が降りかかってきた

universal-sentence-encoder-liteがTF1となっており、転移学習が難しい
転移学習後のモデルをEnergeticAI Embeddingsで読み込める形式に変換する必要がある（リポジトリを見ても全くわからない）
Tokenizerを日本語に対応させる必要がある（EnergeticAI Embeddingsをがっつり書き換えないといけない予感がする）

1.に関しては、もはや転移学習を諦めて、一から学習させた方が早い。どうせ英語しか対応していないのだから、どちらも学習速度に大した違いはない。と思われる。
2.と3.に関しては、Issueを立てるしかない。

knownetにベクトル検索を実装 EnergeticAI Embeddings 『Add support for multilingual embedding models #1』あれ

あれ

2023/6/11 19:56:00

英語だとそこそこ頑張ってくれるので、明らかにembeddingを生成するモデルが問題だろう。
EnergeticAI Embeddingsの日本語用モデルを作成する必要がある。
開発者が『Add support for multilingual embedding models #1』というIssueを建ててる。望みがある。

EnergeticAI Embeddings universal-sentence-encoder-lite

『Add support for multilingual embedding models #1』

2023/6/11 19:54:00

https://github.com/realworldprivacy/energetic-ai/issues/1

knownetにベクトル検索を実装 EnergeticAI Embeddings

あれ

2023/6/11 19:44:00

なんやかんやでknownetにベクトル検索を実装ができたのだけど、案の定、劣悪な検索結果となった。しかも遅い。

Amplify 2023年6月10日 Pythonが嫌いあれ EnergeticAI Embeddings tensorflow/tfjs Lambda Layer あれ Universal Sentence Encoder lite

あれ

2023/6/10 14:50:00

tensorflow/tfjsを Lambda Layerにしてみる
ダメだったらUniversal Sentence Encoder lite以外でnodejsにてsentence embeddingできる何かを探す

EnergeticAI Embeddingsとか良さそうなんだけど、modelが”en”しかないのが気にかかる。日本語でもいけるんだろうか？

embeddingはpythonでやるのが王道なんだろうけど、AWS AmplifyのfunctionとしてPythonを動かすのは私には難しすぎて無理だった。やはりPythonが嫌いだ。

あれあれあれ

あれ EnergeticAI Embeddings

あれ

2023/6/10 14:50:00

EnergeticAI Embeddingsの日本語向けモデルを自分で作るというイバラの道が見える。やりたくね～～～～。