t_wの輪郭

Feedlyでフォローするボタン
Sentence Embeddinguniversal-sentence-encoder-lite
あれあれajinkyaT/albert-japanese-v2-finetuned-nerはEnergeticAI Embeddingsで動く可能性があるかと思われたが動かなかったあれあれ『Add support for multilingual embedding models #1』あれ

さらにさらにajinkyaT/albert-japanese-v2-finetuned-nerの良い所は、EnergeticAI Embeddingsで動かせる可能性がある。tensorflowjs_converterが出力したファイル形式に見覚えがあるので。

そう思って読み込ませてみたが動かなかった。model.jsonの中身を見ると、modelTopologyがnullになっており、そのためにエラーが発生する。

あれ

2023/6/12 12:18:00

EnergeticAI Embeddingsで使われているuniversal-sentence-encoder-liteを転移学習すれば、日本語に対応できるだろうという能天気なことを考えていたが、以下のような難題が降りかかってきた

  1. universal-sentence-encoder-liteがTF1となっており、転移学習が難しい
  2. 転移学習後のモデルをEnergeticAI Embeddingsで読み込める形式に変換する必要がある(リポジトリを見ても全くわからない)
  3. Tokenizerを日本語に対応させる必要がある(EnergeticAI Embeddingsをがっつり書き換えないといけない予感がする)

1.に関しては、もはや転移学習を諦めて、一から学習させた方が早い。どうせ英語しか対応していないのだから、どちらも学習速度に大した違いはない。と思われる。
2.と3.に関しては、Issueを立てるしかない。

あれ

2023/6/10 14:50:00

tensorflow/tfjsを Lambda Layerにしてみる
ダメだったらUniversal Sentence Encoder lite以外でnodejsにてsentence embeddingできる何かを探す

EnergeticAI Embeddingsとか良さそうなんだけど、modelが”en”しかないのが気にかかる。日本語でもいけるんだろうか?

embeddingはpythonでやるのが王道なんだろうけど、AWS AmplifyのfunctionとしてPythonを動かすのは私には難しすぎて無理だった。やはりPythonが嫌いだ。

あれ

2023/6/10 14:50:00

EnergeticAI Embeddingsの日本語向けモデルを自分で作るというイバラの道が見える。やりたくね~~~~。