t_wの輪郭

Feedlyでフォローするボタン
universal-sentence-encoder
EnergeticAI Embeddingsあれ『Add support for multilingual embedding models #1』

あれ

2023/6/12 12:18:00

EnergeticAI Embeddingsで使われているuniversal-sentence-encoder-liteを転移学習すれば、日本語に対応できるだろうという能天気なことを考えていたが、以下のような難題が降りかかってきた

  1. universal-sentence-encoder-liteがTF1となっており、転移学習が難しい
  2. 転移学習後のモデルをEnergeticAI Embeddingsで読み込める形式に変換する必要がある(リポジトリを見ても全くわからない)
  3. Tokenizerを日本語に対応させる必要がある(EnergeticAI Embeddingsをがっつり書き換えないといけない予感がする)

1.に関しては、もはや転移学習を諦めて、一から学習させた方が早い。どうせ英語しか対応していないのだから、どちらも学習速度に大した違いはない。と思われる。
2.と3.に関しては、Issueを立てるしかない。