あれ
2023/6/12 12:18:00
EnergeticAI Embeddingsで使われているuniversal-sentence-encoder-liteを転移学習すれば、日本語に対応できるだろうという能天気なことを考えていたが、以下のような難題が降りかかってきた
- universal-sentence-encoder-liteがTF1となっており、転移学習が難しい
- 転移学習後のモデルをEnergeticAI Embeddingsで読み込める形式に変換する必要がある(リポジトリを見ても全くわからない)
- Tokenizerを日本語に対応させる必要がある(EnergeticAI Embeddingsをがっつり書き換えないといけない予感がする)
1.に関しては、もはや転移学習を諦めて、一から学習させた方が早い。どうせ英語しか対応していないのだから、どちらも学習速度に大した違いはない。と思われる。
2.と3.に関しては、Issueを立てるしかない。