t_wの輪郭

RSS

knownetにベクトル検索を実装 EnergeticAI Embeddings universal-sentence-encoder-lite

あれ

2023/6/12 12:18:00

EnergeticAI Embeddingsで使われているuniversal-sentence-encoder-liteを転移学習すれば、日本語に対応できるだろうという能天気なことを考えていたが、以下のような難題が降りかかってきた

universal-sentence-encoder-liteがTF1となっており、転移学習が難しい
転移学習後のモデルをEnergeticAI Embeddingsで読み込める形式に変換する必要がある（リポジトリを見ても全くわからない）
Tokenizerを日本語に対応させる必要がある（EnergeticAI Embeddingsをがっつり書き換えないといけない予感がする）

1.に関しては、もはや転移学習を諦めて、一から学習させた方が早い。どうせ英語しか対応していないのだから、どちらも学習速度に大した違いはない。と思われる。
2.と3.に関しては、Issueを立てるしかない。

あれ albert-japanese-tinysegmenter

あれ

2023/6/12 13:59:00

albert-japanese-tinysegmenterが良さげに思われたが、内部でTransformersが使われている。こいつがでかい。