t_wの輪郭

RSS

ALBERT

2023/8/13 15:39:00

BERTを小さくしたやつ。でも性能はそのまま。と言われている。

あれあれあれあれあれあれ ALBERT model Pretraining and Fine Tuning using TF2.0 CTranslate2はALBERTに対応していなかった ajinkyaT/albert-japanese-v2-finetuned-ner 日本語ALBERT あれあれあれ

ALBERT 教師なしSimCSE あれ

あれ

2023/8/14 7:10:00

追加でALBERTを教師なしSimCSEで学習してみている。

BERT ベクトル検索 DynamoDB Sentence Embedding Go言語 Azure Cognitive Search あれ ALBERT AWS LambdaでSentence Embedding

あれ

2023/8/13 22:06:00

いや、「ベクトル検索ぐらいマネージドサービスあるやろ」とはなるんだけど、たけーのよ。Azure Cognitive Searchとか、一番安いので月額1万円以上する。

DynamoDBとLambdaでやりくりすれば、維持費をほぼ0円、処理があっても月額100円ぐらいで何とかなるはずなんや。

で、そのために文章をベクトル化（Sentence Embedding）する処理が必要だったのだけどもですね、世のSentence Embeddingするライブラリやら言語モデル（BERTとか）やらはファイルサイズが巨大で、Lambda関数に乗り切らんかったわけです。

そこで、BERTを小型化したALBERTでSentence Embeddingが取れるように学習してたんですけども、やっとこさそれらしい結果が出せるようになってきた。

となると、次の課題はベクトル検索のDB部分なわけです。今はJavaScriptのライブラリを使ってるので速くないので、Go言語とかでやりたい。

というか、JavaScriptでのSentence Embeddingの計算は遅いはずなので、そこもGo言語に切り替えるうまみがあるはず。

Sentence Embedding ALBERT 教師ありSimCSE 教師なしSimCSE

あれ

2023/8/13 17:03:00

そういうわけで、ALBERTを教師なしSimCSEの後に教師ありSimCSEで学習したところ、ここまで学習できた。

ALBERT 日本語日本語BERT

日本語ALBERT

2023/8/13 15:42:00

あれ『日本語事前学習済みALBERTモデルを公開します』ken氏による日本語ALBERT

ALBERT 日本語ALBERT あれ東北大学

あれ

2023/8/13 15:42:00

東北大学あたりが日本語ALBERTやってくんねーかなぁ

あれ

2023/8/13 15:39:00

BERTとALBERTの学習させてるんだけど、BERTの成績が良すぎて辛い。ALBERTが追い付かない。使っているALBERTのモデルが、「小さすぎる」可能性はある。

あれ

2023/8/12 18:33:00

ALBERTをSimCSEの学習させとるけど、Wikipediaのデータを20 epoch回すには1000時間かかるらしい

ALBERT SimCSE 2023年8月11日あれ GTX 1070 Ti Google Colaboratory

あれ

2023/8/11 17:00:00

やったー
幣WindowsでGPUでALBERTのSimCSEの学習ができるようになったぞ
1回の学習にかかる時間が40時間から2時間に短縮された
それでもGoogle Colabと比べると２倍時間かかるので、良いぱしょこんが欲しい
1070 Tiはそろそろ買い替えていい頃合いと思う

Sentence Embedding ALBERT 機械学習淡い夢 SimCSE 2023年8月11日

あれ

2023/8/11 14:09:00

昨日・今日とSentence Embeddingを吐くALBERTをSimCSEで学習させているが、少し前にちょいと試しで学習させたときの性能を上回ることができない。

機械学習はそんな淡い夢みたいなことが度々起こる。

ajinkyaT/albert-japanese-v2-finetuned-ner

2023/6/22 23:37:00

https://huggingface.co/ajinkyaT/albert-japanese-v2-finetuned-ner

ajinkyaT/albert-japanese-v2-finetuned-nerはTensorFlow.jsで読み込める可能性がある ajinkyaT/albert-japanese-v2-finetuned-nerからsentence embeddingっぽいものが取れた ajinkyaT/albert-japanese-v2-finetuned-nerからsentence embeddingっぽいものが取れたと思ったが、Word Embeddingだった ajinkyaT/albert-japanese-v2-finetuned-nerはEnergeticAI Embeddingsで動く可能性があるかと思われたが動かなかった

ALBERT 誤字日本語誤字チェック『日本語Wikipedia入力誤りデータセット (v2) 』

あれ

2023/6/16 21:11:00

ALBERT CTranslate2

CTranslate2はALBERTに対応していなかった

2023/6/15 21:03:00

CTranslate2はALBERTに対応していなかった。モデルの変換時に下記のエラーが出る

ValueError: No conversion is registered for the model configuration AlbertConfig (supported configurations are: BartConfig, BertConfig, BloomConfig, CodeGenConfig, GPT2Config, GPTBigCodeConfig, GPTJConfig, GPTNeoXConfig, LlamaConfig, M2M100Config, MBartConfig, MPTConfig, MT5Config, MarianConfig, OPTConfig, PegasusConfig, RWConfig, T5Config, WhisperConfig)

ALBERT Tensorflow2.0

ALBERT model Pretraining and Fine Tuning using TF2.0

2023/6/14 20:51:00

https://github.com/kamalkraj/ALBERT-TF2.0