Google Colabの有償契約したった!
NVIDIA A100速い!
学習時間が1070 Tiの1/20になった!
あれ
あれ
T5にtzmtwtr/tw-posts-jaを学習させようとしたら10時間かかるって言ってて、さすがにGoogle Colaboratoryで無料で学習するの無理なので、Amazon SageMakerに切り替えていく
SagemakerでGPUインスタンスを使おうとしたら制限に引っかかったので、制限緩和申請を出した
あと、せっかくPCにGPU(1070Ti……)が載ってるので、ローカルでも回してみよう。
Google ColaboratoryからJupyter notebookをダウンロードしてローカルで動かす。
あれ
私の投稿(tzmtwtr/tw-posts-ja)から文章の類似度を学習させようとしているのだけど、1回の学習(epochs=1)に190時間かかるとか出てビビった。
ColaboratoryのランタイムをTPUからGPUに切り替えて学習データを間引いたら1時間程度になった。
ベクトル検索がしたかっただけなのになぜこんなことをしているのだろう。
あれ
やったー
幣WindowsでGPUでALBERTのSimCSEの学習ができるようになったぞ
1回の学習にかかる時間が40時間から2時間に短縮された
それでもGoogle Colabと比べると2倍時間かかるので、良いぱしょこんが欲しい
1070 Tiはそろそろ買い替えていい頃合いと思う
あれ
有償のGoogle Colabのクレジット、1日で使い果たしました……
マリオのスター切れたときみたいなしょぼくれ具合
あれ
あるいはColaboratoryの有償プランを契約しても良い。
強いGPUが使えるようになる。
あれ
「ONNXならGo言語で動くし、AWS LambdaでSentence Embeddingの計算イケんじゃね???」と思われたが、そもそも日本語のSentence Embeddingに対応した小さいモデルが市井になかった。終わり。
「自分で作れや」というあれがある。GPUがねぇ。いい加減にGoogle Colaboratoryの有償契約をすべきか。
あれ
日本語のEmbeddingを取ろうとするとGoogle Colaboratoryのセッションごと落ちる
コード
!pip install gpt4all
import seaborn as sns
import pandas as pd
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
from gpt4all import GPT4All, Embed4All
text = 'こんにちは'
embedder = Embed4All()
output = embedder.embed(text)
print(output)