tzmtwtr/tw-posts-ja
データ制作者(t_w)がデライトに投稿した5万件の投稿を学習用にいい感じにしたやつ
遺伝的プログラミングで文章の類似度を学習させるの、CPUで一から学習させるには計算量が全然足りない。GPGPUで学習させたいが、再起的な構造と処理によって文章を処理しているために、GPGPUとは相性が悪い。構造から手をつけるべきか。
Transformerを参考にすると良さそうだが、あれを理解するのに手間取っている。さらに言えばAttentionも理解できていない。あり物のモデルを使ったり学習させるだけなら理解は不要だが、遺伝的プログラミングに組み込もうとすると十分に理解する必要がある。
普通の言語モデルも一から学習させると相応に時間がかかるだろうし、一晩で学習が進まないのを嘆くのは気が早すぎるかもしれない。私の投稿を学習データ化した物でさえ、一晩でやっと一巡できる程度だ。Wikipediaも学習データに含み出すととんでもない時間がかかる。
T5にtzmtwtr/tw-posts-jaを学習させようとしたら10時間かかるって言ってて、さすがにGoogle Colaboratoryで無料で学習するの無理なので、Amazon SageMakerに切り替えていく
SagemakerでGPUインスタンスを使おうとしたら制限に引っかかったので、制限緩和申請を出した
あと、せっかくPCにGPU(1070Ti……)が載ってるので、ローカルでも回してみよう。
Google ColaboratoryからJupyter notebookをダウンロードしてローカルで動かす。
私の投稿(tzmtwtr/tw-posts-ja)から文章の類似度を学習させようとしているのだけど、1回の学習(epochs=1)に190時間かかるとか出てビビった。
ColaboratoryのランタイムをTPUからGPUに切り替えて学習データを間引いたら1時間程度になった。
ベクトル検索がしたかっただけなのになぜこんなことをしているのだろう。