https://github.com/sugarme/transformer
Go言語で書かれたTransformerの学習・推論ライブラリ
2023/6/15 10:17:00
Transformer Engine『Yes, Transformers are Effective for Time Series Forecasting (+ Autoformer)』『AI(Transformer)を用いた株価予測』Transformerは株価予測ができる?LongNetあれ『ネットワーク分析から直感的に理解するTransformerの仕組みと処理の流れ』『Attention Is All You Need』『第51回情報計測オンラインセミナー「深層学習と過剰パラメータの理論、人工知能の理解への試み」 - YouTube』あれsugarme / transformerあれ『学習 【詳説】Attention機構の起源から学ぶTransformer』CTranslate2『Grokking of Hierarchical Structure in Vanilla Transformers』
CTranslate2
2023/6/15 10:17:00
https://github.com/OpenNMT/CTranslate2
「CTranslate2」は、Transformerモデルを効率的に推論するためのC++ および Python ライブラリです。
接触元 『Google Colab + CTranslate2 による Rinnaの高速推論を試す』
あれ
2023/10/21 5:04:00
『ネットワーク分析から直感的に理解するTransformerの仕組みと処理の流れ』
2023/12/17 8:51:00
LongNet
2023/7/7 10:05:00
『Grokking of Hierarchical Structure in Vanilla Transformers』
2023/7/11 23:18:00
再帰的な構造Cartesian Genetic Programmingで文章の類似度を学習再帰的な処理Attentiontzmtwtr/tw-posts-jaknownetにベクトル検索を実装GPGPU言語モデルTransformer
あれ
2023/6/22 21:05:00
遺伝的プログラミングで文章の類似度を学習させるの、CPUで一から学習させるには計算量が全然足りない。GPGPUで学習させたいが、再起的な構造と処理によって文章を処理しているために、GPGPUとは相性が悪い。構造から手をつけるべきか。
Transformerを参考にすると良さそうだが、あれを理解するのに手間取っている。さらに言えばAttentionも理解できていない。あり物のモデルを使ったり学習させるだけなら理解は不要だが、遺伝的プログラミングに組み込もうとすると十分に理解する必要がある。
普通の言語モデルも一から学習させると相応に時間がかかるだろうし、一晩で学習が進まないのを嘆くのは気が早すぎるかもしれない。私の投稿を学習データ化した物でさえ、一晩でやっと一巡できる程度だ。Wikipediaも学習データに含み出すととんでもない時間がかかる。
『第51回情報計測オンラインセミナー「深層学習と過剰パラメータの理論、人工知能の理解への試み」 - YouTube』
2024/5/26 22:37:00
『Attention Is All You Need』
2023/12/17 9:18:00
あれ
2023/7/11 23:22:00