2023/6/15 10:17:00
sugarme / transformerCTranslate2あれ『Grokking of Hierarchical Structure in Vanilla Transformers』あれ『ネットワーク分析から直感的に理解するTransformerの仕組みと処理の流れ』『第51回情報計測オンラインセミナー「深層学習と過剰パラメータの理論、人工知能の理解への試み」 - YouTube』あれLongNetTransformerは株価予測ができる?『AI(Transformer)を用いた株価予測』『Yes, Transformers are Effective for Time Series Forecasting (+ Autoformer)』『Attention Is All You Need』『学習 【詳説】Attention機構の起源から学ぶTransformer』Transformer Engine
Transformer Engine
2024/10/15 19:40:00
『第51回情報計測オンラインセミナー「深層学習と過剰パラメータの理論、人工知能の理解への試み」 - YouTube』
2024/5/26 22:37:00
『Attention Is All You Need』
2023/12/17 9:18:00
『ネットワーク分析から直感的に理解するTransformerの仕組みと処理の流れ』
2023/12/17 8:51:00
あれ
2023/10/21 5:04:00
『Grokking of Hierarchical Structure in Vanilla Transformers』
2023/7/11 23:18:00
LongNet
2023/7/7 10:05:00
株価予測時系列予測Transformer『AI(Transformer)を用いた株価予測』『Yes, Transformers are Effective for Time Series Forecasting (+ Autoformer)』
Transformerは株価予測ができる?
2023/7/5 20:25:00
言語モデルというやつが何をやってるかというと、「次の単語は何か?」を学習・予測している。コンピューターの世界においては文字や単語は数値として処理されている。すなわち、言語モデルは数値の時系列予測をしていると言える。この抽象から導き出される具象として、言語モデルは株価という数値を予測可能ということだ。
同じことを考える人はやはりいて、『AI(Transformer)を用いた株価予測』という記事が見つかった。
『AI(Transformer)を用いた株価予測』
2023/7/5 20:25:00
Cartesian Genetic Programmingで文章の類似度を学習言語モデルtzmtwtr/tw-posts-jaGPGPUknownetにベクトル検索を実装再帰的な処理再帰的な構造AttentionTransformer
あれ
2023/6/22 21:05:00
遺伝的プログラミングで文章の類似度を学習させるの、CPUで一から学習させるには計算量が全然足りない。GPGPUで学習させたいが、再起的な構造と処理によって文章を処理しているために、GPGPUとは相性が悪い。構造から手をつけるべきか。
Transformerを参考にすると良さそうだが、あれを理解するのに手間取っている。さらに言えばAttentionも理解できていない。あり物のモデルを使ったり学習させるだけなら理解は不要だが、遺伝的プログラミングに組み込もうとすると十分に理解する必要がある。
普通の言語モデルも一から学習させると相応に時間がかかるだろうし、一晩で学習が進まないのを嘆くのは気が早すぎるかもしれない。私の投稿を学習データ化した物でさえ、一晩でやっと一巡できる程度だ。Wikipediaも学習データに含み出すととんでもない時間がかかる。
『学習 【詳説】Attention機構の起源から学ぶTransformer』
2023/6/22 8:30:00
sugarme / transformer
2023/6/16 14:35:00
CTranslate2
2023/6/15 10:17:00
https://github.com/OpenNMT/CTranslate2
「CTranslate2」は、Transformerモデルを効率的に推論するためのC++ および Python ライブラリです。
接触元 『Google Colab + CTranslate2 による Rinnaの高速推論を試す』