t_wの輪郭

Feedlyでフォローするボタン
あれ
sugarme / transformerCTranslate2あれ『Grokking of Hierarchical Structure in Vanilla Transformers』あれ『ネットワーク分析から直感的に理解するTransformerの仕組みと処理の流れ』『第51回情報計測オンラインセミナー「深層学習と過剰パラメータの理論、人工知能の理解への試み」 - YouTube』あれLongNetTransformerは株価予測ができる?『AI(Transformer)を用いた株価予測』『Yes, Transformers are Effective for Time Series Forecasting (+ Autoformer)』『Attention Is All You Need』『学習 【詳説】Attention機構の起源から学ぶTransformer』Transformer Engine

あれ

2023/10/21 5:04:00

iPadIME漢字変換が賢い。

Gboardよりも長文の変換結果がしっくりくる。Transformerを載せているだけのことはある。

知名」とか「輪結」のような一般的でない語であっても、一度変換すれば覚えてくれる。デライトと相性が良い。前景後景のドラッグ&ドロップもできるのでiPhoneが欲しくなる。

言語モデルというやつが何をやってるかというと、「次の単語は何か?」を学習・予測している。コンピューターの世界においては文字や単語は数値として処理されている。すなわち、言語モデルは数値の時系列予測をしていると言える。この抽象から導き出される具象として、言語モデルは株価という数値を予測可能ということだ。

同じことを考える人はやはりいて、『AI(Transformer)を用いた株価予測』という記事が見つかった。

あれ

2023/6/22 21:05:00

遺伝的プログラミングで文章の類似度を学習させるの、CPUで一から学習させるには計算量が全然足りない。GPGPUで学習させたいが、再起的な構造と処理によって文章を処理しているために、GPGPUとは相性が悪い。構造から手をつけるべきか。

Transformerを参考にすると良さそうだが、あれを理解するのに手間取っている。さらに言えばAttentionも理解できていない。あり物のモデルを使ったり学習させるだけなら理解は不要だが、遺伝的プログラミングに組み込もうとすると十分に理解する必要がある。

普通の言語モデルも一から学習させると相応に時間がかかるだろうし、一晩で学習が進まないのを嘆くのは気が早すぎるかもしれない。私の投稿を学習データ化した物でさえ、一晩でやっと一巡できる程度だ。Wikipediaも学習データに含み出すととんでもない時間がかかる。