t_wの輪郭

RSS

Transformer

2023/6/15 10:17:00

sugarme / transformer CTranslate2 あれ『Grokking of Hierarchical Structure in Vanilla Transformers』あれ『ネットワーク分析から直感的に理解するTransformerの仕組みと処理の流れ』『第51回情報計測オンラインセミナー「深層学習と過剰パラメータの理論、人工知能の理解への試み」 - ...あれ LongNet Transformerは株価予測ができる？『AI(Transformer)を用いた株価予測』『Yes, Transformers are Effective for Time Series F...『Attention Is All You Need』『学習【詳説】Attention機構の起源から学ぶTransformer』Transformer Engine 『[輪講] Transformer Layers as Painters - Speaker Dec...Transformerで株価予測 Vision Transformer 『TLOB: A Novel Transformer Model with Dual Attenti...『トランスフォーマーは RNN である - ｼﾞｮｲｼﾞｮｲｼﾞｮｲ』『Transformer LLMにおける層単位のFFN層の重要度検証』あれ Transformer LLMではFFN層をネットワーク後部で有効化すると精度が高くなった

LLM Transformer FFN フィードフォワードネットワーク

Transformer LLMではFFN層をネットワーク後部で有効化すると精度が高くなった

2025/8/13 23:05:00

『Transformer LLMにおける層単位のFFN層の重要度検証』

Transformer 『Transformer LLMにおける層単位のFFN層の重要度検証』

あれ

2025/8/13 23:03:00

Transformerわかってない民としては、Transformerの図が理解の助けになりそうで助かる。

論文 Transformer 言語処理学会第31回年次大会表彰論文 FFN フィードフォワードネットワーク Transformer LLMではFFN層をネットワーク後部で有効化すると精度が高くなった

『Transformer LLMにおける層単位のFFN層の重要度検証』

2025/8/13 22:49:00

https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/P2-8.pdf

RNN Transformer

『トランスフォーマーは RNN である - ｼﾞｮｲｼﾞｮｲｼﾞｮｲ』

2025/6/16 10:23:00

https://joisino.hatenablog.com/entry/2024/09/30/173416

Transformer 株価予測AI

『TLOB: A Novel Transformer Model with Dual Attenti...

2025/6/4 8:05:00

『[2502.15757] TLOB: A Novel Transformer Model with Dual Attention for Price Trend Prediction with Limit Order Book Data』

Transformer 画像ニューラルネットワーク

Vision Transformer

2025/4/26 16:21:00

『画像ニューラルネットに思いを馳せる【M3 Tech Talk 第256回】 - YouTube』

株価予測 Transformer

Transformerで株価予測

2025/3/6 21:45:00

『gopikrsmscs/stock-price-prediction-transformer: T...

『[輪講] Transformer Layers as Painters - Speaker Dec...

2025/1/16 7:13:00

https://speakerdeck.com/nk35jk/lun-jiang-transformer-layers-as-painters

Nvidia Transformer

Transformer Engine

2024/10/15 19:40:00

『Transformer Engine ではじめる FP8 Training (導入編) - NVI...

機械学習深層学習 Transformer タスクベクトル

『第51回情報計測オンラインセミナー「深層学習と過剰パラメータの理論、人工知能の理解への試み」 - ...

2024/5/26 22:37:00

(https://youtu.be/Gf5CWUIDGOU)

Attention Transformer All You Need

『Attention Is All You Need』

2023/12/17 9:18:00

https://arxiv.org/pdf/1706.03762.pdf

Transformerを発表した論文

『論文解説 Attention Is All You Need (Transformer) - ディ...

『あつまれ統計の森』Transformer ネットワーク分析

『ネットワーク分析から直感的に理解するTransformerの仕組みと処理の流れ』

2023/12/17 8:51:00

https://www.hello-statisticians.com/ml/deeplearning/transformer1.html

「Dot Product Attentionの処理は概ねcos類似度の計算と同様な処理」文章から単語の隣接行列を作る

iPad iPhone IME Transformer 漢字変換 Gboard

あれ

2023/10/21 5:04:00

iPadのIMEの漢字変換が賢い。

Gboardよりも長文の変換結果がしっくりくる。Transformerを載せているだけのことはある。

「知名」とか「輪結」のような一般的でない語であっても、一度変換すれば覚えてくれる。デライトと相性が良い。前景後景のドラッグ&ドロップもできるのでiPhoneが欲しくなる。

あれ

2023/7/11 23:22:00

Transformer LLMによる階層的理解

『Grokking of Hierarchical Structure in Vanilla Transformers』

2023/7/11 23:18:00

https://arxiv.org/abs/2305.18741

あれ『[2305.18741] Grokking of Hierarchical Structure i...

LLM Transformer

LongNet

2023/7/7 10:05:00

『longnet:%20Scaling%20Transformers%20to%201,000,00...あれ

株価予測時系列予測 Transformer 『AI(Transformer)を用いた株価予測』『Yes, Transformers are Effective for Time Series F...

Transformerは株価予測ができる？

2023/7/5 20:25:00

言語モデルというやつが何をやってるかというと、「次の単語は何か？」を学習・予測している。コンピューターの世界においては文字や単語は数値として処理されている。すなわち、言語モデルは数値の時系列予測をしていると言える。この抽象から導き出される具象として、言語モデルは株価という数値を予測可能ということだ。

同じことを考える人はやはりいて、『AI(Transformer)を用いた株価予測』という記事が見つかった。

株価予測 Transformer

『AI(Transformer)を用いた株価予測』

2023/7/5 20:25:00

https://qiita.com/YusukeOhnishi/items/0d32af611dee0d53d8ed

Transformerは株価予測ができる？

時系列予測 Transformer

『Yes, Transformers are Effective for Time Series F...

2023/7/5 20:11:00

https://huggingface.co/blog/autoformer

Transformerは株価予測ができる？

Cartesian Genetic Programmingで文章の類似度を学習言語モデル tzmtwtr/tw-posts-ja GPGPU knownetにベクトル検索を実装再帰的な処理再帰的な構造 Attention Transformer

あれ

2023/6/22 21:05:00

遺伝的プログラミングで文章の類似度を学習させるの、CPUで一から学習させるには計算量が全然足りない。GPGPUで学習させたいが、再起的な構造と処理によって文章を処理しているために、GPGPUとは相性が悪い。構造から手をつけるべきか。

Transformerを参考にすると良さそうだが、あれを理解するのに手間取っている。さらに言えばAttentionも理解できていない。あり物のモデルを使ったり学習させるだけなら理解は不要だが、遺伝的プログラミングに組み込もうとすると十分に理解する必要がある。

普通の言語モデルも一から学習させると相応に時間がかかるだろうし、一晩で学習が進まないのを嘆くのは気が早すぎるかもしれない。私の投稿を学習データ化した物でさえ、一晩でやっと一巡できる程度だ。Wikipediaも学習データに含み出すととんでもない時間がかかる。

Attention Transformer

『学習【詳説】Attention機構の起源から学ぶTransformer』

2023/6/22 8:30:00

https://agirobots.com/attention-mechanism-transformer/

機械学習ライブラリ Transformer

sugarme / transformer

2023/6/16 14:35:00

https://github.com/sugarme/transformer
Go言語で書かれたTransformerの学習・推論ライブラリ

機械学習ライブラリ Transformer

CTranslate2

2023/6/15 10:17:00

https://github.com/OpenNMT/CTranslate2

「CTranslate2」は、Transformerモデルを効率的に推論するためのC++ および Python ライブラリです。
── 『Google Colab + CTranslate2 による Rinnaの高速推論を試す』

接触元『Google Colab + CTranslate2 による Rinnaの高速推論を試す』

『CTranslate2でRinnaモデルをコンバートしてCPUや8GB GPUで動くようにする』CTranslate2はALBERTに対応していなかった『Google Colab + CTranslate2 による Rinnaの高速推論を試す』