t_wの輪郭

Feedlyでフォローするボタン
モデル言語深層学習
LLM小規模言語モデル応向分離T5あれあれn-gram言語モデル『Xichuan: "逆に言えば LLM は単に言語モデルの一実装形態に過ぎないので、論理的推論とかまったくしてない。言…" - Fedibird』『Xichuan: "そもそもまず言語モデルという抽象的な概念があって、それをどのように実装するか、という観点から、長く…" - Fedibird』拡散言語モデル

LLM

2024/3/24 20:21:00

Large Language Model
大規模言語モデル

LLM App大規模言語モデルにとってプログラミング言語は簡単Chromaあれあれ大規模言語モデルによって検索サイトのビジネスモデルは崩壊し、セマンティックウェブの時代が到来する?大規模言語モデルの小規模化大規模言語モデルをOSに搭載個人化した大規模言語モデル大規模言語モデルの個人化『ChatGPTは「植民地化されたネットの象徴」 若手起業家が警鐘』LLMで人間が成長Phi-2Orca2phi-1OrcaLlama2Microsoft、Azure OpenAI ServiceQwenPerplexity AI『Microsoft、Azure OpenAI Serviceに自社データを取り込んで活用できる機能をプレビュー提供』あれMicrosoft 365 Copilotネットワークの文章化あれあれ『大規模言語AIにアキレス腱、訓練用データが2026年にも枯渇か』BardTinyLlama『大規模言語モデルは新たな知識か』LLMのプロンプトは宣言的プログラミングLLMへの新規性の注入Calm2LLM無職Web Prowlerに大規模言語モデルを導入あれあれGPT-3『「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表』オープンソースの大規模言語モデルによるチャットボットDALL・E 2『Japanese Language Model Financial Evaluation Harness』あれプログラマーは大規模言語モデルによる変革にさらされているオープンな大規模言語モデルの進歩大規模言語モデル体験あれ大規模言語モデルは人類の知性を超えない『GPT-3に強力ライバル、1000人が作ったLLMはAI界の流れを変えるか?』BLOOMRWKVGoose AI『ラズパイで動く大規模言語モデルがGitHubで公開 性能は“GPT-3相当”、Metaの「LLaMA」派生 - ITmedia NEWS 』LLaMAオープンソースの大規模言語モデル『Meta、独自大規模言語モデル(LLM)の「LLaMA」を限定リリース』Text generation web UIあれ『GPUを使ってウェブ上のグラフィックスを改善するWebGLの後継API「WebGPU」がChrome 113ベータ版で利用可能に』あれあれあれinfoboxの仕組み(想像)Multimodal LLMZeroGPULLMを可変長n-gramで蒸留する『[3B5-TS-1] 大規模言語モデルの開発』あれローカルLLMPhi-3『歴代チャットボットと最近のLLMのまとめ』翻訳LLMコード生成AICodeTF『LLMがもたらす組織構造の変化』Ollamaあれ『LLMの現在』LongNet日本語LLMRakutenAI-7BLLM-jp-13BあれClaude V2LLMで筆跡の末端を生成するAlpacaグループウェア的LLMBitNetLLMが十分に高速になればモンテカルロ木探索が可能になるFlorenceKnowAgentあれパーソナルな大規模言語モデルLLMの1回のファインチューニングは50円でできることがある大規模言語モデルはメカソクラテスになれるか『LLMのファインチューニングを他手法との違いから理解する(Part 1)』gemmaqwen2llama.ttfChameleonWeb-LLMあれ『Can LLMs invent better ways to train LLMs?』LLMはモデレーションすると面白くなくなるあれ大阪弁のLLM音声+LLM+SNS批判的継承プロンプトCodeT5SpreadsheetLLM表LLMLLMでRSSを生成ALMvLLM『Xichuan: "逆に言えば LLM は単に言語モデルの一実装形態に過ぎないので、論理的推論とかまったくしてない。言…" - Fedibird』『Xichuan: "そもそもまず言語モデルという抽象的な概念があって、それをどのように実装するか、という観点から、長く…" - Fedibird』あれNejumi LLMリーダーボード NeovLLMでLLMをホスティングするサーバーが作れるあれtsuzumiTanuki-8B『大規模言語モデル入門Ⅱ〜生成型LLMの実装と評価』Phi-3.5-mini『自社開発した大規模言語モデルをどうプロダクションに乗せて運用していくか〜インフラ編〜 - Speaker Deck』text-to-SQLLLaMA-OmniLLM-jp-3SmolLM間違わないLLMはDBと同じ間違わないLLMは、検索エンジンと同じllamafileModel Context ProtocolLLM背後霊

応向分離

2023/11/20 23:15:00

おそらく一般的には応類向類は同じ言語モデルで生成して検索に用いるのだが、応類向類で異なる言語モデルを用いることで以下の利点が得られる。

  • 利用者の動向から向類を学習させ、漸次的に検索精度を向上させる
  • 利用者の動向から向類を学習させ、漸次的に個々の利用者に対して検索結果を変化させる
  • 上記をしつつ、更新費用が高くなる応類を不変あるいは低頻度での更新と出来る

レコメンドにおいても同様のことができ、同じような利点が得られる。


Two-Towerモデルと同一。

あれ

2023/6/22 21:05:00

遺伝的プログラミングで文章の類似度を学習させるの、CPUで一から学習させるには計算量が全然足りない。GPGPUで学習させたいが、再起的な構造と処理によって文章を処理しているために、GPGPUとは相性が悪い。構造から手をつけるべきか。

Transformerを参考にすると良さそうだが、あれを理解するのに手間取っている。さらに言えばAttentionも理解できていない。あり物のモデルを使ったり学習させるだけなら理解は不要だが、遺伝的プログラミングに組み込もうとすると十分に理解する必要がある。

普通の言語モデルも一から学習させると相応に時間がかかるだろうし、一晩で学習が進まないのを嘆くのは気が早すぎるかもしれない。私の投稿を学習データ化した物でさえ、一晩でやっと一巡できる程度だ。Wikipediaも学習データに含み出すととんでもない時間がかかる。

T5

2023/6/15 21:41:00