t_wの輪郭

Feedlyでフォローするボタン
データ学習
あれあれあれあれ良い学習データtzmtwtr/tw-posts-jaあれあれ『大規模言語AIにアキレス腱、訓練用データが2026年にも枯渇か』生成AIの学習データ不要化推定の分散で学習データのクリーニング『エシカルデータの潮流 | ドクセル』エシカルデータあれインプレゾンビをしばくためのブラウザ拡張機能の機能案『Scaling Analytics @ Instagram: The power of deterministic sampling | by Analytics at Meta | Aug, 2024 | Medium』izumi-lab/wikipedia-ja-20230720あれ

あれ

2024/9/14 19:58:00

機械学習とDuckDBが相性が良い説がある。
HuggingFaceにあるデータセットのURLを指定するだけでSQLでデータ取得できる。

例:
SELECT * FROM 'https://huggingface.co/datasets/izumi-lab/wikipedia-ja-20230720/resolve/main/data/train-00000-of-00008-ff339eae82f3a35d.parquet?download=true' LIMIT 10;

あれ

2024/7/30 12:57:00

AIの学習データ枯渇が問題になるならば、「人間のデータ生産速度向上」がトレンドになりそう。

とはいえ、メモツールでAIが強調されているとなんとなく萎える。

あれ

2023/9/9 10:20:00

今日は朝から学習データのクレンジングをした

あれ

2023/8/27 20:06:00

SNSの運営は当行の通報・監査に関するデータを持っているだろうから、ChatGPT的なものの強化学習に使うデータが豊富そう

あれ

2023/7/19 21:52:00

Wikipediaを学習データとしてメモリーに全文展開しようというのは、おこがましいとは思わんかね

あれ

2023/7/3 9:02:00

末尾の「だ、である」調と「です、ます」調 で Sentence Embeddingが極端に変わってしまって、類似度が低くなるのは、学習データの偏りもありそう。私t_wがデライトに投稿した文章から学習させているので、「だ、である」の文章が偏って多い。