t_wの輪郭

例：
SELECT * FROM 'https://huggingface.co/datasets/izumi-lab/wikipedia-ja-20230720/resolve/main/data/train-00000-of-00008-ff339eae82f3a35d.parquet?download=true' LIMIT 10;

あれ

機械学習学習データ

『Scaling Analytics @ Instagram: The power of deterministic sampling | by Analytics at Meta | Aug, 2024 | Medium』

2024/8/21 12:11:00

https://medium.com/@AnalyticsAtMeta/scaling-analytics-instagram-the-power-of-deterministic-sampling-8ee7332d77ae

『[2024年8月21日号]個人的に気になったModern Data Stack情報まとめ | DevelopersIO』

🖕ブロック学習データインプレゾンビ

インプレゾンビをしばくためのブラウザ拡張機能の機能案

2024/8/11 16:52:00

「🖕」ボタンで即時ブロック＋インプレゾンビ学習データに追加する
インプレゾンビ判定器で検出された投稿は非表示にする

あれ

学習データメモツールデータ生産支援AI データ生産支援システムデータ生産支援データ生産

あれ

2024/7/30 12:57:00

AIの学習データ枯渇が問題になるならば、「人間のデータ生産速度向上」がトレンドになりそう。

とはいえ、メモツールでAIが強調されているとなんとなく萎える。

あれ

データ学習データエシカル

エシカルデータ

2024/7/22 10:01:00

『エシカルデータの潮流 | ドクセル』

AI 学習データ中山ところてんエシカルエシカルAI エシカルデータ

『エシカルデータの潮流 | ドクセル』

2024/7/22 9:37:00

https://www.docswell.com/s/tokoroten/ZYWJVR-2024-01-27-170717#p1

あれ

生成AI 学習データ

生成AIの学習データ不要化

2024/7/1 14:32:00

あれ

学習データ

推定の分散で学習データのクリーニング

2024/6/18 11:24:00

あれ

学習データ 2023年9月9日クレンジング

あれ

2023/9/9 10:20:00

今日は朝から学習データのクレンジングをした

あれ

SNS チャットボット学習データ

あれ

2023/8/27 20:06:00

SNSの運営は当行の通報・監査に関するデータを持っているだろうから、ChatGPT的なものの強化学習に使うデータが豊富そう

あれ

学習データ Wikipedia

あれ

2023/7/19 21:52:00

Wikipediaを学習データとしてメモリーに全文展開しようというのは、おこがましいとは思わんかね

あれ

Cartesian Genetic Programmingで文章の類似度を学習学習データあれ

あれ

2023/7/3 9:02:00

末尾の「だ、である」調と「です、ます」調で Sentence Embeddingが極端に変わってしまって、類似度が低くなるのは、学習データの偏りもありそう。私t_wがデライトに投稿した文章から学習させているので、「だ、である」の文章が偏って多い。

2023/6/14 2:34:00

tzmtwtr/tw-posts-ja

2023/6/14 1:58:00

データ制作者（t_w）がデライトに投稿した5万件の投稿を学習用にいい感じにしたやつ
── https://huggingface.co/datasets/tzmtwtr/tw-posts-ja

あれあれあれあれ

LLM 学習データあれ

あれ

2023/5/6 16:52:00

大規模言語モデルの学習、学習データを精選するのがめちゃくちゃ大変そう

学習元の精選もAIに任せよう

LLM 学習データ

あれ

2023/5/6 16:51:00

あれ

LLM 学習データ

『大規模言語AIにアキレス腱、訓練用データが2026年にも枯渇か』

2023/3/16 3:46:00

https://www.technologyreview.jp/s/291329/we-could-run-out-of-data-to-train-ai-language-programs/

あれ