あれ
いつかAIがプログラムを全部書いてくれる、コミットメッセージが学習データになるという信心から、丁寧めにコミットメッセージ書くようにしてる。
ちなみに最近気づいたんだけど、開発済みのものをAIに学習させても嬉しくないんですわ。開発済みなので。
ドキュメントの自動生成とか、RAGとかの方面でコミットメッセージ活用をやっていきたい。
あれ
AI、小規模なスクリプトとか、プロジェクトの立ち上げる時のコード書かせるのも精度が高い印象ある。学習データ多そう。
込み入った既存のプロジェクトになってきてしまうと、個別性が高くて学習データが乏しいという問題がありそう。
AIがやるにしろ、人がやるにしろ、プロジェクトが「ここだけ見ればよい」みたいな構成にできてるといいんだろうなぁと思う。
設計を勉強して頑張っていきたい。
izumi-lab/wikipedia-ja-20230720
あれ
機械学習とDuckDBが相性が良い説がある。
HuggingFaceにあるデータセットのURLを指定するだけでSQLでデータ取得できる。
例:
SELECT * FROM 'https://huggingface.co/datasets/izumi-lab/wikipedia-ja-20230720/resolve/main/data/train-00000-of-00008-ff339eae82f3a35d.parquet?download=true' LIMIT 10;
インプレゾンビをしばくためのブラウザ拡張機能の機能案
あれ
AIの学習データ枯渇が問題になるならば、「人間のデータ生産速度向上」がトレンドになりそう。
とはいえ、メモツールでAIが強調されているとなんとなく萎える。
『エシカルデータの潮流 | ドクセル』
あれ
SNSの運営は当行の通報・監査に関するデータを持っているだろうから、ChatGPT的なものの強化学習に使うデータが豊富そう
あれ
末尾の「だ、である」調と「です、ます」調 で Sentence Embeddingが極端に変わってしまって、類似度が低くなるのは、学習データの偏りもありそう。私t_wがデライトに投稿した文章から学習させているので、「だ、である」の文章が偏って多い。