あれ2023/9/3 14:17:00 損失関数の微分を数値微分でやってたら計算に1分15秒とかかかっていたのが、ちゃんと微分するようにしたら4秒とかになった。ただし損失関数はコサイン類似度からL2ノルムに変更になった。
あれ2023/9/6 2:26:00 学習に用いる損失関数はL2ノルムつかっちゃうのが一般的だし、計算が早いし、単純だしなんだけど、なんか痒い。 最終的に出力の評価はコサイン類似度つかうから、コサイン類似度から損失関数作ってぶちこもうぜとなってる。 いまいまは損失関数にL2ノルムつかってみてるけど、ちょっと学習率を強めにすると、パラメーターが発散しちゃってうまく学習できてない。 発散しないようにいい感じ™️の正則化項をもうけてやるのが現実解なんだろうなぁ……