あれ2023/7/14 1:24:00 そういうわけでgzipでSentence Embeddingが作れるんじゃないかと予備実験してみるとこんな感じ。そこまでパキッとしてないのでそんなに精度が出なさそうな感じがある。類義語をうまく取り扱えてないという感触。 類義語はともあれ、同じ文字が使われていれば類似度が出るので、最低限のベースラインとしては使えそう。 ちなみに、「類似度」というラベルで出しているが、サイズの比になるので、この値は小さいほど類似度が高いということになっている。
あれ2023/7/14 1:29:00 gzipが使えるとなればほかの圧縮形式を試したくなるのが人情である。 というわけでLZWというのがgoのパッケージにあったので試したところ以下のようになった。 なんとなくgzipよりもLZWの方が類似度を出してくれている雰囲気がある。