t_wの輪郭

Feedlyでフォローするボタン
『“Low-Resource” Text Classification: A Parameter-Free Classification Method with Compressors』

あれ

2023/7/14 0:07:00

gzipを用いた手法が「文章の分類」というタスクにおいて天才たちが作った並み居る『AI』を抜き去り、驚異的な成績を収めたらしい。

「X1とX2を並べてgzipにすれば、X1とX2が似ているなら圧縮したファイルサイズが小さくなる」という発想。


天才が作ったものを理解すべくひーこらしていると、ほかの天才が軽やかかつ爆速で別のものを出してくる。

あれ

あれ

2023/7/14 1:24:00

そういうわけでgzipでSentence Embeddingが作れるんじゃないかと予備実験してみるとこんな感じ。そこまでパキッとしてないのでそんなに精度が出なさそうな感じがある。類義語をうまく取り扱えてないという感触。

類義語はともあれ、同じ文字が使われていれば類似度が出るので、最低限のベースラインとしては使えそう。

ちなみに、「類似度」というラベルで出しているが、サイズの比になるので、この値は小さいほど類似度が高いということになっている。