t_wの輪郭

実験的にも、BERTの[CLS]トークン埋め込みや平均プーリング埋め込みを使うぐらいだったら、GloVe等の（もっと古い時代の）単語埋め込みを使った方がましということが知られている
── 『オープンな日本語埋め込みモデルの選択肢 / Exploring Publicly Available Japanese Embedding Models』

『オープンな日本語埋め込みモデルの選択肢 / Exploring Publicly Available Japanese Embedding Models』

AI外注 BERT 『社会人のための「AIガチャ」入門』Lambda

あれ

2023/12/3 8:59:00

LambdaでBERTを動かせるようになったんだけども、この知識を200万円ぐらいで売りたい。

誰か買ってくんねーかなぁ……
AI構築を外注すると考えると、安いほうですわよ。

ちなみにAI構築を外注すると、1回の試行で数百万円かかった上でだいたい失敗するらしいぞ♥

あれ

BERT Sentence Embedding onnxに変換して量子化するコマンド ONNX onnxruntime-nodeでgzipで圧縮したonnxファイルを読み込む

あれ

2023/12/3 0:24:00

500MBあるBERTをONNXに変換した後に量子化したら110MBほどになってLambdaで動かせるようになった。
Githubに乗せるファイルは100MB以下でないとだめなので、ダメ押しでgzipで圧縮したら75MBになった。

あれ

Bedrock あれ knownet BERT

あれ

2023/12/2 23:21:00

knownetの検索をBedrockからBERTに移行した。
検索精度の変化は定量的な比較をしてないので謎。体感的には変わらん気がする。

あれ

睾丸をグリップ AIモデル BERT Lambda

あれ

2023/12/2 22:15:00

LambdaでBERTを動かして、Sentence Embeddingを取れるようになったぞ！！！

これでやっとBedrockにAIモデルを握られなくて済む。今まで睾丸をグリップされていた。

あれ

BERT Textless NLP

HuBERT

2023/11/20 22:31:00

あれ

『t_wの輪郭』knownet BERT Amplify Next.js React Sentence Embedding DataStore

2023年11月14日日記

2023/11/15 0:26:00

朝

　特に記憶に無いです。

仕事

　「Next.jsを使えば忌々しいAmplifyのDataStoreを無くせるんじゃね？」とか思って、社内システムの移植を開始した。もともとReactで動いていたので、3時間ほどでシステムがNext.jsの上で動くようになった。Next.jsの恩恵が受けられるのはこれからだ。

夜

　「Next.jsを使えばBERTでSentence Embeddingを取るAPIをサーバーレスでつくれるんじゃね？」とかおもって実装した結果、比較的高性能な開発機であっても計算に3秒もかかることがわかり、検索には使えず無事死亡した。

デライトが落ちていた

　「あれ」ってどんなんだったっけと思って、デライトで検索しようとしたところ、デライトが落ちていた(障害のお知らせ)。普段当たり前のようにデライトが使えているが、knownetの開発を通じてデライトが安定稼働していたことの異常さに気付きつつある。knownetの方はちゃんと動いている期間のほうが短い。