t_wの輪郭

Next.js Next.jsでサーバーレスSentence Embedding optimum-cli transformers.onnx ONNX

onnxに変換して量子化するコマンド

2023/12/2 18:38:00

python3 -m transformers.onnx --model=sentence-transformers/paraphrase-multilingual-mpnet-base-v2 onnx/ --opset=18

optimum-cli onnxruntime quantize --onnx_model ./onnx --output onnx_quantize/ --arm64

あれあれ

onnxに変換して量子化するコマンド

あれ

2024/4/7 7:30:00

!pip install --upgrade onnx
!pip install onnxruntime-gpu
!pip install optimum

!optimum-cli export onnx --model google/mt5-small onnx/

!optimum-cli onnxruntime quantize --onnx_model ./onnx --output onnx_quantize/ --arm64

あれ

BERT Sentence Embedding onnxに変換して量子化するコマンド ONNX onnxruntime-nodeでgzipで圧縮したonnxファイルを読み込む

あれ

2023/12/3 0:24:00

500MBあるBERTをONNXに変換した後に量子化したら110MBほどになってLambdaで動かせるようになった。
Githubに乗せるファイルは100MB以下でないとだめなので、ダメ押しでgzipで圧縮したら75MBになった。

あれ