あれ
2025/7/27 15:33:00
文分割
より一般化できそう。任意の文字列を任意の単位で分割するみたいな。
文分割を〜〜二値潜在変数の推定問題ととらえる
二値潜在変数の推定問題ってなんだろう。
ツイートやパラグラフの終わりは必ず文境界であり
データを得る方法として視点がすごく良い。
ただ、無視できるものと思うのだけど、連ツイなどでは文境界ではないものが少数ながらあるので、「必ず」よりも「ほとんど」がよさそう?
文分割
より一般化できそう。任意の文字列を任意の単位で分割するみたいな。
文分割を〜〜二値潜在変数の推定問題ととらえる
二値潜在変数の推定問題ってなんだろう。
ツイートやパラグラフの終わりは必ず文境界であり
データを得る方法として視点がすごく良い。
ただ、無視できるものと思うのだけど、連ツイなどでは文境界ではないものが少数ながらあるので、「必ず」よりも「ほとんど」がよさそう?