あれ2025/7/27 15:33:00 『ベイズ教師なし文境界認識』 文分割 より一般化できそう。任意の文字列を任意の単位で分割するみたいな。 文分割を〜〜二値潜在変数の推定問題ととらえる 二値潜在変数の推定問題ってなんだろう。 ツイートやパラグラフの終わりは必ず文境界であり データを得る方法として視点がすごく良い。 ただ、無視できるものと思うのだけど、連ツイなどでは文境界ではないものが少数ながらあるので、「必ず」よりも「ほとんど」がよさそう?
『ベイズ教師なし文境界認識』2025/7/27 15:06:00 https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/D1-4.pdf