🎯 japanese-tfidf-embedder - ユーザー辞書デモ

Loading WASM module...

📚 ユーザー辞書設定

辞書エントリー (JSON形式):

🔍 テキスト処理テスト

入力テキスト:

📊 類似度比較

テキスト1:

テキスト2:

💡 仕組み

このデモは、ユーザー辞書がテキストのベクトル化をどのように改善するかを示しています：

表層形（Surface Form）: 用語の正規化された標準的な表現
異表記（Variants）: 表層形にマッピングされる別表記、略語、同義語
トークン化: テキスト処理時に、異表記は自動的に表層形に置換されます
類似度: 同じ概念の異なる表記を使用する文書間で、より高い類似度スコアが得られます

メリットの例:

"AI" → "人工知能" （英語略語から日本語へ）
"エーアイ" → "人工知能" （カタカナから漢字へ）
"ML" → "機械学習" （技術的な略語）
言語間・文字種間のマッチング精度向上