🎯 japanese-tfidf-embedder - ユーザー辞書デモ
Loading WASM module...
📚 ユーザー辞書設定
辞書エントリー (JSON形式):
[ { "surface": "人工知能", "variants": ["AI", "エーアイ", "Artificial Intelligence"] }, { "surface": "機械学習", "variants": ["ML", "マシンラーニング", "Machine Learning"] }, { "surface": "深層学習", "variants": ["DL", "ディープラーニング", "Deep Learning"] }, { "surface": "自然言語処理", "variants": ["NLP", "Natural Language Processing"] }, { "surface": "コンピュータビジョン", "variants": ["CV", "Computer Vision", "画像認識"] } ]
辞書を適用
辞書をクリア
サンプル辞書を読み込み
🔍 テキスト処理テスト
入力テキスト:
AIとMLの技術を使って、NLPやComputer Visionの研究をしています。ディープラーニングは人工知能の重要な分野です。
テキストを処理
トークン化結果:
📊 類似度比較
テキスト1:
テキスト2:
類似度を計算
辞書なし
-
辞書あり
-
💡 仕組み
このデモは、ユーザー辞書がテキストのベクトル化をどのように改善するかを示しています:
表層形(Surface Form):
用語の正規化された標準的な表現
異表記(Variants):
表層形にマッピングされる別表記、略語、同義語
トークン化:
テキスト処理時に、異表記は自動的に表層形に置換されます
類似度:
同じ概念の異なる表記を使用する文書間で、より高い類似度スコアが得られます
メリットの例:
"AI" → "人工知能" (英語略語から日本語へ)
"エーアイ" → "人工知能" (カタカナから漢字へ)
"ML" → "機械学習" (技術的な略語)
言語間・文字種間のマッチング精度向上