🚀 japanese-tfidf-embedder

WASM対応の軽量な日本語テキストベクトル化ライブラリ
TF-IDF + LSA による高速なセマンティック類似度計算

📊 プロジェクト概要

japanese-tfidf-embedderは、ブラウザ上で完全に動作する日本語テキストのベクトル化ライブラリです。 WebAssemblyを使用することで、サーバーとの通信なしに高速な文書類似度計算を実現します。

主な特徴: 辞書不要の文字N-gram方式、インクリメンタル学習、ユーザー辞書対応、 わずか182KBの軽量WASM実装

Rust WebAssembly TF-IDF LSA (潜在意味解析) N-gram
🎯

基本的な使い方

japanese-tfidf-embedderの基本機能を体験できるデモです。 テキストのベクトル化と類似度計算の基本を学べます。

  • IncrementalEmbedderの使用方法
  • StableHashEmbedderの比較
  • リアルタイム類似度計算
  • バッチ検索機能
デモを開く →
📈

インクリメンタル学習デモ

300個のサンプル文書を使用した大規模なデモです。 動的なモデル更新と文書の追加・検索を体験できます。

  • 300文書(15カテゴリ×20文書)
  • リアルタイム学習の可視化
  • 重複文書の自動検出
  • パフォーマンスメトリクス表示
デモを開く →
📚

ユーザー辞書デモ

カスタム辞書を使用して、同義語や異表記を統一的に扱うデモです。 技術用語の正規化による精度向上を確認できます。

  • JSON形式での辞書定義
  • 異表記の自動正規化
  • 辞書あり/なしの比較
  • リアルタイム辞書編集
デモを開く →
🔍

学習/検索データ分離デモ

学習専用データと検索対象データを分離して管理するデモです。 大量の背景知識を学習に使いつつ、検索対象を限定できます。

  • 学習専用データの追加
  • 検索対象データの管理
  • 高速な類似検索(事前計算済みベクトル)
  • スコア付き検索結果
デモを開く →

🚀 使い方

各デモページでは、実際にテキストを入力して機能を試すことができます。 すべての処理はブラウザ内で完結し、外部サーバーとの通信は行いません。

推奨環境: モダンブラウザ(Chrome, Firefox, Safari, Edge)の最新版

ローカルで実行する場合:

# リポジトリをクローン
git clone https://github.com/satetsu888/japanese-tfidf-embedder
cd japanese-tfidf-embedder

# WASMをビルド
wasm-pack build --target web --out-dir pkg

# ローカルサーバーを起動
python3 -m http.server 8000

# ブラウザで開く
# http://localhost:8000/examples/

📝 ライセンス

このプロジェクトはMITライセンスのもとで公開されています。 商用利用、改変、再配布が自由に行えます。