WASM対応の軽量な日本語テキストベクトル化ライブラリ
TF-IDF + LSA による高速なセマンティック類似度計算
japanese-tfidf-embedderは、ブラウザ上で完全に動作する日本語テキストのベクトル化ライブラリです。 WebAssemblyを使用することで、サーバーとの通信なしに高速な文書類似度計算を実現します。
主な特徴: 辞書不要の文字N-gram方式、インクリメンタル学習、ユーザー辞書対応、 わずか182KBの軽量WASM実装
japanese-tfidf-embedderの基本機能を体験できるデモです。 テキストのベクトル化と類似度計算の基本を学べます。
300個のサンプル文書を使用した大規模なデモです。 動的なモデル更新と文書の追加・検索を体験できます。
カスタム辞書を使用して、同義語や異表記を統一的に扱うデモです。 技術用語の正規化による精度向上を確認できます。
学習専用データと検索対象データを分離して管理するデモです。 大量の背景知識を学習に使いつつ、検索対象を限定できます。
各デモページでは、実際にテキストを入力して機能を試すことができます。 すべての処理はブラウザ内で完結し、外部サーバーとの通信は行いません。
推奨環境: モダンブラウザ(Chrome, Firefox, Safari, Edge)の最新版
ローカルで実行する場合:
# リポジトリをクローン
git clone https://github.com/satetsu888/japanese-tfidf-embedder
cd japanese-tfidf-embedder
# WASMをビルド
wasm-pack build --target web --out-dir pkg
# ローカルサーバーを起動
python3 -m http.server 8000
# ブラウザで開く
# http://localhost:8000/examples/
このプロジェクトはMITライセンスのもとで公開されています。 商用利用、改変、再配布が自由に行えます。