Skip to content

HuggingFaceとは?

HuggingFaceは、自然言語処理(NLP)機械学習(ML)のためのオープンソースプラットフォームです。
学習済みモデルの共有が行われており、しばしば「モデルのGitHub」と呼ばれることもあります。


1. ライブラリの中心

HuggingFaceには主に以下の2つのライブラリが存在します。

  • Transformers
    トランスフォーマーベースの学習済みモデルを簡単に利用できるライブラリ。数行のコードで推論や微調整が可能で、翻訳・要約・分類・質問応答など幅広いタスクに対応しています。

  • Optimum
    モデルを高速化・最適化するためのライブラリ。ONNXやOpenVINOなど外部フレームワークとの互換性を活用し、推論を効率化したりデプロイを容易にします。


2. Datasets と Tokenizers

  • Datasets
    研究や開発で利用される多様なデータセットを共有・利用できる仕組み。データをローカルにダウンロードせずに、オンラインからストリーミングで扱えるのが特徴です。

  • Tokenizers
    テキストをモデルに入力できる形に分割するための前処理ライブラリ。Rustで実装されているため高速で、サブワード分割やBPEなどの方式に対応しています。


まとめ

  • HuggingFaceは モデルの共有ハブ として機能しつつ、

  • Transformers(推論中心)と Optimum(変換・最適化中心)を核にしたライブラリ群を提供、

  • さらに DatasetsTokenizers で研究・開発を支援するエコシステムを構築しています。