Article

ベビーフード(超初心者向け): SillyTavernの構築からAPI取得までの完全攻略

AI 要約

本稿は、AIキャラクターと対話やロールプレイを楽しむためのフロントエンド「SillyTavern」の初心者向け構築ガイドです。ローカル環境の構築手順やTUNモードでのプロキシ設定に加え、Gemini、Deepseekなどの無料・有料APIの取得方法と料金体系を詳しく解説しています。また、必須プラグインの導入、RAGを用いたAIの長期記憶の最適化、キャラクターカードの利用方法、トークンやAIの仕組みなどの基礎知識も網羅しており、問題解決に役立つDiscordコミュニティも紹介しています。

カスタマイズ公開·更新·言語 中国語 -> 日本語·AI 翻訳
#転載#ノート#AI

ベビーフード(超初心者向け)H1#

前置き*1H2#

dzmmキャラクターカード
dzmmキャラクターカード

事の発端は、グループチャットでこの画像を見かけたことです。私が1年前に見つけたdzmmを誰かが掘り起こしたのですが、このクソツールはよく奇妙なキャラクターcharacterカードのせいで界隈の枠を超えて話題になります。

ぶっちゃけ、dzmmや風月ai、その他の雑多なAIロールプレイやエロサイトについては、なんとも評価しがたいです。コミュニティの無料オープンソースをそのまま使って金儲けをしているものも多く、かなり悪質です。(特にdzmmはドル建てで課金させていますが、無料分で遊ぶだけで十分で、課金する必要は全くありません)

オープンソースプロジェクトの商業化自体は非難されるべきことではなく、ほとんどのオープンソースライセンスは通常、商用利用を許可しています。この種のプラットフォームの多くは自社のサービスを販売しており、技術力のない初心者をターゲットにしています。最も典型的な例が「Mirrorちゃん」です。該当する内容のオープンソースライセンスに準拠していれば問題ありません。

では、無料でロールプレイやAIエロができるプラットフォームはあるのでしょうか?ありますよ兄弟、その方法は9つもあります(取り消し線)!

SillyTavern:あなたのAIインタラクティブ酒場H2#

SillyTavern(略称 ST)は、ローカルにインストールするユーザーインターフェースであり、テキスト生成LLM、画像生成エンジン、TTS音声モデルと対話することができます」——sillytavern

SillyTavern/SillyTavern: LLM Frontend for Power Users.

簡単に言えばフロントエンドです

GitHubのページがわからなくても大丈夫です。例え話をしましょう:

缩放:
Ctrl+滚轮

美少女を酒場に連れ込めばおしゃべりができ、酔わせればエッチなことができます。

技術的には**「脱獄(Jailbreaking)」**に相当します。これは通常、特定のプロンプト(プロンプトprompts)、キャラクター設定、またはモデルパラメータの調整を通じて、LLMのセーフガード(セーフガードSafeguards)やコンテンツフィルタリングメカニズムを回避し、通常は制限されている敏感または不適切なコンテンツを生成させることを指します。

実行環境の構築については、Bilibili動画に既存のチュートリアル動画がありますので、リンクを貼っておきます:

以下は補足(パッチ)です。エラーの原因はネットワークではありません

補足1:プロキシ設定のヒントH3#

システムプロキシアドレスエラー
システムプロキシアドレスエラー

この動画は誰が作ったんだ、なぜYAMLを「メモ帳」で編集しているんだ。ハイライトもなく、明確なインデントもなく、等幅フォントでもないなんて、目が潰れそうだ

ここでVisual Studio Codeをおすすめします:Download Visual Studio Code - Mac, Linux, Windows

簡単に言うと、vscodeはMicrosoftが開発したクロスプラットフォームのコードエディタです(初心者は専門用語を気にせず、「エディタ=コードを書くツール」と覚えてください)。主な特徴は以下の3つのキーワードにまとめられます:

  • 無料でオープンソース:お金はかからず、誰でも無料でダウンロードして使用でき、コードは公開されて透明性があります(安全性も保証されています)。

  • クロスプラットフォーム:Windows、Mac、LinuxのどのPCを使っていてもインストールして使用でき、インターフェースと機能は完全に同じです。

  • 軽量だが「強力になる」:起動が早くカクつきません。また、「プラグイン」を通じて機能を拡張でき、Python、Java、フロントエンド(HTML/CSS/JS)などあらゆるプログラミング言語をサポートし、コードの自動補完、構文チェック、実行とデバッグ、コードハイライトなども実現できます。

他のプログラミングツールと比較して、vscodeは初心者にとって非常に親切です。主な理由は以下の4点です:

  1. 導入のハードルがゼロ:インターフェースがシンプルで複雑な設定はありませんが、プログラミングに必要な機能は揃っています。
  2. ほとんどのプログラミング言語をサポート:設定ファイル(JSON、YAML、TOMLなど)の編集、プログラミングの学習、さらにはMarkdownノートの作成まで、対応するプラグインをインストールするだけでvscodeで完結し、言語ごとに異なるツールをインストールする必要はありません。
  3. 機能を「必要に応じて追加」でき、肥大化しない:この記事の初心者の場合、YAML拡張機能をインストールするだけで十分です。後でより複雑な機能(コードの変更やプロジェクト管理など)が必要になったら、徐々にプラグインを追加すればよく、一部のツールのように開いた瞬間に意味不明なボタンが何十個も並んでいるようなことはありません。
  4. コミュニティのサポートが強力で問題解決が容易:使用者が非常に多いため、何らかの問題(「Pythonコードの実行方法」「プラグインがインストールできない」など)に直面しても、Bingや小紅書(RED)、Bilibiliで検索すれば、初心者にもわかるチュートリアルが必ず見つかります。
Clashポート
Clashポート

魔法(VPN/プロキシ)の下にあるシステムプロキシアドレスを見つけて入力したり、7897clash)や10808v2ray)のポートを入力したりすると、エラーが発生します(「よくあるエラー」を参照)。個人的にはtunモードの使用をおすすめします。

補足2:エラー解決のための反復操作H3#

類似エラー1
類似エラー2

似たようなエラーが発生した場合は、ステップ2をもう一度繰り返すことをお勧めします(ここではhttps://gitee.com/LimeOnTop/sill-tavernのドキュメントの手順を指しています)。

APIの取得:あなた専属のウェイターH2#

APIとは何でしょうか?続けて例え話をしましょう:

缩放:
Ctrl+滚轮

お客さんがウェイターを通じて厨房に注文を伝え、料理を作ってもらう。これがAPIの仕組みです。そして、料理を一品注文する(呼び出し回数)ごとに、料理代(呼び出し料金)を支払う必要があります。

一般的に、APIプロバイダーの中には回数ベースで課金するところもあります。

ここでは無料APIと有料APIに分けて説明します。具体的なモデル名の意味については最後に説明します。(特記がない限り、以下のすべてのサイトは魔法(VPN等)が必要です)。

無料API:タダ乗り派の福音H3#

Gemini:Google製、間違いなしの逸品H4#

Gemini Logo
Gemini Logo

方法:

  1. Googleアカウントを登録します(登録方法がわからない場合は、記事の最後まで進んでください)。
  2. https://aistudio.google.com/ を開き、上の画像のように操作します(ちなみに、PC版Bilibiliのチュートリアルを見ている場合、その中にGemini APIの取得方法が含まれています)。

Google AI StudioIPの判定が非常に厳しいため、クリーンな魔法(IP)を使用することをお勧めします。また、香港ノードの魔法は使用しないでください。

Deepseek:Alibaba ModelScopeコミュニティによる裏技H4#

Deepseek Logo
Deepseek Logo

(注:DeepSeek APIの公式サイトは有料ですが、ここではAlibabaModelScopeコミュニティのチャネルを利用しています)

方法:

1.**PC版(スマホでは開けません)**から https://modelscope.cn を開き、アカウントを登録します。

  1. **PC版(スマホでは開けません)**で、上の画像のように操作します。

SiliconFlow(硅基流動)でも使用可能です。

Claude:Web Cookieの奇妙な使い方H4#

(注:Claudeの公式APIは依然として有料で、しかもドル建てです。ここではWebCookieを利用した裏技を使います)

  • Cookieとは何か
  • アンチデテクトブラウザ(指紋ブラウザ)によるCookieの取得
  • Claudeポーリングプールの構築

コミュニティの公益サイト:無料だが注意が必要H4#

公益サイト不正利用警告
公益サイト不正利用警告

これは具体的なコミュニティによります。ルールを詳細に読むことをお勧めします。これはあなた自身のためでもあり、公益サイトの管理者に対する責任でもあります。

例えばLinuxdoコミュニティ内のほとんどの公益サイトは、実際にはSillyTavernや没入型翻訳のような高並行処理のアプリケーションをサポートしておらず、アカウントBANのリスクがあります。

(注:公益サイトとは文字通り一切お金を取らないサイトのことです。Afdian(愛発電)での支援やアカウントの提供を受け付けていることはありますが、公益サイトや半公益サイトを名乗って料金を請求してくるものは、すべてアカウント転売ヤーです!すべてアカウント転売ヤーです!すべてアカウント転売ヤーです!)

(さらに、こういった転売ヤーは自分でアカウントを買ってアカウントプールを作ることすら面倒がり、公益サイトのAPIを利用して不正利用(タダ乗り)を行うため、極めて悪質です)(上の画像を参照)

前置き*2:モデル選択の考慮事項H4#

これら3つのモデルだけが無料というわけではなく、コミュニティで人気があるのがこの3つだということです。つまり、初心者が入門しやすく、コミュニティのサポートやキャラクターカードも多いということです。

例えば、聞いたこともないような名前かもしれませんが、Mistral AILa Plateforme(フランスの企業で、ヨーロッパ唯一の希望とも言えます)では、mistral-medium-2505(中国語のサポートは非常に貧弱です)の無料APIを提供しています。

有料API:上級プレイヤーの選択H3#

(ここでは公式サイトのAPIチャージチャネルと最新モデルの価格のみをリストアップし、具体的なチュートリアルは行いません)

有料APIを使用する前に、先ほどのレストランの例を使って2つの重要な概念を説明しましょう。あなたがウェイター(API)に料理を注文したとき、彼はどうやって料金を計算しているのでしょうか?

メニューに価格が書いてあるからだ、と思うかもしれません。しかし、このレストランは何でも作ることができるため、すべての料理を巨大なメニューにリストアップして順に課金することは不可能です。

そこで必要になるのが、一般的な基準、つまりToken(ゲーム内通貨のようなもの)です。

私たちが説明をウェイター(API)に伝えると、ウェイターはまず厨房の副料理長(トークナイザー)にその言葉の「ゲームコイン含有量」(入力Token)を計算してもらい、その後メインシェフに伝えます。

メインシェフが料理を作った後、シェフに調理の手間賃(出力Token)を支払う必要があります。そして、最終的に私たちが食べる料理の価格は、私たちの注文量とシェフの調理費用の合計によって決まります。

つまり、(入力Token + 出力Token= 合計価格、となります。

(要求が多い(入力Tokenが多い)ほど、価格は高くなります。家庭料理の小鉢を頼むのと、魚の目玉の醤油煮込みや魚の歯の蒸し物を頼むのとの違いのようなものです)

一般的に、出力Tokenの単価は入力Tokenの単価よりもはるかに高くなります。

この原理を理解すれば、モデルの料金体系が理解できるはずです。

さて、以下はClaude 3.5 SonnetClaude 3.5 HaikuClaude 4.1 Opus、そしてGemini 2.5 ProFlashの情報を補足したものです:

ChatGPT:OpenAIの主力製品H4#

  • モデル:GPT-5
  • 公式サイトhttps://platform.openai.com/
  • 価格:入力:1.25 ドル/100万 Token | 出力:10.00 ドル/100万 Token

Grok:X.aiのユニークな試みH4#

  • モデル:Grok-4
  • 公式サイトhttps://console.x.ai/team
  • 価格:入力:3.00 ドル/100万 Token | 出力:15.00 ドル

Claude 4 Sonnet:Anthropicの知能と速度のバランスを重視した選択H4#

  • モデル:Claude 4 Sonnet
  • 公式サイトhttps://www.anthropic.com/ (Anthropic API、Amazon Bedrock、およびGoogle CloudのVertex AI経由でアクセス可能)
  • 価格:入力:3.00 ドル/100万 Token | 出力:15.00 ドル/100万 Token
    • 長いコンテキストの価格(200K 入力Token超過):入力:6.00 ドル/100万 Token | 出力:22.50 ドル/100万 Token
    • バッチ処理は50%の割引が適用されます

Claude 3.5 Haiku:Anthropicの最速かつ最もコスト効率の高いモデルH4#

  • モデル:Claude 3.5 Haiku
  • 公式サイトhttps://www.anthropic.com/ (Anthropic API、Amazon Bedrock、およびGoogle CloudのVertex AI経由でアクセス可能)
  • 価格:入力:0.80 ドル/100万 Token | 出力:4.00 ドル/100万 Token
    • バッチ処理は50%の割引が適用されます

Claude 4.1 Opus:Anthropicの最もインテリジェントなモデルH4#

  • モデル:Claude Opus 4.1
  • 公式サイトhttps://www.anthropic.com/ (Anthropic API、Amazon Bedrock、およびGoogle CloudのVertex AI経由でアクセス可能)
  • 価格:入力:15.00 ドル/100万 Token | 出力:75.00 ドル/100万 Token
    • バッチ処理は50%の割引が適用されます

Gemini 2.5 Pro:Googleの高度な推論モデルH4#

  • モデル:Gemini 2.5 Pro
  • 公式サイトhttps://ai.google.dev/ (Google AI StudioおよびVertex AI経由でアクセス可能)
  • 価格:入力:1.25 ドル/100万 Token (≤200K Tokenの場合);2.50 ドル/100万 Token (>200K Tokenの場合) | 出力:10.00 ドル/100万 Token (≤200K Tokenの場合);15.00 ドル/100万 Token (>200K Tokenの場合)

Gemini 2.5 Flash:Googleのコストパフォーマンスに優れたワークモデルH4#

  • モデル:Gemini 2.5 Flash
  • 公式サイトhttps://ai.google.dev/ (Google AI StudioおよびVertex AI経由でアクセス可能)
  • 価格:入力:0.10 ドル/100万 Token | 出力:0.40 ドル/100万 Token
    • 画像出力価格は 30 ドル/100万 Tokenで、画像1枚(最大1024x1024px)あたり1290 Tokenを消費し、画像1枚あたり0.039ドルに相当します。

SillyTavern画面情報の簡単なチュートリアルH2#

基本情報H3#

SillyTavern基礎信息界面
SillyTavern基礎信息界面

プリセットH3#

SillyTavern预设界面
SillyTavern预设界面

API連携H3#

API链接设置1
API链接设置2
API链接设置3

仮想ネットワークカード(TUNモード)H4#

TUN模式示意图
TUN模式示意图

またはTUNモードとも呼ばれます(魔法の使用チュートリアルはここにはありません。デモ画面はClash Vです)。

原理:

例え話をすると——

缩放:
Ctrl+滚轮

実際には、最初の黄色い四角の中の内容がTUNモードの動作原理です。

OS内に仮想ネットワークカードを作成します(またはTUNデバイスを使用します)。本来なら物理ネットワークカードに直接送信されるはずのすべてのトラフィックが、OSによってこの仮想ネットワークカードにルーティングされます。仮想ネットワークカードは「バルブ」のように機能し、データの流れを制御します。

つまり、貯水池を流れるすべての水がTUNモードというバルブを通過するようなものです。

グローバル設定と組み合わせることで、SillyTavernに魔法(プロキシ)が適用されず、以下のようなエラーが発生するのを防ぐことができます。

よくあるエラーH4#

报错1
报错2

ワールドブック (World Info)H3#

世界书界面
世界书界面

キャラクターカードH3#

角色卡界面
角色卡界面

拡張機能(プラグイン)のインポートH3#

插件导入1
插件导入2

コミュニティへの参加:協力し合って効率アップH2#

コミュニティへの参加を強く(10分の9くらい)お勧めします。ここには大量のキャラクターカードがあるだけでなく、十分なプリセットがあり、有識者が問題解決を手伝ってくれます。(以下のチュートリアルの大部分は有識者が開発したチュートリアルに基づいており、参加しないとかなり面倒になります)。

ただし、その前にDiscordアカウントを登録する必要があります。持っていない場合は、以下のアカウント登録チュートリアルをご覧ください。

酒場アシスタント:必須の前提プラグインH2#

大多数のプラグインやキャラクターカードで必須となる前提ツールです。

ドキュメントとチュートリアルのリンク:https://n0vi028.github.io/JS-Slash-Runner-Doc/guide

記憶の最適化:AIに「長期記憶」を持たせるH2#

(インストールの前に、酒場アシスタントがインストールされていることを確認してください)

もともとここではいくつかの専用プラグイン(専用のRAGプラグイン、専用の表プラグインなど)を使って書こうとしていたのですが、実際に試した結果、初心者にはAmily2号が最も適しているという結論に至りました。

https://docs.google.com/document/u/0/d/11E7HIFg59up0afv-lV0cAF5G3jzJXCkZK8cBCOMZ9zo/mobilebasic#heading=h.xq53yl5o80i7
(Amilyの作者が自ら執筆したチュートリアル)

リバースプロキシ:超初心者向けチュートリアルH2#

https://discord.com/channels/1291925535324110879/1406084681564160030
ポーリング機能付きの、超初心者レベルのチュートリアルです(合計3ステップでインストール、2ステップで使用)。

魔法:自由への架け橋H2#

転載元の記事ではコンテンツ審査の都合でこの部分を回避しているため、原文の内容を確認してください:#宝宝辅食 - 幕布

Googleアカウント:AIの世界へのパスポートH2#

登録:無料で取得H3#

Googleアカウント登録時にSMS認証ステップをスキップする方法: https://b23.tv/79xTl6J
(無効な場合は、案内に従って登録してください……)

購入(非推奨):最後の選択肢H3#

SMS認証代行プラットフォーム
閑魚(Xianyu)での購入例

https://sms-activate.io/
これはSMS認証代行プラットフォームです(しかし、ここにある番号は少し「汚れ(ブラックリスト入り)」すぎているため、電話番号を購入して認証登録することはしません。非常に安いですが、100%登録に失敗します)(図1)。

2つ目の方法は、閑魚(Xianyu)で「Gemini2.5pro学生認証」と検索することです。すると、ProアカウントとGoogleアカウントが送られてきます(図2)。

必要なかもしれない豆知識(読まなくてもOK):AIの命名と動作原理H2#

NaOHと同じように、AIの命名にも特定の規則があります。最近話題のgemini 2.5 flash image previewを例に、その命名規則を一つ一つ分解してみましょう:

  • Gemini - Google製(Google DeepMindが開発した大規模モデルシリーズの名前)
  • 2.5 - バージョン番号(数字が大きいほど新しい)
  • flash - 高速(同様に、推論モデルとしてのproもあります)
  • image - 画像(専用のimagen画像生成モデルとは異なります)
  • preview - プレビュー版(同様に、exp実験版もあります)

つまり、Googleの第2.5世代高速マルチモーダルモデルのプレビュー版です。
同様に、Gemini 2.5 pro preview 0605は、Googleの第2.5世代推論モデルが5月6日(または6月5日)にリリースしたプレビュー版であることを意味します。(訳注:通常0605は6月5日を指します)

チャットモデル:深い理解H3#

Tokenとは?H4#

先ほどTokenをゲームコインに例えましたが、似ているとはいえ、実はこれは厳密な表現ではありません(しかし、ゲームコインという表現を見たら、依然としてTokenを指していると思ってください)。先ほど、それぞれの厨房には、実際に料理を作るメインシェフ(推論モデル)に加えて、副料理長(トークナイザー)が存在すると話しました。副料理長の仕事は、ユーザーが入力したテキストを野菜を切るように細かく分割し、それをメインシェフに渡して処理させることです。分割された1つの文字、単語、またはフレーズ(英語の場合)はTokenと呼ばれます。

大規模モデルの料金ページで、「キャッシュヒット(命中缓存)」や「キャッシュミス(非命中缓存)」という言葉を時々見かけますが、これはどういう意味でしょうか?
別の例えをしましょう。あなたが図書館にいて、私が本を一冊欲しいと思ったとき、2つの状況が考えられます:

  1. 欲しい本がすぐそばにあり、手を伸ばせば取れる(キャッシュヒット)。
  2. 欲しい本が本棚にあるか、遠くまで取りに行かなければならない(キャッシュミス)。
    この概念をAIに当てはめると、図書館で本を探すプロセスが、キャッシュ内からTokenを探すプロセスに変わります。

パラメータ制限:AIの「食事量」H4#

APIを呼び出すとき、モデルは主に以下のいくつかのパラメータによって制限されます:

  • 入出力方式——テキストや画像を入力し、テキストを出力するか
  • 最大入出力Token数

(同様に、画像の入出力方法については装飾チュートリアルで見つけることができるため、ここでは割愛します)。

Tokenの枠には制限があります。モデル企業も慈善事業ではないので当然です。引き続き先ほどのレストランの例を使いましょう。あなたがこの店の会員カードを持っていると仮定します。その場合:

  • 1分あたりのリクエスト数 (RPM)——1分間に厨房に作らせる最大料理数
  • 1日あたりのリクエスト数 (RPD)——この会員カードで1日に厨房に作らせる最大料理数
  • 1分あたりのToken数(入力)(TPM)——カードにどれだけのゲームコインが入っているか
  • 1日あたりのToken数(入力)(RPM)——カードに合計でどれだけのゲームコインが入っているか

同様に、Googleの無料のGemini 2.5 Proを例にとると、入力方式は画像/テキスト/音声/動画およびPDFで、出力方式はテキストです。つまり、画像生成には対応していません。入力Tokenの最大値は100Token、出力Token65,536Tokenです。RAM2RPD50TPM12.5万、RPM300万です。

(つまり、無料アカウントでは100万の入力Tokenをフルに活用できず、50回しか遊べないということです)。

関連するエラー:429エラー(Too Many Requests)、すなわち「リクエスト過多」です。「RESOURCE_EXHAUSTED」というエラーメッセージが表示されます。原因は上記の4つの制限のいずれかに引っかかったことだと考えられます。この場合は、他のAPIに切り替えるか、アカウントを変更する必要があります。

ここで言及しておきたいのは、一部の公益サイトが提供するAPIは、非常に多くのAPIキーをポーリングすることで実現されているということです。Googleは各AI StudioAPIキーに毎日一定の枠を付与しているため、これを利用して制限を回避しているのです。(ただし、この方法は非常に不安定で、キーがBAN(炸key)されやすいです)

動作原理:Transformerの秘密H4#

【10分でTransformerを完全に理解する-Bilibili】https://b23.tv/3b89PXv
(この部分はチュートリアルと直接関係ないため、関連コンテンツはBilibiliで各自検索してください)。

記憶の原理:AIの「短期記憶」と「忘却」H4#

上記のパラメータ制限で述べたように、最大入力Tokenについて、モデルは通常一定の基準を持っています(例えば、Geminiの最大入力Token100万です)。これは通常ハードリミットであり、大規模モデルの企業でさえ勝手に変更することはできません。

当然、一度に100万Tokenを入力できる人はいないため、大部分は大規模モデル自身に「着服」されてしまいます。しかし、この着服は必要なことである点に注意してください。なぜなら、大規模モデルには記憶力がないからです。それでも、前のメッセージに基づいて回答を続けているのがわかると思います。大規模モデルには記憶がないと言ったのに、これはなぜでしょうか?
答え:過去のすべての質問を、良いものも悪いものもひっくるめて、最大入力Tokenの上限(Geminiの場合は100万Token)に達するまで毎回送信し直しているからです。

例えるなら、AIの記憶は私たちがスクロールスクリーンショット(縦長スクショ)を撮るようなもので、画像はどんどん長くなっていきます。また、自分が撮った長いスクショを友人に送りたいと思っても、QQ(チャットアプリ)では長い画像が制限されたり、送信に失敗したりすることがあります(429エラーや最大入力Token超過)。このような場合、画像の一部を削除する必要があります。これをAIに置き換えると、AIが直接その部分の内容を「忘れる」ことになります。この忘却は時間の原則に従い、先に質問したものが先に削除され、後から質問したものが後に削除されます。

上記の内容を理解できたなら、おめでとうございます。これでAIの短期記憶のメカニズムを理解したことになります。つまり、すべてのコンテキストを送信し、超過した部分を「忘れる」という仕組みです。これには必然的に膨大なTokenの消費が伴うため、最適化が必要になるのです。

RAG:AIの「長期記憶」の構築H3#

AI100Tokenの短期記憶だけに制限せず、同時にTokenの消費を抑えるためには、AIに独自の長期記憶を持たせる必要があります。では、どうすればよいのでしょうか?

引き続きスクショとQQメッセージの例を使います。長いスクショは短いスクショよりも画質が粗くなりがちで、しかもあんなに長いもの誰が読むんだという問題があります。さらに残念なことに、長いスクショの中で相手に注目してほしい箇所はほんの数箇所かもしれません。これをAIに例えると、AIが重要度の優先順位をつけられず、見当違いの回答をしてしまう状態です。解決策は簡単で、長いスクショの重要なポイントごとに切り分けて短いスクショにし、順番をつけてアルバムに保存してから友人に送るのです。

これをAIのプロセスに置き換えると、いくつかの専門用語の意味が理解できます:

  • 長いものを短く切る - チャンク化(分片Chunking
  • 順番をつける - インデックス化(索引Indexing
  • アルバムに保存する - ベクトル化(向量化Embedding
  • 友人に送る - 検索/取得(召回Retrieval

これがRAG(検索拡張生成)の全体的な原理です。
動画版:https://b23.tv/JOf2Zoq(ネット上のソース)。

おまけ:その他のリソースH2#

额外资源1
额外资源2

ここには本来たくさんのことを書いていたのですが、類脳(コミュニティ)を見ていたところ、すでにチュートリアルがまとめられているのを発見しました。車輪の再発明を避けるため、ここでは直接Discordのリンクを貼っておきます:
https://discord.com/channels/1134557553011998840/1392379963239301221/1392379963239301221

この記事は #宝宝辅食 - 幕布 より転載したものであり、原作者 落尘 の許可を得ています。

授权信息
授权信息
Copyright & License
© 2025 天翔TNXG
ベビーフード(超初心者向け): SillyTavernの構築からAPI取得までの完全攻略
CCクリエイティブ・コモンズ・ライセンス
BY表示:原作者のクレジット表示が必要です
NC非営利:営利目的での利用は禁止です
SA継承:同じライセンスで共有する必要があります
ライセンス:表示-非営利-継承