Article

宝宝辅食: 从 SillyTavern 搭建到 API 获取全攻略

AI 摘要

本文是一篇面向新手的SillyTavern(一个AI互动界面)超详细教程。文章从免费AI角色扮演的需求出发,详细介绍了SillyTavern在电脑和手机端的安装部署方法,并提供了代理设置等问题的解决方案。核心内容是如何获取API,分类讲解了Gemini、Deepseek等免费API和多种付费API的获取与使用,并解释了Token等核心概念。此外,文章还涵盖了SillyTavern的界面使用、插件安装、记忆优化(RAG)等进阶技巧,旨在帮助用户从零开始搭建一个功能强大的个人AI互动平台。

折腾发布于·更新于
#转载#笔记#AI

宝宝辅食H1#

废话*1H2#

dzmm角色卡
dzmm角色卡

事情的起因是因为我在群里看到了这张图。有人把我一年之前翻到的dzmm翻出来了,这个b东西经常因为各种奇奇怪怪的角色卡破圈。

有一说一,包括像dzmm或者风月ai,或者是其他杂七杂八的ai角色扮演和涩涩网站,我很难评。有很多甚至是直接拿社区免费开源的东西拿去赚钱,蛮恶心的。(特别是dzmm冲的还是美刀,赠送金玩玩就算了,充钱真的一点必要没有)

开源项目的商业化实际上无可厚非,大多数开源协议通常是允许商业使用的。这类平台大多数都是贩卖的自身的服务,面向的是没有技术能力的萌新。最典型的例子就是Mirror酱。符合相应内容的开源协议即可。

那么有没有一种免费的角色扮演,ai涩涩的平台呢?有的兄弟,这种方法我有九种(划掉)!

SillyTavern:你的AI互动酒馆H2#

SillyTavern(简称 ST)是一个本地安装的用户界面,允许您与文本生成 LLM、图像生成引擎和 TTS 语音模型进行交互——sillytavern

SillyTavern/SillyTavern: LLM Frontend for Power Users.

简单来讲就是个前端

GitHub页面看不懂没关系,我们来打个比方:

缩放:
Ctrl+滚轮

把美少女拐到酒馆就可以聊天,灌醉以后就可以涩涩。

在技术上对应的是**破限Jailbreaking**。这通常涉及通过特定的提示词(prompts)、角色设定或模型参数调整,绕过LLM的安全过滤器(Safeguards)和内容审查机制,使其生成通常被限制的敏感或不当内容。

运营环境的搭建B站有现成的视频教程,在此附上链接:

下方是补丁,错误并不来源于网络

补丁1:代理设置小贴士H3#

系统代理地址报错
系统代理地址报错

这视频谁做的,怎么yaml使用记事本编辑,没高亮、没明显缩进、非等宽字体要把人眼看瞎的

这里推荐一下Visual Studio CodeDownload Visual Studio Code - Mac, Linux, Windows

简单说,vscode 是微软开发的一款 跨平台代码编辑器(新手不用纠结术语,记住 编辑器 = 写代码的工具 即可),核心特点可以总结为 3 个关键词:

  • 免费且开源:不用花钱,所有人都能免费下载使用,代码公开透明(安全性有保障);

  • 跨平台:无论你用 WindowsMac 还是 Linux 电脑,都能安装使用,界面和功能完全一致;

  • 轻量但能 变强大:启动快不卡顿;但能通过「插件」扩展功能,比如支持 PythonJava、前端(HTML/CSS/JS)等所有编程语言,还能实现代码自动补全、语法检查、运行调试、代码高亮等。

对比其他编程工具,vscode 对小白相当友好,主要原因有 4 点:

  1. 零门槛上手:界面简洁,没有复杂的设置,但是多了编程必备的功能;
  2. 支持大部分编程语言:不管你修改配置文件(JSON、YAML、TOML等)、学编程,甚至是写 Markdown 笔记,只要装个对应插件,vscode 都能搞定,不用为不同语言装不同工具;
  3. 功能 “按需添加”,不臃肿:依据本文小白只需要安装yaml拓展即可;后期需要更复杂的功能(比如修改代码、做项目管理),再慢慢加插件,不会像某些工具一打开就有几十个看不懂的按钮;
  4. 社区支持强,问题好解决:因为用的人太多,遇到任何问题(比如 “怎么运行 Python 代码”“插件装不上”),必应 / 小红书 / B 站搜一下,都能找到新手能看懂的教程。
Clash端口
Clash端口

如果你找的是魔法下方的系统代理地址,然后填入,或者是7897clash)或者10808v2ray)的端口,会报错(见常见报错)。个人推荐用tun模式。

补丁2:重复操作解决报错H3#

类似错误1
类似错误2

出现类似的错误,建议重复一次第二步就可以了(这里指的是https://gitee.com/LimeOnTop/sill-tavern的文档步骤)。

API获取:你的专属服务员H2#

API是什么?让我们继续打个比方:

缩放:
Ctrl+滚轮

客人通过服务员给后厨传话,然后给你做菜,这就是API工作的原理。并且,因为你每点一道菜(调用次数),就得收点菜钱(调用费用)。

一般来说这里还有一些api提供商是按次数来计费的来着

这里分免费API和付费API分类讨论,具体模型名字是什么意思我依旧放在最后讲。(如无特殊说明,下方的所有网站都需要魔法)。

免费API:白嫖党的福音H3#

Gemini:谷歌出品,必属精品H4#

Gemini Logo
Gemini Logo

方法:

  1. 注册一个谷歌账号(如果不会注册,请移动到文章末尾)。
  2. 点开https://aistudio.google.com/,并且按照上图的方式(顺带一提,如果你看的是电脑端B站教程,里面内含GeminiAPI的获取方式)。

谷歌ai studio对于ip的判断很严格,推荐使用干净一些的魔法,且不要使用中国香港节点的魔法。

Deepseek:阿里魔搭社区的曲线救国H4#

Deepseek Logo
Deepseek Logo

(注,deepseekAPI官网是收费的,这里利用的是阿里的魔搭社区渠道)

方法:

1.**电脑端(手机打不开)**打开https://modelscope.cn,并且注册账号。

  1. 电脑端(手机打不开),如上图操作。

硅基流动也能够使用的

Claude:网页Cookie的奇妙用法H4#

(注,Claude的官方API依旧是收费的,并且还是美刀,这里利用的是一个利用网页cookie取巧的办法)

  • cookie是什么
  • 指纹浏览器抓取cookie
  • Claude轮询池搭建

社区公益站:免费但需谨慎H4#

公益站盗刷警告
公益站盗刷警告

这个取决于具体社区,建议详细阅读规则,这是对你也是对公益站站长负责。

例如Linuxdo社区里大部分公益站,其实是不支持sillytavern或沉浸式翻译这种高并发的应用的,有封号的风险。

(注,公益站就是字面意思,不收任何钱,可能接受爱发电或账号赞助,任何打着公益站或半公益站旗号收费让你交钱的,都是号贩子!都是号贩子!都是号贩子!)

(而且,这种号贩子甚至懒得买账号去做号池,而是利用公益站的API去盗刷,极其可恶)(如上图)

废话*2:模型选择的考量H4#

并不是只有这三种模型是免费的,而是因为只有这三种模型是社区比较火的——也就意味着新人更容易入门,以及社区支持和角色卡更多。

例如一些你可能听都没听说过的名字,Mistral AI La Plateforme(法国的,算是欧洲独苗了),他们就提供mistral-medium-2505(对中文的支持很差)的免费API

付费API:高阶玩家的选择H3#

(这里仅列出官网API充值渠道和最新模型价格,不做具体教程)

在使用付费API之前,我们还是拿饭店的例子去说明两个重要的概念——当你点菜给服务员(API)的时候,他是怎么知道还需要多少钱的?

可能有人就想到了,菜单上有价格嘛。但这个饭店可是什么都能做,我们不可能把所有的菜列成一个巨大的菜单,依次收费。

这时候就需要一个通用的标准,也就是token(类似游戏币)。

当我们把描述给服务员(API),服务员会先给厨房里的二厨(分词器),让他帮忙计算这句话的含游戏币量(输入token),随后转告给主厨。

主厨做好以后,你还需要支付给主厨一笔做菜的费用(输出token)。而我们最终吃到一道菜的价格,就取决于我们要求的多少,和主厨做菜的费用。

也就是(输入token+输出token= 总价格。

(要求越多(输入token),价格越贵,就像你点一道家常小菜和红烧鱼眼清蒸鱼牙的区别)

一般来说,输出token的单价远大于输入token的单价。

知道了这个原理,就可以理解模型的收费标准了。

好的,这是补充了 Claude 3.5 SonnetClaude 3.5 HaikuClaude 4.1 Opus 以及 Gemini 2.5 Pro Flash 的信息:

ChatGPT:OpenAI 的旗舰产品H4#

  • 模型:GPT-5
  • 官网https://platform.openai.com/
  • 价格:输入:1.25 美元/一百万 token | 输出:10.00 美元/一百万 token

Grok:X.ai 的独特尝试H4#

Claude 4 Sonnet:Anthropic 的智能与速度平衡之选H4#

  • 模型:Claude 4 Sonnet
  • 官网https://www.anthropic.com/ (可通过 Anthropic API, Amazon Bedrock, 和 Google Cloud 的 Vertex AI 访问)
  • 价格:输入:3.00 美元/一百万 token | 输出:15.00 美元/一百万 token
    • 长上下文定价(超过 200K 输入 token):输入:6.00 美元/一百万 token | 输出:22.50 美元/一百万 token
    • 批处理可享 50% 折扣

Claude 3.5 Haiku:Anthropic 最快、最具成本效益的模型H4#

  • 模型:Claude 3.5 Haiku
  • 官网https://www.anthropic.com/ (可通过 Anthropic API, Amazon Bedrock, 和 Google Cloud 的 Vertex AI 访问)
  • 价格:输入:0.80 美元/一百万 token | 输出:4.00 美元/一百万 token
    • 批处理可享 50% 折扣

Claude 4.1 Opus:Anthropic 最智能的模型H4#

  • 模型:Claude Opus 4.1
  • 官网https://www.anthropic.com/ (可通过 Anthropic API, Amazon Bedrock, 和 Google Cloud 的 Vertex AI 访问)
  • 价格:输入:15.00 美元/一百万 token | 输出:75.00 美元/一百万 token
    • 批处理可享 50% 折扣

Gemini 2.5 Pro:Google 的先进推理模型H4#

  • 模型:Gemini 2.5 Pro
  • 官网https://ai.google.dev/ (可通过 Google AI Studio 和 Vertex AI 访问)
  • 价格:输入:1.25 美元/一百万 token (对于 ≤200K token);2.50 美元/一百万 token (对于 >200K token) | 输出:10.00 美元/一百万 token (对于 ≤200K token);15.00 美元/一百万 token (对于 >200K token)

Gemini 2.5 Flash:Google 的高性价比工作模型H4#

  • 模型:Gemini 2.5 Flash
  • 官网https://ai.google.dev/ (可通过 Google AI Studio 和 Vertex AI 访问)
  • 价格:输入:0.10 美元/一百万 token | 输出:0.40 美元/一百万 token
    • 图像输出价格为 30 美元/一百万 token,每张图像(高达 1024x1024px)消耗 1290 token,相当于每张图像 0.039 美元.

SillyTavern页面信息简单教程H2#

基础信息H3#

SillyTavern基础信息界面
SillyTavern基础信息界面

预设H3#

SillyTavern预设界面
SillyTavern预设界面

API链接H3#

API链接设置1
API链接设置2
API链接设置3

虚拟网卡(TUN模式)H4#

TUN模式示意图
TUN模式示意图

或者叫tun模式(魔法使用教程不在这里,演示页面为Clash V)。

原理:

打个比方——

缩放:
Ctrl+滚轮

实际上,第一个黄色方框里面的内容就是tun模式的工作原理。

它会在操作系统中创建一个虚拟网卡(或使用TUN设备)。所有原本应该直接发送到物理网卡的流量,都会被操作系统路由到这个虚拟网卡。虚拟网卡就像一个阀门,控制着数据的流向。

也就是水库内所有流过的水都会通过tun模式这个阀门。

配合上全局配置可以防止SillyTavern没挂上魔法,以至于出现下述报错。

常见报错H4#

报错1
报错2

世界书H3#

世界书界面
世界书界面

角色卡H3#

角色卡界面
角色卡界面

插件导入H3#

插件导入1
插件导入2

社群进入:抱团取暖,事半功倍H2#

十分甚至九分推荐进入社区,这里不仅有大量的角色卡,而且有足够的预设和大佬帮你解决问题。(下方大部分教程都是基于大佬开发的教程,如果不进入会麻烦很多)。

但在此之前你需要注册一个discord账号,如果没有的话请看下方账号注册的教程。

酒馆助手:必备前置插件H2#

绝大多数插件,角色卡都必须要的前置。

文档和教程链接:https://n0vi028.github.io/JS-Slash-Runner-Doc/guide

记忆优化:让AI拥有“长期记忆”H2#

(请保证你安装前,已安装酒馆助手)

原本这里想尝试用几样专门插件去写的(专门的RAG插件,专门的表格插件),但最终实践下来还是Amily2号最适合新人。

https://docs.google.com/document/u/0/d/11E7HIFg59up0afv-lV0cAF5G3jzJXCkZK8cBCOMZ9zo/mobilebasic#heading=h.xq53yl5o80i7
Amily作者亲自编写的教程)

反向代理:宝宝辅食级教程H2#

https://discord.com/channels/1291925535324110879/1406084681564160030
带轮询,宝宝辅食级别教程(统共三步安装,两步使用)。

魔法:通往自由的桥梁H2#

转载文章因为内容审查的原因绕过了这一块,可以去查看原文内容:#宝宝辅食 - 幕布

谷歌账号:AI世界的通行证H2#

注册:免费获取H3#

如何在注册Google账号时跳过手机验证码这个步骤: https://b23.tv/79xTl6J
(无效的话就按照指引注册吧

购买(并不推荐):最后的选择H3#

接码平台
闲鱼购买示例

https://sms-activate.io/
这个是接码平台(但因为里面的号多少有点太了,所以不购买手机号接码注册,即使很便宜但100%注册失败)(图1)。

第二种就是闲鱼搜索Gemini2.5pro学生验证,会给你发一个pro的账号,附带一个谷歌账号(图2)。

可能需要的科普(可不看):AI命名与工作原理H2#

如同NaOH一样,AI的命名也遵从某种准则。以最近很火的gemini 2.5 flash image preview为例,一个一个来拆分其命名准则:

  • Gemini - 谷歌家的(谷歌DeepMind开发的大型模型系列的名称)
  • 2.5 - 版本号(数字越大越快)
  • flash - 快速(同理,还有pro作为推理模型)
  • image - 图片(和专门的imagen图片生成模型不同)
  • preview - 预览版(同理,还有exp实验版)

即:谷歌的2.5代快速多模态模型预览版。
同理,Gemini 2.5 pro preview 0605意味着谷歌的第2.5代推理模型在56号发布的预览版。

聊天模型:深入理解H3#

Token是什么?H4#

我们前面把token比作游戏币,虽然很像,这其实是一个不严谨的说法(但如果看到游戏币的形容,依旧是指token)。这前面说到每个后厨里,除了真正炒菜的主厨(推理模型),还会有二厨存在一样,也就是分词器。二厨的工作就是把用户输入的文本切碎,就如同切菜一样分开,然后交给主厨处理。分开后的一些单个字,词,或短语(英文)被称为token

我们会在大模型的价格页面上,偶尔会看到命中缓存和非命中缓存,这又是什么意思?
换个例子,假设你在图书馆里,我想要一本书的时候,会有两种情况:

  1. 我的书就在身边,或者就在附近,我随手就能拿到(命中缓存)。
  2. 我的书在书架上,或者需要很远去拿的地方(未命中缓存)。
    而这个概念套入AI中,在图书馆找书的过程,就变成了从缓存内找token的过程。

参数额度:AI的“饭量”H4#

当我们在调用API的时候,模型主要由以下几个参数限制:

  • 输入/输出方式——是输入文本或图片,输出文本
  • 最大输入/输出token数

(同样,你可以使用在美化教程内找到如何图片的输入输出方法,这里不做赘述)。

token额度是限额的。这个很好理解,毕竟模型公司不是做慈善的,依旧用先前的饭店例子。假设你有一张这家店的会员卡,那么:

  • 每分钟请求数 (RPM)——一分钟内让后厨最多炒几个菜
  • 每日请求数 (RPD)——这张会员卡每天最多能让后厨炒几个菜
  • 每分钟 token 数(输入)(TPM)——卡里有多少游戏币
  • 每日token数(输入)(RPM)——卡里总共有多少游戏币

同样,以谷歌的免费Gemini2.5pro为例子,它的输入方式为:图片/文本/音频/视频和PDF,输出方式为文本,也就是不支持生图。输入token最大为100 token,输出token65536 tokenRAM2RPD50TPM12.5万,RPM300万。

(也就是说免费账户享受不了100万的输入token,而且只能玩50次)。

相关错误:429错误(Too Many Requests),即过多请求。会给你提示RESOURCE_EXHAUSTED这个报错。原因可能是上述四个限额你违反了一个,这时候就要切换其他API或者换个账号了。

在这里我得说一下有一些公益站提供的API,就是通过轮询超级多的apikey实现的,因为谷歌会给每个ai studioapikey每天一定的额度,所以这样就能绕过限额了。(但这种方法很不稳定,而且很容易炸key

工作原理:Transformer的奥秘H4#

10分钟,让你彻底理解Transformer-哔哩哔哩】https://b23.tv/3b89PXv
(由于这部分内容实在和教程无关,相关内容请在B站自主搜寻)。

记忆原理:AI的“短时记忆”与“遗忘”H4#

我们在上述的参数额度中讲过,对于最大输入token,模拟往往会有一定的参数标准(例如Gemini的最大输入token100)。而这通常是一个硬指标,就连大模型公司也不能随意更改。

当然,没人能一次性输入一百万token,所以很大一部分,就被大模型自己贪污掉了。但请注意,这份贪污是必须的,因为大模型没有记忆力。但你可以看到它会根据你上一条消息继续回答。不是说大模型没有记忆吗?这又是为什么?
:因为它会把你前文所有的问题,无论好坏一股脑的发送回去,直到达到最大输入token的上限(以Gemini为例,就是100token)。

打个比方,AI的记忆就像是我们截长屏,图片会越来越长。又有时候,我们想去发送给好友自己截的长屏,但QQ往往会对长图片进行限制,甚至可能发送失败(429或超过最大输入token)。这时候,我们就必须删掉一部分图片。转换到AI里,便是AI直接忘掉了这一部分内容——这个忘掉遵从时间原则,先问的先删,后问的后删。

如果你理解了上述内容,恭喜你理解了AI短期记忆的机制——也就是将所有的上下文都发过去,超出的部分忘掉这其中,必然伴随着极其巨量的token消耗,所以必须对其进行优化。

RAG:构建AI的“长期记忆”H3#

为了让AI不止局限于那一百万的短期记忆中,同时也为了让token消耗的少一点,就必须让AI拥有自己的长期记忆——该怎样做?

依旧是截屏和QQ发消息的例子,我们可以发现长截屏就是比短截屏要糊~~,而且那么长一串谁看啊~~。而更可惜的是,长截屏里可能只有几个需要对方注意的地方。类比到AI里,就是AI分不清主次,以至于回答的风马牛不相及。解决办法也很简单,就是将长截屏的每个要点切成短截屏,标上先后顺序,存到相册里,再发给朋友。

类比回去,就理解了几个专业名词的意义:

  • 长截短 - 分片
  • 标顺序 - 索引
  • 存相册 - 向量化
  • 发朋友 - 召回

这就是RAG,检索增强生成的全部原理。
视频版本:https://b23.tv/JOf2Zoq(来源于网络)。

额外:更多资源H2#

额外资源1
额外资源2

这里原本其实写了有一大堆来着,但被我翻类脑的时候发现有教程总结了。为了防止造轮子的行为,这里直接附上discord的链接:
https://discord.com/channels/1134557553011998840/1392379963239301221/1392379963239301221

文章转载自 #宝宝辅食 - 幕布 经由原作者 落尘 授权转载

授权信息
授权信息
Copyright & License
© 2025 天翔TNXG
宝宝辅食: 从 SillyTavern 搭建到 API 获取全攻略
CC知识共享许可
BY署名:必须保留原作者署名
NC非商业:禁止用于商业目的
SA相同方式共享:以同协议发布
许可协议:署名-非商业性使用-相同方式共享
天翔TNXG
天翔TNXG离线