宝宝辅食H1#

废话*1H2#

事情的起因是因为我在群里看到了这张图。有人把我一年之前翻到的dzmm翻出来了，这个b东西经常因为各种奇奇怪怪的角色卡破圈。

有一说一，包括像dzmm或者风月ai，或者是其他杂七杂八的ai角色扮演和涩涩网站，我很难评。有很多甚至是直接拿社区免费开源的东西拿去赚钱，蛮恶心的。（特别是dzmm冲的还是美刀，赠送金玩玩就算了，充钱真的一点必要没有）

开源项目的商业化实际上无可厚非，大多数开源协议通常是允许商业使用的。这类平台大多数都是贩卖的自身的服务，面向的是没有技术能力的萌新。最典型的例子就是Mirror酱。符合相应内容的开源协议即可。

那么有没有一种免费的角色扮演，ai涩涩的平台呢？有的兄弟，这种方法我有九种（划掉）！

SillyTavern：你的AI互动酒馆H2#

“SillyTavern（简称 ST）是一个本地安装的用户界面，允许您与文本生成 LLM、图像生成引擎和 TTS 语音模型进行交互”——sillytavern。

SillyTavern/SillyTavern: LLM Frontend for Power Users.

~~简单来讲就是个前端~~

GitHub页面看不懂没关系，我们来打个比方：

缩放：

Ctrl+滚轮

把美少女拐到酒馆就可以聊天，灌醉以后就可以涩涩。

在技术上对应的是**“破限”（Jailbreaking）**。这通常涉及通过特定的提示词（prompts）、角色设定或模型参数调整，绕过LLM的安全过滤器（Safeguards）和内容审查机制，使其生成通常被限制的敏感或不当内容。

运营环境的搭建B站有现成的视频教程，在此附上链接：

电脑端：https://b23.tv/Wz8FInb
手机端：https://b23.tv/4v04R75

下方是补丁，错误并不来源于网络……

补丁1：代理设置小贴士H3#

这视频谁做的，怎么yaml使用记事本编辑，没高亮、没明显缩进、非等宽字体要把人眼看瞎的……

这里推荐一下Visual Studio Code：Download Visual Studio Code - Mac, Linux, Windows

简单说，vscode 是微软开发的一款 跨平台代码编辑器（新手不用纠结术语，记住 “编辑器 = 写代码的工具” 即可），核心特点可以总结为 3 个关键词：

免费且开源：不用花钱，所有人都能免费下载使用，代码公开透明（安全性有保障）；

跨平台：无论你用 Windows、Mac 还是 Linux 电脑，都能安装使用，界面和功能完全一致；

轻量但能 “变强大”：启动快不卡顿；但能通过「插件」扩展功能，比如支持 Python、Java、前端（HTML/CSS/JS）等所有编程语言，还能实现代码自动补全、语法检查、运行调试、代码高亮等。

对比其他编程工具，vscode 对小白相当友好，主要原因有 4 点：

零门槛上手：界面简洁，没有复杂的设置，但是多了编程必备的功能；

支持大部分编程语言：不管你修改配置文件（JSON、YAML、TOML等）、学编程，甚至是写 Markdown 笔记，只要装个对应插件，vscode 都能搞定，不用为不同语言装不同工具；

功能 “按需添加”，不臃肿：依据本文小白只需要安装yaml拓展即可；后期需要更复杂的功能（比如修改代码、做项目管理），再慢慢加插件，不会像某些工具一打开就有几十个看不懂的按钮；

社区支持强，问题好解决：因为用的人太多，遇到任何问题（比如 “怎么运行 Python 代码”“插件装不上”），必应 / 小红书 / B 站搜一下，都能找到新手能看懂的教程。

如果你找的是魔法下方的系统代理地址，然后填入，或者是7897（clash）或者10808（v2ray）的端口，会报错（见常见报错）。个人推荐用tun模式。

补丁2：重复操作解决报错H3#

类似错误1
类似错误2

出现类似的错误，建议重复一次第二步就可以了（这里指的是https://gitee.com/LimeOnTop/sill-tavern的文档步骤）。

API获取：你的专属服务员H2#

API是什么？让我们继续打个比方：

缩放：

Ctrl+滚轮

客人通过服务员给后厨传话，然后给你做菜，这就是API工作的原理。并且，因为你每点一道菜（调用次数），就得收点菜钱（调用费用）。

一般来说这里还有一些api提供商是按次数来计费的来着

这里分免费API和付费API分类讨论，具体模型名字是什么意思我依旧放在最后讲。（如无特殊说明，下方的所有网站都需要魔法）。

免费API：白嫖党的福音H3#

Gemini：谷歌出品，必属精品H4#

Gemini Logo

方法：

注册一个谷歌账号（如果不会注册，请移动到文章末尾）。
点开https://aistudio.google.com/，并且按照上图的方式（顺带一提，如果你看的是电脑端B站教程，里面内含GeminiAPI的获取方式)。

谷歌ai studio对于ip的判断很严格，推荐使用干净一些的魔法，且不要使用中国香港节点的魔法。

Deepseek：阿里魔搭社区的曲线救国H4#

Deepseek Logo

（注，deepseekAPI官网是收费的，这里利用的是阿里的魔搭社区渠道）

方法：

1.从**电脑端（手机打不开）**打开https://modelscope.cn，并且注册账号。

在电脑端（手机打不开），如上图操作。

硅基流动也能够使用的

Claude：网页Cookie的奇妙用法H4#

（注，Claude的官方API依旧是收费的，并且还是美刀，这里利用的是一个利用网页cookie取巧的办法)

cookie是什么
指纹浏览器抓取cookie
Claude轮询池搭建

社区公益站：免费但需谨慎H4#

这个取决于具体社区，建议详细阅读规则，这是对你也是对公益站站长负责。

例如Linuxdo社区里大部分公益站，其实是不支持sillytavern或沉浸式翻译这种高并发的应用的，有封号的风险。

（注，公益站就是字面意思，不收任何钱，可能接受爱发电或账号赞助，任何打着公益站或半公益站旗号收费让你交钱的，都是号贩子！都是号贩子！都是号贩子！）

（而且，这种号贩子甚至懒得买账号去做号池，而是利用公益站的API去盗刷，极其可恶）（如上图）

废话*2：模型选择的考量H4#

并不是只有这三种模型是免费的，而是因为只有这三种模型是社区比较火的——也就意味着新人更容易入门，以及社区支持和角色卡更多。

例如一些你可能听都没听说过的名字，Mistral AI 的 La Plateforme（法国的，算是欧洲独苗了），他们就提供mistral-medium-2505（对中文的支持很差）的免费API。

付费API：高阶玩家的选择H3#

（这里仅列出官网API充值渠道和最新模型价格，不做具体教程）

在使用付费API之前，我们还是拿饭店的例子去说明两个重要的概念——当你点菜给服务员（API）的时候，他是怎么知道还需要多少钱的？

可能有人就想到了，菜单上有价格嘛。但这个饭店可是什么都能做，我们不可能把所有的菜列成一个巨大的菜单，依次收费。

这时候就需要一个通用的标准，也就是token（类似游戏币）。

当我们把描述给服务员（API），服务员会先给厨房里的二厨（分词器），让他帮忙计算这句话的“含游戏币量”（输入token），随后转告给主厨。

主厨做好以后，你还需要支付给主厨一笔做菜的费用（输出token）。而我们最终吃到一道菜的价格，就取决于我们要求的多少，和主厨做菜的费用。

也就是（输入token+输出token）= 总价格。

（要求越多（输入token），价格越贵，就像你点一道家常小菜和红烧鱼眼清蒸鱼牙的区别）

一般来说，输出token的单价远大于输入token的单价。

知道了这个原理，就可以理解模型的收费标准了。

好的，这是补充了 Claude 3.5 Sonnet、Claude 3.5 Haiku、Claude 4.1 Opus 以及 Gemini 2.5 Pro 和 Flash 的信息：

ChatGPT：OpenAI 的旗舰产品H4#

模型：GPT-5
官网：https://platform.openai.com/
价格：输入：1.25 美元/一百万 token | 输出：10.00 美元/一百万 token

Grok：X.ai 的独特尝试H4#

模型：Grok-4
官网：https://console.x.ai/team
价格：输入：3.00 美元/一百万 token | 输出：15.00 美元

Claude 4 Sonnet：Anthropic 的智能与速度平衡之选H4#

模型：Claude 4 Sonnet
官网：https://www.anthropic.com/ (可通过 Anthropic API, Amazon Bedrock, 和 Google Cloud 的 Vertex AI 访问)
价格：输入：3.00 美元/一百万 token | 输出：15.00 美元/一百万 token
- 长上下文定价（超过 200K 输入 token）：输入：6.00 美元/一百万 token | 输出：22.50 美元/一百万 token
- 批处理可享 50% 折扣

Claude 3.5 Haiku：Anthropic 最快、最具成本效益的模型H4#

模型：Claude 3.5 Haiku
官网：https://www.anthropic.com/ (可通过 Anthropic API, Amazon Bedrock, 和 Google Cloud 的 Vertex AI 访问)
价格：输入：0.80 美元/一百万 token | 输出：4.00 美元/一百万 token
- 批处理可享 50% 折扣

Claude 4.1 Opus：Anthropic 最智能的模型H4#

模型：Claude Opus 4.1
官网：https://www.anthropic.com/ (可通过 Anthropic API, Amazon Bedrock, 和 Google Cloud 的 Vertex AI 访问)
价格：输入：15.00 美元/一百万 token | 输出：75.00 美元/一百万 token
- 批处理可享 50% 折扣

Gemini 2.5 Pro：Google 的先进推理模型H4#

模型：Gemini 2.5 Pro
官网：https://ai.google.dev/ (可通过 Google AI Studio 和 Vertex AI 访问)
价格：输入：1.25 美元/一百万 token (对于 ≤200K token)；2.50 美元/一百万 token (对于 >200K token) | 输出：10.00 美元/一百万 token (对于 ≤200K token)；15.00 美元/一百万 token (对于 >200K token)

Gemini 2.5 Flash：Google 的高性价比工作模型H4#

模型：Gemini 2.5 Flash
官网：https://ai.google.dev/ (可通过 Google AI Studio 和 Vertex AI 访问)
价格：输入：0.10 美元/一百万 token | 输出：0.40 美元/一百万 token
- 图像输出价格为 30 美元/一百万 token，每张图像（高达 1024x1024px）消耗 1290 token，相当于每张图像 0.039 美元.

SillyTavern页面信息简单教程H2#

基础信息H3#

预设H3#

API链接H3#

API链接设置1
API链接设置2
API链接设置3

虚拟网卡（TUN模式）H4#

或者叫tun模式（魔法使用教程不在这里，演示页面为Clash V）。

原理：

打个比方——

缩放：

Ctrl+滚轮

实际上，第一个黄色方框里面的内容就是tun模式的工作原理。

它会在操作系统中创建一个虚拟网卡（或使用TUN设备）。所有原本应该直接发送到物理网卡的流量，都会被操作系统路由到这个虚拟网卡。虚拟网卡就像一个“阀门”，控制着数据的流向。

也就是水库内所有流过的水都会通过tun模式这个阀门。

配合上全局配置可以防止SillyTavern没挂上魔法，以至于出现下述报错。

常见报错H4#

报错1
报错2

世界书H3#

角色卡H3#

插件导入H3#

插件导入1
插件导入2

社群进入：抱团取暖，事半功倍H2#

十分甚至九分推荐进入社区，这里不仅有大量的角色卡，而且有足够的预设和大佬帮你解决问题。（下方大部分教程都是基于大佬开发的教程，如果不进入会麻烦很多）。

但在此之前你需要注册一个discord账号，如果没有的话请看下方账号注册的教程。

类脑：https://discord.gg/QVFAUHsq
旅程：https://discord.gg/zwxqHbq3

酒馆助手：必备前置插件H2#

绝大多数插件，角色卡都必须要的前置。

文档和教程链接：https://n0vi028.github.io/JS-Slash-Runner-Doc/guide

记忆优化：让AI拥有“长期记忆”H2#

（请保证你安装前，已安装酒馆助手）

原本这里想尝试用几样专门插件去写的（专门的RAG插件，专门的表格插件），但最终实践下来还是Amily2号最适合新人。

https://docs.google.com/document/u/0/d/11E7HIFg59up0afv-lV0cAF5G3jzJXCkZK8cBCOMZ9zo/mobilebasic#heading=h.xq53yl5o80i7
（Amily作者亲自编写的教程）

反向代理：宝宝辅食级教程H2#

https://discord.com/channels/1291925535324110879/1406084681564160030
带轮询，宝宝辅食级别教程（统共三步安装，两步使用）。

魔法：通往自由的桥梁H2#

转载文章因为内容审查的原因绕过了这一块，可以去查看原文内容：#宝宝辅食 - 幕布

谷歌账号：AI世界的通行证H2#

注册：免费获取H3#

如何在注册Google账号时跳过手机验证码这个步骤: https://b23.tv/79xTl6J
（无效的话就按照指引注册吧……）

购买（并不推荐）：最后的选择H3#

接码平台
闲鱼购买示例

https://sms-activate.io/
这个是接码平台（但因为里面的号多少有点太“脏”了，所以不购买手机号接码注册，即使很便宜但100%注册失败）（图1）。

第二种就是闲鱼搜索“Gemini2.5pro学生验证”，会给你发一个pro的账号，附带一个谷歌账号（图2）。

可能需要的科普（可不看）：AI命名与工作原理H2#

如同NaOH一样，AI的命名也遵从某种准则。以最近很火的gemini 2.5 flash image preview为例，一个一个来拆分其命名准则：

Gemini - 谷歌家的（谷歌DeepMind开发的大型模型系列的名称）
2.5 - 版本号（数字越大越快）
flash - 快速（同理，还有pro作为推理模型）
image - 图片（和专门的imagen图片生成模型不同）
preview - 预览版（同理，还有exp实验版）

即：谷歌的2.5代快速多模态模型预览版。
同理，Gemini 2.5 pro preview 0605意味着谷歌的第2.5代推理模型在5月6号发布的预览版。

聊天模型：深入理解H3#

Token是什么？H4#

我们前面把token比作游戏币，虽然很像，这其实是一个不严谨的说法（但如果看到游戏币的形容，依旧是指token）。这前面说到每个后厨里，除了真正炒菜的主厨（推理模型），还会有二厨存在一样，也就是分词器。二厨的工作就是把用户输入的文本切碎，就如同切菜一样分开，然后交给主厨处理。分开后的一些单个字，词，或短语（英文）被称为token。

我们会在大模型的价格页面上，偶尔会看到命中缓存和非命中缓存，这又是什么意思？
换个例子，假设你在图书馆里，我想要一本书的时候，会有两种情况：

我的书就在身边，或者就在附近，我随手就能拿到（命中缓存）。
我的书在书架上，或者需要很远去拿的地方（未命中缓存）。
而这个概念套入AI中，在图书馆找书的过程，就变成了从缓存内找token的过程。

参数额度：AI的“饭量”H4#

当我们在调用API的时候，模型主要由以下几个参数限制：

输入/输出方式——是输入文本或图片，输出文本
最大输入/输出token数

（同样，你可以使用在美化教程内找到如何图片的输入输出方法，这里不做赘述）。

token额度是限额的。这个很好理解，毕竟模型公司不是做慈善的，依旧用先前的饭店例子。假设你有一张这家店的会员卡，那么：

每分钟请求数 (RPM)——一分钟内让后厨最多炒几个菜
每日请求数 (RPD)——这张会员卡每天最多能让后厨炒几个菜
每分钟 token 数（输入）(TPM）——卡里有多少游戏币
每日token数（输入）（RPM）——卡里总共有多少游戏币

同样，以谷歌的免费Gemini2.5pro为例子，它的输入方式为:图片/文本/音频/视频和PDF，输出方式为文本，也就是不支持生图。输入token最大为100万 token，输出token为65536 token。RAM为2，RPD为50，TPM为12.5万，RPM为300万。

（也就是说免费账户享受不了100万的输入token，而且只能玩50次）。

相关错误:429错误（Too Many Requests），即“过多请求”。会给你提示“RESOURCE_EXHAUSTED”这个报错。原因可能是上述四个限额你违反了一个，这时候就要切换其他API或者换个账号了。

在这里我得说一下有一些公益站提供的API，就是通过轮询超级多的apikey实现的，因为谷歌会给每个ai studio的apikey每天一定的额度，所以这样就能绕过限额了。（但这种方法很不稳定，而且很容易炸key

工作原理：Transformer的奥秘H4#

【10分钟，让你彻底理解Transformer-哔哩哔哩】https://b23.tv/3b89PXv
（由于这部分内容实在和教程无关，相关内容请在B站自主搜寻）。

记忆原理：AI的“短时记忆”与“遗忘”H4#

我们在上述的参数额度中讲过，对于最大输入token，模拟往往会有一定的参数标准（例如Gemini的最大输入token为100）。而这通常是一个硬指标，就连大模型公司也不能随意更改。

当然，没人能一次性输入一百万token，所以很大一部分，就被大模型自己“贪污”掉了。但请注意，这份贪污是必须的，因为大模型没有记忆力。但你可以看到它会根据你上一条消息继续回答。不是说大模型没有记忆吗？这又是为什么？
答:因为它会把你前文所有的问题，无论好坏一股脑的发送回去，直到达到最大输入token的上限（以Gemini为例，就是100万token）。

打个比方，AI的记忆就像是我们截长屏，图片会越来越长。又有时候，我们想去发送给好友自己截的长屏，但QQ往往会对长图片进行限制，甚至可能发送失败（429或超过最大输入token）。这时候，我们就必须删掉一部分图片。转换到AI里，便是AI直接“忘掉”了这一部分内容——这个忘掉遵从时间原则，先问的先删，后问的后删。

如果你理解了上述内容，恭喜你理解了AI短期记忆的机制——也就是将所有的上下文都发过去，超出的部分“忘掉”这其中，必然伴随着极其巨量的token消耗，所以必须对其进行优化。

RAG：构建AI的“长期记忆”H3#

为了让AI不止局限于那一百万的短期记忆中，同时也为了让token消耗的少一点，就必须让AI拥有自己的长期记忆——该怎样做？

依旧是截屏和QQ发消息的例子，我们可以发现长截屏就是比短截屏要糊~~，而且那么长一串谁看啊~~。而更可惜的是，长截屏里可能只有几个需要对方注意的地方。类比到AI里，就是AI分不清主次，以至于回答的风马牛不相及。解决办法也很简单，就是将长截屏的每个要点切成短截屏，标上先后顺序，存到相册里，再发给朋友。

类比回去，就理解了几个专业名词的意义：

长截短 - 分片
标顺序 - 索引
存相册 - 向量化
发朋友 - 召回

这就是RAG，检索增强生成的全部原理。
视频版本：https://b23.tv/JOf2Zoq（来源于网络）。

额外：更多资源H2#

额外资源1
额外资源2

这里原本其实写了有一大堆来着，但被我翻类脑的时候发现有教程总结了。为了防止造轮子的行为，这里直接附上discord的链接：
https://discord.com/channels/1134557553011998840/1392379963239301221/1392379963239301221

文章转载自 #宝宝辅食 - 幕布经由原作者 落尘 授权转载

宝宝辅食H1#

废话*1H2#

SillyTavern：你的AI互动酒馆H2#

补丁1：代理设置小贴士H3#

补丁2：重复操作解决报错H3#

API获取：你的专属服务员H2#

免费API：白嫖党的福音H3#

Gemini：谷歌出品，必属精品H4#

Deepseek：阿里魔搭社区的曲线救国H4#

Claude：网页Cookie的奇妙用法H4#

社区公益站：免费但需谨慎H4#

废话*2：模型选择的考量H4#

付费API：高阶玩家的选择H3#

ChatGPT：OpenAI 的旗舰产品H4#

Grok：X.ai 的独特尝试H4#

Claude 4 Sonnet：Anthropic 的智能与速度平衡之选H4#

Claude 3.5 Haiku：Anthropic 最快、最具成本效益的模型H4#

Claude 4.1 Opus：Anthropic 最智能的模型H4#

Gemini 2.5 Pro：Google 的先进推理模型H4#

Gemini 2.5 Flash：Google 的高性价比工作模型H4#

SillyTavern页面信息简单教程H2#

基础信息H3#

预设H3#

API链接H3#

虚拟网卡（TUN模式）H4#

常见报错H4#

世界书H3#

角色卡H3#

插件导入H3#

社群进入：抱团取暖，事半功倍H2#

酒馆助手：必备前置插件H2#

记忆优化：让AI拥有“长期记忆”H2#

反向代理：宝宝辅食级教程H2#

魔法：通往自由的桥梁H2#

谷歌账号：AI世界的通行证H2#

注册：免费获取H3#

购买（并不推荐）：最后的选择H3#

可能需要的科普（可不看）：AI命名与工作原理H2#

聊天模型：深入理解H3#

Token是什么？H4#

参数额度：AI的“饭量”H4#

工作原理：Transformer的奥秘H4#

记忆原理：AI的“短时记忆”与“遗忘”H4#

RAG：构建AI的“长期记忆”H3#

额外：更多资源H2#

评论(0)

评论(0)