first commit

This commit is contained in:
2026-02-28 23:01:30 +08:00
commit 3956ee4806
415 changed files with 74538 additions and 0 deletions

120
content/nodes/audio.md Normal file
View File

@@ -0,0 +1,120 @@
---
read_when:
- 更改音频转录或媒体处理方式
summary: 入站音频/语音消息如何被下载、转录并注入回复
title: 音频与语音消息
x-i18n:
generated_at: "2026-02-01T21:17:35Z"
model: claude-opus-4-5
provider: pi
source_hash: b926c47989ab0d1ee1fb8ae6372c51d27515b53d6fefe211a85856d372f14569
source_path: nodes/audio.md
workflow: 15
---
# 音频 / 语音消息 — 2026-01-17
## 已支持的功能
- **媒体理解(音频)**如果音频理解已启用或自动检测OpenClaw 会:
1. 找到第一个音频附件(本地路径或 URL如有需要则下载。
2. 在发送给每个模型条目之前执行 `maxBytes` 限制。
3. 按顺序运行第一个符合条件的模型条目(提供商或 CLI
4. 如果失败或跳过(大小/超时),则尝试下一个条目。
5. 成功后,将 `Body` 替换为 `[Audio]` 块并设置 `{{Transcript}}`
- **命令解析**:转录成功时,`CommandBody`/`RawBody` 会设置为转录文本,因此斜杠命令仍然有效。
- **详细日志**:在 `--verbose` 模式下,我们会在转录运行和替换正文时记录日志。
## 自动检测(默认)
如果你**未配置模型**且 `tools.media.audio.enabled` **未**设置为 `false`OpenClaw 会按以下顺序自动检测,并在找到第一个可用选项时停止:
1. **本地 CLI**(如已安装)
- `sherpa-onnx-offline`(需要 `SHERPA_ONNX_MODEL_DIR` 包含 encoder/decoder/joiner/tokens
- `whisper-cli`(来自 `whisper-cpp`;使用 `WHISPER_CPP_MODEL` 或内置的 tiny 模型)
- `whisper`Python CLI自动下载模型
2. **Gemini CLI**`gemini`)使用 `read_many_files`
3. **提供商密钥**OpenAI → Groq → Deepgram → Google
要禁用自动检测,请设置 `tools.media.audio.enabled: false`
要自定义,请设置 `tools.media.audio.models`
注意:二进制检测在 macOS/Linux/Windows 上采用尽力而为的方式;请确保 CLI 在 `PATH` 中(我们会展开 `~`),或通过完整命令路径设置显式 CLI 模型。
## 配置示例
### 提供商 + CLI 回退OpenAI + Whisper CLI
```json5
{
tools: {
media: {
audio: {
enabled: true,
maxBytes: 20971520,
models: [
{ provider: "openai", model: "gpt-4o-mini-transcribe" },
{
type: "cli",
command: "whisper",
args: ["--model", "base", "{{MediaPath}}"],
timeoutSeconds: 45,
},
],
},
},
},
}
```
### 仅提供商 + 作用域控制
```json5
{
tools: {
media: {
audio: {
enabled: true,
scope: {
default: "allow",
rules: [{ action: "deny", match: { chatType: "group" } }],
},
models: [{ provider: "openai", model: "gpt-4o-mini-transcribe" }],
},
},
},
}
```
### 仅提供商Deepgram
```json5
{
tools: {
media: {
audio: {
enabled: true,
models: [{ provider: "deepgram", model: "nova-3" }],
},
},
},
}
```
## 注意事项与限制
- 提供商认证遵循标准的模型认证顺序(认证配置文件、环境变量、`models.providers.*.apiKey`)。
- 当使用 `provider: "deepgram"`Deepgram 会读取 `DEEPGRAM_API_KEY`
- Deepgram 设置详情:[Deepgram音频转录](/providers/deepgram)。
- 音频提供商可以通过 `tools.media.audio` 覆盖 `baseUrl``headers``providerOptions`
- 默认大小限制为 20MB`tools.media.audio.maxBytes`)。超大音频会跳过该模型并尝试下一个条目。
- 音频的默认 `maxChars` **未设置**(完整转录文本)。设置 `tools.media.audio.maxChars` 或每个条目的 `maxChars` 来裁剪输出。
- OpenAI 自动检测默认使用 `gpt-4o-mini-transcribe`;设置 `model: "gpt-4o-transcribe"` 可获得更高准确度。
- 使用 `tools.media.audio.attachments` 处理多条语音消息(`mode: "all"` + `maxAttachments`)。
- 转录文本可在模板中通过 `{{Transcript}}` 使用。
- CLI 标准输出有上限5MB请保持 CLI 输出简洁。
## 常见陷阱
- 作用域规则采用首次匹配优先。`chatType` 会被规范化为 `direct``group``room`
- 确保你的 CLI 以退出码 0 退出并输出纯文本JSON 格式需要通过 `jq -r .text` 进行转换。
- 保持合理的超时时间(`timeoutSeconds`,默认 60 秒),以避免阻塞回复队列。

162
content/nodes/camera.md Normal file
View File

@@ -0,0 +1,162 @@
---
read_when:
- 在 iOS 节点或 macOS 上添加或修改相机捕获
- 扩展智能体可访问的 MEDIA 临时文件工作流
summary: 用于智能体的相机捕获iOS 节点 + macOS 应用照片jpg和短视频片段mp4
title: 相机捕获
x-i18n:
generated_at: "2026-02-03T07:50:55Z"
model: claude-opus-4-5
provider: pi
source_hash: b4d5f5ecbab6f70597cf1e1f9cc5f7f54681253bd747442db16cc681203b5813
source_path: nodes/camera.md
workflow: 15
---
# 相机捕获(智能体)
OpenClaw 支持用于智能体工作流的**相机捕获**
- **iOS 节点**(通过 Gateway 网关配对):通过 `node.invoke` 捕获**照片**`jpg`)或**短视频片段**`mp4`,可选音频)。
- **Android 节点**(通过 Gateway 网关配对):通过 `node.invoke` 捕获**照片**`jpg`)或**短视频片段**`mp4`,可选音频)。
- **macOS 应用**(通过 Gateway 网关的节点):通过 `node.invoke` 捕获**照片**`jpg`)或**短视频片段**`mp4`,可选音频)。
所有相机访问都受**用户控制的设置**限制。
## iOS 节点
### 用户设置(默认开启)
- iOS 设置标签页 → **相机****允许相机**`camera.enabled`
- 默认:**开启**(缺少键时视为启用)。
- 关闭时:`camera.*` 命令返回 `CAMERA_DISABLED`
### 命令(通过 Gateway 网关 `node.invoke`
- `camera.list`
- 响应载荷:
- `devices``{ id, name, position, deviceType }` 数组
- `camera.snap`
- 参数:
- `facing``front|back`(默认:`front`
- `maxWidth`数字可选iOS 节点默认 `1600`
- `quality``0..1`(可选;默认 `0.9`
- `format`:当前为 `jpg`
- `delayMs`:数字(可选;默认 `0`
- `deviceId`:字符串(可选;来自 `camera.list`
- 响应载荷:
- `format: "jpg"`
- `base64: "<...>"`
- `width``height`
- 载荷保护:照片会重新压缩以保持 base64 载荷小于 5 MB。
- `camera.clip`
- 参数:
- `facing``front|back`(默认:`front`
- `durationMs`:数字(默认 `3000`,上限 `60000`
- `includeAudio`:布尔值(默认 `true`
- `format`:当前为 `mp4`
- `deviceId`:字符串(可选;来自 `camera.list`
- 响应载荷:
- `format: "mp4"`
- `base64: "<...>"`
- `durationMs`
- `hasAudio`
### 前台要求
`canvas.*` 类似iOS 节点仅允许在**前台**执行 `camera.*` 命令。后台调用返回 `NODE_BACKGROUND_UNAVAILABLE`
### CLI 辅助工具(临时文件 + MEDIA
获取附件最简单的方法是通过 CLI 辅助工具,它将解码的媒体写入临时文件并打印 `MEDIA:<path>`
示例:
```bash
openclaw nodes camera snap --node <id> # default: both front + back (2 MEDIA lines)
openclaw nodes camera snap --node <id> --facing front
openclaw nodes camera clip --node <id> --duration 3000
openclaw nodes camera clip --node <id> --no-audio
```
注意事项:
- `nodes camera snap` 默认拍摄**两个**方向以给智能体提供两个视角。
- 输出文件是临时的(在操作系统临时目录中),除非你构建自己的包装器。
## Android 节点
### 用户设置(默认开启)
- Android 设置页 → **相机****允许相机**`camera.enabled`
- 默认:**开启**(缺少键时视为启用)。
- 关闭时:`camera.*` 命令返回 `CAMERA_DISABLED`
### 权限
- Android 需要运行时权限:
- `CAMERA` 用于 `camera.snap``camera.clip`
- `RECORD_AUDIO` 用于 `includeAudio=true` 时的 `camera.clip`
如果缺少权限,应用会在可能时提示;如果被拒绝,`camera.*` 请求会失败并返回 `*_PERMISSION_REQUIRED` 错误。
### 前台要求
`canvas.*` 类似Android 节点仅允许在**前台**执行 `camera.*` 命令。后台调用返回 `NODE_BACKGROUND_UNAVAILABLE`
### 载荷保护
照片会重新压缩以保持 base64 载荷小于 5 MB。
## macOS 应用
### 用户设置(默认关闭)
macOS 配套应用暴露一个复选框:
- **设置 → 通用 → 允许相机**`openclaw.cameraEnabled`
- 默认:**关闭**
- 关闭时:相机请求返回"用户已禁用相机"。
### CLI 辅助工具(节点调用)
使用主 `openclaw` CLI 在 macOS 节点上调用相机命令。
示例:
```bash
openclaw nodes camera list --node <id> # list camera ids
openclaw nodes camera snap --node <id> # prints MEDIA:<path>
openclaw nodes camera snap --node <id> --max-width 1280
openclaw nodes camera snap --node <id> --delay-ms 2000
openclaw nodes camera snap --node <id> --device-id <id>
openclaw nodes camera clip --node <id> --duration 10s # prints MEDIA:<path>
openclaw nodes camera clip --node <id> --duration-ms 3000 # prints MEDIA:<path> (legacy flag)
openclaw nodes camera clip --node <id> --device-id <id>
openclaw nodes camera clip --node <id> --no-audio
```
注意事项:
- `openclaw nodes camera snap` 默认 `maxWidth=1600`,除非被覆盖。
- 在 macOS 上,`camera.snap` 在预热/曝光稳定后等待 `delayMs`(默认 2000ms再捕获。
- 照片载荷会重新压缩以保持 base64 小于 5 MB。
## 安全性 + 实际限制
- 相机和麦克风访问会触发通常的操作系统权限提示(并需要 Info.plist 中的使用说明字符串)。
- 视频片段有上限(当前 `<= 60s`以避免过大的节点载荷base64 开销 + 消息限制)。
## macOS 屏幕视频(操作系统级别)
对于*屏幕*视频(非相机),使用 macOS 配套应用:
```bash
openclaw nodes screen record --node <id> --duration 10s --fps 15 # prints MEDIA:<path>
```
注意事项:
- 需要 macOS **屏幕录制**权限TCC

79
content/nodes/images.md Normal file
View File

@@ -0,0 +1,79 @@
---
read_when:
- 修改媒体管道或附件
summary: 发送、Gateway 网关和智能体回复的图像和媒体处理规则
title: 图像和媒体支持
x-i18n:
generated_at: "2026-02-03T07:50:42Z"
model: claude-opus-4-5
provider: pi
source_hash: 971aed398ea01078efbad7a8a4bca17f2a975222a2c4db557565e4334c9450e0
source_path: nodes/images.md
workflow: 15
---
# 图像与媒体支持 — 2025-12-05
WhatsApp 渠道通过 **Baileys Web** 运行。本文档记录了发送、Gateway 网关和智能体回复的当前媒体处理规则。
## 目标
- 通过 `openclaw message send --media` 发送带可选标题的媒体。
- 允许来自网页收件箱的自动回复在文本旁边包含媒体。
- 保持每种类型的限制合理且可预测。
## CLI 接口
- `openclaw message send --media <path-or-url> [--message <caption>]`
- `--media` 可选;标题可以为空以进行纯媒体发送。
- `--dry-run` 打印解析后的负载;`--json` 输出 `{ channel, to, messageId, mediaUrl, caption }`
## WhatsApp Web 渠道行为
- 输入:本地文件路径**或** HTTP(S) URL。
- 流程:加载到 Buffer检测媒体类型并构建正确的负载
- **图像:** 调整大小并重新压缩为 JPEG最大边 2048px目标为 `agents.defaults.mediaMaxMb`(默认 5 MB上限 6 MB。
- **音频/语音/视频:** 直通最大 16 MB音频作为语音消息发送`ptt: true`)。
- **文档:** 其他任何内容,最大 100 MB可用时保留文件名。
- WhatsApp GIF 风格播放:发送带 `gifPlayback: true` 的 MP4CLI`--gif-playback`),使移动客户端内联循环播放。
- MIME 检测优先使用魔数字节,然后是头信息,最后是文件扩展名。
- 标题来自 `--message``reply.text`;允许空标题。
- 日志:非详细模式显示 `↩️`/`✅`;详细模式包含大小和源路径/URL。
## 自动回复管道
- `getReplyFromConfig` 返回 `{ text?, mediaUrl?, mediaUrls? }`
- 当存在媒体时,网页发送器使用与 `openclaw message send` 相同的管道解析本地路径或 URL。
- 如果提供多个媒体条目,则按顺序发送。
## 入站媒体到命令Pi
- 当入站网页消息包含媒体时OpenClaw 下载到临时文件并暴露模板变量:
- `{{MediaUrl}}` 入站媒体的伪 URL。
- `{{MediaPath}}` 运行命令前写入的本地临时路径。
- 当启用每会话 Docker 沙箱时,入站媒体被复制到沙箱工作区,`MediaPath`/`MediaUrl` 被重写为相对路径如 `media/inbound/<filename>`
- 媒体理解(如果通过 `tools.media.*` 或共享的 `tools.media.models` 配置)在模板化之前运行,可以将 `[Image]``[Audio]``[Video]` 块插入 `Body`
- 音频设置 `{{Transcript}}` 并使用转录进行命令解析,因此斜杠命令仍然有效。
- 视频和图像描述保留任何标题文本用于命令解析。
- 默认情况下只处理第一个匹配的图像/音频/视频附件;设置 `tools.media.<cap>.attachments` 以处理多个附件。
## 限制与错误
**出站发送上限WhatsApp 网页发送)**
- 图像:重新压缩后约 6 MB 上限。
- 音频/语音/视频16 MB 上限文档100 MB 上限。
- 超大或无法读取的媒体 → 日志中有明确错误,回复被跳过。
**媒体理解上限(转录/描述)**
- 图像默认10 MB`tools.media.image.maxBytes`)。
- 音频默认20 MB`tools.media.audio.maxBytes`)。
- 视频默认50 MB`tools.media.video.maxBytes`)。
- 超大媒体跳过理解,但回复仍然使用原始正文通过。
## 测试说明
- 覆盖图像/音频/文档情况的发送 + 回复流程。
- 验证图像的重新压缩(大小限制)和音频的语音消息标志。
- 确保多媒体回复作为顺序发送扇出。

348
content/nodes/index.md Normal file
View File

@@ -0,0 +1,348 @@
---
read_when:
- 将 iOS/Android 节点配对到 Gateway 网关时
- 使用节点 canvas/camera 为智能体提供上下文时
- 添加新的节点命令或 CLI 辅助工具时
summary: 节点:配对、能力、权限以及 canvas/camera/screen/system 的 CLI 辅助工具
title: 节点
x-i18n:
generated_at: "2026-02-03T07:51:55Z"
model: claude-opus-4-5
provider: pi
source_hash: 74e9420f61c653e4ceeb00f5a27e4266bd1c7715c1000edd969c3ee185e74de9
source_path: nodes/index.md
workflow: 15
---
# 节点
**节点**是一个配套设备macOS/iOS/Android/无头),它以 `role: "node"` 连接到 Gateway 网关 **WebSocket**(与操作员相同的端口),并通过 `node.invoke` 暴露命令接口(例如 `canvas.*``camera.*``system.*`)。协议详情:[Gateway 网关协议](/gateway/protocol)。
旧版传输:[Bridge 协议](/gateway/bridge-protocol)TCP JSONL当前节点已弃用/移除)。
macOS 也可以在**节点模式**下运行:菜单栏应用连接到 Gateway 网关的 WS 服务器,并将其本地 canvas/camera 命令作为节点暴露(因此 `openclaw nodes …` 可以针对这台 Mac 工作)。
注意事项:
- 节点是**外围设备**,不是 Gateway 网关。它们不运行 Gateway 网关服务。
- Telegram/WhatsApp 等消息落在 **Gateway 网关**上,而不是节点上。
## 配对 + 状态
**WS 节点使用设备配对。** 节点在 `connect` 期间呈现设备身份Gateway 网关
`role: node` 创建设备配对请求。通过设备 CLI或 UI批准。
快速 CLI
```bash
openclaw devices list
openclaw devices approve <requestId>
openclaw devices reject <requestId>
openclaw nodes status
openclaw nodes describe --node <idOrNameOrIp>
```
注意事项:
- 当节点的设备配对角色包含 `node` 时,`nodes status` 将节点标记为**已配对**。
- `node.pair.*`CLI`openclaw nodes pending/approve/reject`)是一个单独的 Gateway 网关拥有的
节点配对存储;它**不会**限制 WS `connect` 握手。
## 远程节点主机system.run
当你的 Gateway 网关在一台机器上运行而你希望命令
在另一台机器上执行时,使用**节点主机**。模型仍然与 **Gateway 网关**通信;当选择 `host=node`Gateway 网关
`exec` 调用转发到**节点主机**。
### 什么在哪里运行
- **Gateway 网关主机**:接收消息,运行模型,路由工具调用。
- **节点主机**:在节点机器上执行 `system.run`/`system.which`
- **批准**:通过 `~/.openclaw/exec-approvals.json` 在节点主机上执行。
### 启动节点主机(前台)
在节点机器上:
```bash
openclaw node run --host <gateway-host> --port 18789 --display-name "Build Node"
```
### 通过 SSH 隧道访问远程 Gateway 网关loopback 绑定)
如果 Gateway 网关绑定到 loopback`gateway.bind=loopback`,本地模式下的默认值),
远程节点主机无法直接连接。创建 SSH 隧道并将
节点主机指向隧道的本地端。
示例(节点主机 -> Gateway 网关主机):
```bash
# 终端 A保持运行转发本地 18790 -> Gateway 网关 127.0.0.1:18789
ssh -N -L 18790:127.0.0.1:18789 user@gateway-host
# 终端 B导出 Gateway 网关令牌并通过隧道连接
export OPENCLAW_GATEWAY_TOKEN="<gateway-token>"
openclaw node run --host 127.0.0.1 --port 18790 --display-name "Build Node"
```
注意事项:
- 令牌是 Gateway 网关配置中的 `gateway.auth.token`Gateway 网关主机上的 `~/.openclaw/openclaw.json`)。
- `openclaw node run` 读取 `OPENCLAW_GATEWAY_TOKEN` 进行认证。
### 启动节点主机(服务)
```bash
openclaw node install --host <gateway-host> --port 18789 --display-name "Build Node"
openclaw node restart
```
### 配对 + 命名
在 Gateway 网关主机上:
```bash
openclaw nodes pending
openclaw nodes approve <requestId>
openclaw nodes list
```
命名选项:
-`openclaw node run` / `openclaw node install` 上使用 `--display-name`(持久化在节点上的 `~/.openclaw/node.json` 中)。
- `openclaw nodes rename --node <id|name|ip> --name "Build Node"`Gateway 网关覆盖)。
### 将命令加入允许列表
Exec 批准是**每个节点主机**的。从 Gateway 网关添加允许列表条目:
```bash
openclaw approvals allowlist add --node <id|name|ip> "/usr/bin/uname"
openclaw approvals allowlist add --node <id|name|ip> "/usr/bin/sw_vers"
```
批准存储在节点主机的 `~/.openclaw/exec-approvals.json` 中。
### 将 exec 指向节点
配置默认值Gateway 网关配置):
```bash
openclaw config set tools.exec.host node
openclaw config set tools.exec.security allowlist
openclaw config set tools.exec.node "<id-or-name>"
```
或按会话:
```
/exec host=node security=allowlist node=<id-or-name>
```
设置后,任何带有 `host=node``exec` 调用都会在节点主机上运行(受
节点允许列表/批准约束)。
相关:
- [节点主机 CLI](/cli/node)
- [Exec 工具](/tools/exec)
- [Exec 批准](/tools/exec-approvals)
## 调用命令
低级(原始 RPC
```bash
openclaw nodes invoke --node <idOrNameOrIp> --command canvas.eval --params '{"javaScript":"location.href"}'
```
对于常见的"给智能体一个 MEDIA 附件"工作流,存在更高级的辅助工具。
## 截图canvas 快照)
如果节点正在显示 CanvasWebView`canvas.snapshot` 返回 `{ format, base64 }`
CLI 辅助工具(写入临时文件并打印 `MEDIA:<path>`
```bash
openclaw nodes canvas snapshot --node <idOrNameOrIp> --format png
openclaw nodes canvas snapshot --node <idOrNameOrIp> --format jpg --max-width 1200 --quality 0.9
```
### Canvas 控制
```bash
openclaw nodes canvas present --node <idOrNameOrIp> --target https://example.com
openclaw nodes canvas hide --node <idOrNameOrIp>
openclaw nodes canvas navigate https://example.com --node <idOrNameOrIp>
openclaw nodes canvas eval --node <idOrNameOrIp> --js "document.title"
```
注意事项:
- `canvas present` 接受 URL 或本地文件路径(`--target`),以及可选的 `--x/--y/--width/--height` 用于定位。
- `canvas eval` 接受内联 JS`--js`)或位置参数。
### A2UICanvas
```bash
openclaw nodes canvas a2ui push --node <idOrNameOrIp> --text "Hello"
openclaw nodes canvas a2ui push --node <idOrNameOrIp> --jsonl ./payload.jsonl
openclaw nodes canvas a2ui reset --node <idOrNameOrIp>
```
注意事项:
- 仅支持 A2UI v0.8 JSONLv0.9/createSurface 被拒绝)。
## 照片 + 视频(节点相机)
照片(`jpg`
```bash
openclaw nodes camera list --node <idOrNameOrIp>
openclaw nodes camera snap --node <idOrNameOrIp> # 默认两个朝向2 个 MEDIA 行)
openclaw nodes camera snap --node <idOrNameOrIp> --facing front
```
视频片段(`mp4`
```bash
openclaw nodes camera clip --node <idOrNameOrIp> --duration 10s
openclaw nodes camera clip --node <idOrNameOrIp> --duration 3000 --no-audio
```
注意事项:
- 节点必须处于**前台**才能使用 `canvas.*``camera.*`(后台调用返回 `NODE_BACKGROUND_UNAVAILABLE`)。
- 片段时长被限制(当前 `<= 60s`)以避免过大的 base64 负载。
- Android 会在可能时提示 `CAMERA`/`RECORD_AUDIO` 权限;权限被拒绝会以 `*_PERMISSION_REQUIRED` 失败。
## 屏幕录制(节点)
节点暴露 `screen.record`mp4。示例
```bash
openclaw nodes screen record --node <idOrNameOrIp> --duration 10s --fps 10
openclaw nodes screen record --node <idOrNameOrIp> --duration 10s --fps 10 --no-audio
```
注意事项:
- `screen.record` 需要节点应用处于前台。
- Android 会在录制前显示系统屏幕捕获提示。
- 屏幕录制被限制为 `<= 60s`
- `--no-audio` 禁用麦克风捕获iOS/Android 支持macOS 使用系统捕获音频)。
- 当有多个屏幕可用时,使用 `--screen <index>` 选择显示器。
## 位置(节点)
当在设置中启用位置时,节点暴露 `location.get`
CLI 辅助工具:
```bash
openclaw nodes location get --node <idOrNameOrIp>
openclaw nodes location get --node <idOrNameOrIp> --accuracy precise --max-age 15000 --location-timeout 10000
```
注意事项:
- 位置**默认关闭**。
- "始终"需要系统权限;后台获取是尽力而为的。
- 响应包括纬度/经度、精度(米)和时间戳。
## 短信Android 节点)
当用户授予 **SMS** 权限且设备支持电话功能时Android 节点可以暴露 `sms.send`
低级调用:
```bash
openclaw nodes invoke --node <idOrNameOrIp> --command sms.send --params '{"to":"+15555550123","message":"Hello from OpenClaw"}'
```
注意事项:
- 在能力被广播之前,必须在 Android 设备上接受权限提示。
- 没有电话功能的纯 Wi-Fi 设备不会广播 `sms.send`
## 系统命令(节点主机 / mac 节点)
macOS 节点暴露 `system.run``system.notify``system.execApprovals.get/set`
无头节点主机暴露 `system.run``system.which``system.execApprovals.get/set`
示例:
```bash
openclaw nodes run --node <idOrNameOrIp> -- echo "Hello from mac node"
openclaw nodes notify --node <idOrNameOrIp> --title "Ping" --body "Gateway ready"
```
注意事项:
- `system.run` 在负载中返回 stdout/stderr/退出码。
- `system.notify` 遵守 macOS 应用上的通知权限状态。
- `system.run` 支持 `--cwd``--env KEY=VAL``--command-timeout``--needs-screen-recording`
- `system.notify` 支持 `--priority <passive|active|timeSensitive>``--delivery <system|overlay|auto>`
- macOS 节点会丢弃 `PATH` 覆盖;无头节点主机仅在 `PATH` 前置到节点主机 PATH 时才接受它。
- 在 macOS 节点模式下,`system.run` 受 macOS 应用中的 exec 批准限制(设置 → Exec 批准)。
Ask/allowlist/full 的行为与无头节点主机相同;被拒绝的提示返回 `SYSTEM_RUN_DENIED`
- 在无头节点主机上,`system.run` 受 exec 批准限制(`~/.openclaw/exec-approvals.json`)。
## Exec 节点绑定
当有多个节点可用时,你可以将 exec 绑定到特定节点。
这设置了 `exec host=node` 的默认节点(可以按智能体覆盖)。
全局默认:
```bash
openclaw config set tools.exec.node "node-id-or-name"
```
按智能体覆盖:
```bash
openclaw config get agents.list
openclaw config set agents.list[0].tools.exec.node "node-id-or-name"
```
取消设置以允许任何节点:
```bash
openclaw config unset tools.exec.node
openclaw config unset agents.list[0].tools.exec.node
```
## 权限映射
节点可能在 `node.list` / `node.describe` 中包含 `permissions` 映射,按权限名称(例如 `screenRecording``accessibility`)键入,值为布尔值(`true` = 已授予)。
## 无头节点主机(跨平台)
OpenClaw 可以运行**无头节点主机**(无 UI它连接到 Gateway 网关
WebSocket 并暴露 `system.run` / `system.which`。这在 Linux/Windows
上或在服务器旁运行最小节点时很有用。
启动它:
```bash
openclaw node run --host <gateway-host> --port 18789
```
注意事项:
- 仍然需要配对Gateway 网关会显示节点批准提示)。
- 节点主机将其节点 id、令牌、显示名称和 Gateway 网关连接信息存储在 `~/.openclaw/node.json` 中。
- Exec 批准通过 `~/.openclaw/exec-approvals.json` 在本地执行
(参见 [Exec 批准](/tools/exec-approvals))。
- 在 macOS 上,当配套应用 exec 主机可达时,无头节点主机优先使用它,
如果应用不可用则回退到本地执行。设置 `OPENCLAW_NODE_EXEC_HOST=app` 要求
使用应用,或设置 `OPENCLAW_NODE_EXEC_FALLBACK=0` 禁用回退。
- 当 Gateway 网关 WS 使用 TLS 时,添加 `--tls` / `--tls-fingerprint`
## Mac 节点模式
- macOS 菜单栏应用作为节点连接到 Gateway 网关 WS 服务器(因此 `openclaw nodes …` 可以针对这台 Mac 工作)。
- 在远程模式下,应用为 Gateway 网关端口打开 SSH 隧道并连接到 `localhost`

View File

@@ -0,0 +1,120 @@
---
read_when:
- 添加位置节点支持或权限 UI
- 设计后台位置 + 推送流程
summary: 节点的位置命令location.get、权限模式和后台行为
title: 位置命令
x-i18n:
generated_at: "2026-02-03T07:50:59Z"
model: claude-opus-4-5
provider: pi
source_hash: 23124096256384d2b28157352b072309c61c970a20e009aac5ce4a8250dc3764
source_path: nodes/location-command.md
workflow: 15
---
# 位置命令(节点)
## 简要概述
- `location.get` 是一个节点命令(通过 `node.invoke`)。
- 默认关闭。
- 设置使用选择器:关闭 / 使用时 / 始终。
- 单独的开关:精确位置。
## 为什么用选择器(而不只是开关)
操作系统权限是多级的。我们可以在应用内暴露选择器,但操作系统仍然决定实际授权。
- iOS/macOS用户可以在系统提示/设置中选择**使用时**或**始终**。应用可以请求升级,但操作系统可能要求进入设置。
- Android后台位置是单独的权限在 Android 10+ 上通常需要进入设置流程。
- 精确位置是单独的授权iOS 14+ "精确"Android "精细" vs "粗略")。
UI 中的选择器驱动我们请求的模式;实际授权存在于操作系统设置中。
## 设置模型
每个节点设备:
- `location.enabledMode``off | whileUsing | always`
- `location.preciseEnabled`bool
UI 行为:
- 选择 `whileUsing` 请求前台权限。
- 选择 `always` 首先确保 `whileUsing`,然后请求后台(或在需要时将用户引导到设置)。
- 如果操作系统拒绝请求的级别,回退到已授予的最高级别并显示状态。
## 权限映射node.permissions
可选。macOS 节点通过权限映射报告 `location`iOS/Android 可能省略它。
## 命令:`location.get`
通过 `node.invoke` 调用。
参数(建议):
```json
{
"timeoutMs": 10000,
"maxAgeMs": 15000,
"desiredAccuracy": "coarse|balanced|precise"
}
```
响应负载:
```json
{
"lat": 48.20849,
"lon": 16.37208,
"accuracyMeters": 12.5,
"altitudeMeters": 182.0,
"speedMps": 0.0,
"headingDeg": 270.0,
"timestamp": "2026-01-03T12:34:56.000Z",
"isPrecise": true,
"source": "gps|wifi|cell|unknown"
}
```
错误(稳定代码):
- `LOCATION_DISABLED`:选择器已关闭。
- `LOCATION_PERMISSION_REQUIRED`:缺少请求模式的权限。
- `LOCATION_BACKGROUND_UNAVAILABLE`:应用在后台但只允许使用时。
- `LOCATION_TIMEOUT`:在时间内没有定位。
- `LOCATION_UNAVAILABLE`:系统故障/没有提供商。
## 后台行为(未来)
目标:模型可以在节点处于后台时请求位置,但仅当:
- 用户选择了**始终**。
- 操作系统授予后台位置权限。
- 应用被允许在后台运行以获取位置iOS 后台模式/Android 前台服务或特殊许可)。
推送触发流程(未来):
1. Gateway 网关向节点发送推送(静默推送或 FCM 数据)。
2. 节点短暂唤醒并从设备请求位置。
3. 节点将负载转发给 Gateway 网关。
说明:
- iOS需要始终权限 + 后台位置模式。静默推送可能被限流;预期会有间歇性失败。
- Android后台位置可能需要前台服务否则预期会被拒绝。
## 模型/工具集成
- 工具接口:`nodes` 工具添加 `location_get` 操作(需要节点)。
- CLI`openclaw nodes location get --node <id>`
- 智能体指南:仅在用户启用位置并理解范围时调用。
## UX 文案(建议)
- 关闭:"位置共享已禁用。"
- 使用时:"仅当 OpenClaw 打开时。"
- 始终:"允许后台位置。需要系统权限。"
- 精确:"使用精确 GPS 位置。关闭以共享大致位置。"

View File

@@ -0,0 +1,380 @@
---
read_when:
- 设计或重构媒体理解
- 调优入站音频/视频/图片预处理
summary: 入站图片/音频/视频理解(可选),带提供商 + CLI 回退
title: 媒体理解
x-i18n:
generated_at: "2026-02-03T07:51:40Z"
model: claude-opus-4-5
provider: pi
source_hash: f6c575662b7fcbf0b62c46e3fdfa4cdb7cfd455513097e4a2cdec8a34cbdbd48
source_path: nodes/media-understanding.md
workflow: 15
---
# 媒体理解(入站)— 2026-01-17
OpenClaw 可以在回复流程运行之前**摘要入站媒体**(图片/音频/视频)。它会自动检测本地工具或提供商密钥是否可用,并且可以禁用或自定义。如果理解关闭,模型仍然会像往常一样接收原始文件/URL。
## 目标
- 可选:将入站媒体预先消化为短文本,以便更快路由 + 更好的命令解析。
- 保留原始媒体传递给模型(始终)。
- 支持**提供商 API** 和 **CLI 回退**
- 允许多个模型并按顺序回退(错误/大小/超时)。
## 高层行为
1. 收集入站附件(`MediaPaths``MediaUrls``MediaTypes`)。
2. 对于每个启用的能力(图片/音频/视频),根据策略选择附件(默认:**第一个**)。
3. 选择第一个符合条件的模型条目(大小 + 能力 + 认证)。
4. 如果模型失败或媒体太大,**回退到下一个条目**。
5. 成功时:
- `Body` 变为 `[Image]``[Audio]``[Video]` 块。
- 音频设置 `{{Transcript}}`;命令解析在有标题文本时使用标题文本,否则使用转录。
- 标题作为 `User text:` 保留在块内。
如果理解失败或被禁用,**回复流程继续**使用原始正文 + 附件。
## 配置概述
`tools.media` 支持**共享模型**加上每能力覆盖:
- `tools.media.models`:共享模型列表(使用 `capabilities` 来限定)。
- `tools.media.image` / `tools.media.audio` / `tools.media.video`
- 默认值(`prompt``maxChars``maxBytes``timeoutSeconds``language`
- 提供商覆盖(`baseUrl``headers``providerOptions`
- 通过 `tools.media.audio.providerOptions.deepgram` 配置 Deepgram 音频选项
- 可选的**每能力 `models` 列表**(优先于共享模型)
- `attachments` 策略(`mode``maxAttachments``prefer`
- `scope`(可选的按渠道/聊天类型/会话键限定)
- `tools.media.concurrency`:最大并发能力运行数(默认 **2**)。
```json5
{
tools: {
media: {
models: [
/* 共享列表 */
],
image: {
/* 可选覆盖 */
},
audio: {
/* 可选覆盖 */
},
video: {
/* 可选覆盖 */
},
},
},
}
```
### 模型条目
每个 `models[]` 条目可以是**提供商**或 **CLI**
```json5
{
type: "provider", // 省略时默认
provider: "openai",
model: "gpt-5.2",
prompt: "Describe the image in <= 500 chars.",
maxChars: 500,
maxBytes: 10485760,
timeoutSeconds: 60,
capabilities: ["image"], // 可选,用于多模态条目
profile: "vision-profile",
preferredProfile: "vision-fallback",
}
```
```json5
{
type: "cli",
command: "gemini",
args: [
"-m",
"gemini-3-flash",
"--allowed-tools",
"read_file",
"Read the media at {{MediaPath}} and describe it in <= {{MaxChars}} characters.",
],
maxChars: 500,
maxBytes: 52428800,
timeoutSeconds: 120,
capabilities: ["video", "image"],
}
```
CLI 模板还可以使用:
- `{{MediaDir}}`(包含媒体文件的目录)
- `{{OutputDir}}`(为本次运行创建的临时目录)
- `{{OutputBase}}`(临时文件基础路径,无扩展名)
## 默认值和限制
推荐默认值:
- `maxChars`:图片/视频为 **500**(简短,适合命令)
- `maxChars`:音频**不设置**(完整转录,除非你设置限制)
- `maxBytes`
- 图片:**10MB**
- 音频:**20MB**
- 视频:**50MB**
规则:
- 如果媒体超过 `maxBytes`,该模型被跳过,**尝试下一个模型**。
- 如果模型返回超过 `maxChars`,输出被截断。
- `prompt` 默认为简单的"Describe the {media}."加上 `maxChars` 指导(仅图片/视频)。
- 如果 `<capability>.enabled: true` 但未配置模型当提供商支持该能力时OpenClaw 尝试**活动的回复模型**。
### 自动检测媒体理解(默认)
如果 `tools.media.<capability>.enabled` **未**设置为 `false` 且你没有配置模型OpenClaw 按以下顺序自动检测并**在第一个可用选项处停止**
1. **本地 CLI**(仅音频;如果已安装)
- `sherpa-onnx-offline`(需要带有 encoder/decoder/joiner/tokens 的 `SHERPA_ONNX_MODEL_DIR`
- `whisper-cli``whisper-cpp`;使用 `WHISPER_CPP_MODEL` 或捆绑的 tiny 模型)
- `whisper`Python CLI自动下载模型
2. **Gemini CLI**`gemini`)使用 `read_many_files`
3. **提供商密钥**
- 音频OpenAI → Groq → Deepgram → Google
- 图片OpenAI → Anthropic → Google → MiniMax
- 视频Google
要禁用自动检测,设置:
```json5
{
tools: {
media: {
audio: {
enabled: false,
},
},
},
}
```
注意:二进制文件检测在 macOS/Linux/Windows 上是尽力而为的;确保 CLI 在 `PATH` 上(我们会展开 `~`),或设置带有完整命令路径的显式 CLI 模型。
## 能力(可选)
如果你设置了 `capabilities`该条目仅对这些媒体类型运行。对于共享列表OpenClaw 可以推断默认值:
- `openai``anthropic``minimax`**图片**
- `google`Gemini API**图片 + 音频 + 视频**
- `groq`**音频**
- `deepgram`**音频**
对于 CLI 条目,**显式设置 `capabilities`** 以避免意外匹配。如果你省略 `capabilities`,该条目对它出现的列表都符合条件。
## 提供商支持矩阵OpenClaw 集成)
| 能力 | 提供商集成 | 说明 |
| ---- | ---------------------------------------------- | --------------------------------------- |
| 图片 | OpenAI / Anthropic / Google / 其他通过 `pi-ai` | 注册表中任何支持图片的模型都可用。 |
| 音频 | OpenAI、Groq、Deepgram、Google | 提供商转录Whisper/Deepgram/Gemini。 |
| 视频 | GoogleGemini API | 提供商视频理解。 |
## 推荐提供商
**图片**
- 如果支持图片,优先使用你的活动模型。
- 良好的默认值:`openai/gpt-5.2``anthropic/claude-opus-4-5``google/gemini-3-pro-preview`
**音频**
- `openai/gpt-4o-mini-transcribe``groq/whisper-large-v3-turbo``deepgram/nova-3`
- CLI 回退:`whisper-cli`whisper-cpp`whisper`
- Deepgram 设置:[Deepgram音频转录](/providers/deepgram)。
**视频**
- `google/gemini-3-flash-preview`(快速)、`google/gemini-3-pro-preview`(更丰富)。
- CLI 回退:`gemini` CLI支持对视频/音频使用 `read_file`)。
## 附件策略
每能力的 `attachments` 控制处理哪些附件:
- `mode``first`(默认)或 `all`
- `maxAttachments`:限制处理数量(默认 **1**
- `prefer``first``last``path``url`
`mode: "all"` 时,输出标记为 `[Image 1/2]``[Audio 2/2]` 等。
## 配置示例
### 1) 共享模型列表 + 覆盖
```json5
{
tools: {
media: {
models: [
{ provider: "openai", model: "gpt-5.2", capabilities: ["image"] },
{
provider: "google",
model: "gemini-3-flash-preview",
capabilities: ["image", "audio", "video"],
},
{
type: "cli",
command: "gemini",
args: [
"-m",
"gemini-3-flash",
"--allowed-tools",
"read_file",
"Read the media at {{MediaPath}} and describe it in <= {{MaxChars}} characters.",
],
capabilities: ["image", "video"],
},
],
audio: {
attachments: { mode: "all", maxAttachments: 2 },
},
video: {
maxChars: 500,
},
},
},
}
```
### 2) 仅音频 + 视频(图片关闭)
```json5
{
tools: {
media: {
audio: {
enabled: true,
models: [
{ provider: "openai", model: "gpt-4o-mini-transcribe" },
{
type: "cli",
command: "whisper",
args: ["--model", "base", "{{MediaPath}}"],
},
],
},
video: {
enabled: true,
maxChars: 500,
models: [
{ provider: "google", model: "gemini-3-flash-preview" },
{
type: "cli",
command: "gemini",
args: [
"-m",
"gemini-3-flash",
"--allowed-tools",
"read_file",
"Read the media at {{MediaPath}} and describe it in <= {{MaxChars}} characters.",
],
},
],
},
},
},
}
```
### 3) 可选图片理解
```json5
{
tools: {
media: {
image: {
enabled: true,
maxBytes: 10485760,
maxChars: 500,
models: [
{ provider: "openai", model: "gpt-5.2" },
{ provider: "anthropic", model: "claude-opus-4-5" },
{
type: "cli",
command: "gemini",
args: [
"-m",
"gemini-3-flash",
"--allowed-tools",
"read_file",
"Read the media at {{MediaPath}} and describe it in <= {{MaxChars}} characters.",
],
},
],
},
},
},
}
```
### 4) 多模态单条目(显式能力)
```json5
{
tools: {
media: {
image: {
models: [
{
provider: "google",
model: "gemini-3-pro-preview",
capabilities: ["image", "video", "audio"],
},
],
},
audio: {
models: [
{
provider: "google",
model: "gemini-3-pro-preview",
capabilities: ["image", "video", "audio"],
},
],
},
video: {
models: [
{
provider: "google",
model: "gemini-3-pro-preview",
capabilities: ["image", "video", "audio"],
},
],
},
},
},
}
```
## 状态输出
当媒体理解运行时,`/status` 包含一行简短摘要:
```
📎 Media: image ok (openai/gpt-5.2) · audio skipped (maxBytes)
```
这显示每能力的结果以及适用时选择的提供商/模型。
## 注意事项
- 理解是**尽力而为**的。错误不会阻止回复。
- 即使理解被禁用,附件仍然传递给模型。
- 使用 `scope` 限制理解运行的位置(例如仅私信)。
## 相关文档
- [配置](/gateway/configuration)
- [图片和媒体支持](/nodes/images)

97
content/nodes/talk.md Normal file
View File

@@ -0,0 +1,97 @@
---
read_when:
- 在 macOS/iOS/Android 上实现 Talk 模式
- 更改语音/TTS/中断行为
summary: Talk 模式:使用 ElevenLabs TTS 进行连续语音对话
title: Talk 模式
x-i18n:
generated_at: "2026-02-03T10:07:59Z"
model: claude-opus-4-5
provider: pi
source_hash: ecbc3701c9e9502970cf13227fedbc9714d13668d8f4f3988fef2a4d68116a42
source_path: nodes/talk.md
workflow: 15
---
# Talk 模式
Talk 模式是一个连续的语音对话循环:
1. 监听语音
2. 将转录文本发送到模型main 会话chat.send
3. 等待响应
4. 通过 ElevenLabs 朗读(流式播放)
## 行为macOS
- Talk 模式启用时显示**常驻悬浮窗**。
- **监听 → 思考 → 朗读**阶段转换。
- **短暂停顿**(静音窗口)后,当前转录文本被发送。
- 回复被**写入 WebChat**(与打字相同)。
- **语音中断**(默认开启):如果用户在助手朗读时开始说话,我们会停止播放并记录中断时间戳供下一个提示使用。
## 回复中的语音指令
助手可以在回复前添加**单行 JSON** 来控制语音:
```json
{ "voice": "<voice-id>", "once": true }
```
规则:
- 仅适用于第一个非空行。
- 未知键会被忽略。
- `once: true` 仅适用于当前回复。
- 没有 `once` 时,该语音成为 Talk 模式的新默认值。
- JSON 行在 TTS 播放前会被移除。
支持的键:
- `voice` / `voice_id` / `voiceId`
- `model` / `model_id` / `modelId`
- `speed``rate`WPM`stability``similarity``style``speakerBoost`
- `seed``normalize``lang``output_format``latency_tier`
- `once`
## 配置(`~/.openclaw/openclaw.json`
```json5
{
talk: {
voiceId: "elevenlabs_voice_id",
modelId: "eleven_v3",
outputFormat: "mp3_44100_128",
apiKey: "elevenlabs_api_key",
interruptOnSpeech: true,
},
}
```
默认值:
- `interruptOnSpeech`true
- `voiceId`:回退到 `ELEVENLABS_VOICE_ID` / `SAG_VOICE_ID`(或当 API 密钥可用时使用第一个 ElevenLabs 语音)
- `modelId`:未设置时默认为 `eleven_v3`
- `apiKey`:回退到 `ELEVENLABS_API_KEY`(或 Gateway 网关 shell profile如果可用
- `outputFormat`macOS/iOS 上默认为 `pcm_44100`Android 上默认为 `pcm_24000`(设置 `mp3_*` 以强制 MP3 流式传输)
## macOS UI
- 菜单栏切换:**Talk**
- 配置标签页:**Talk Mode** 组voice id + 中断开关)
- 悬浮窗:
- **监听**:云朵随麦克风电平脉动
- **思考**:下沉动画
- **朗读**:辐射圆环
- 点击云朵:停止朗读
- 点击 X退出 Talk 模式
## 注意事项
- 需要语音 + 麦克风权限。
- 使用 `chat.send` 针对会话键 `main`
- TTS 使用带有 `ELEVENLABS_API_KEY` 的 ElevenLabs 流式 API并在 macOS/iOS/Android 上进行增量播放以降低延迟。
- `eleven_v3``stability` 验证为 `0.0``0.5``1.0`;其他模型接受 `0..1`
- 设置时 `latency_tier` 验证为 `0..4`
- Android 支持 `pcm_16000``pcm_22050``pcm_24000``pcm_44100` 输出格式,用于低延迟 AudioTrack 流式传输。

View File

@@ -0,0 +1,8 @@
---
summary: 节点故障排查:排查配对、前台限制、权限与工具调用失败
title: 节点故障排查
---
# 节点故障排查
该页面是英文文档的中文占位版本,完整内容请先参考英文版:[Node Troubleshooting](/nodes/troubleshooting)。

375
content/nodes/tts.md Normal file
View File

@@ -0,0 +1,375 @@
---
read_when:
- 为回复启用文本转语音
- 配置 TTS 提供商或限制
- 使用 /tts 命令
summary: 出站回复的文本转语音TTS
title: 文本转语音
x-i18n:
generated_at: "2026-02-03T10:13:55Z"
model: claude-opus-4-5
provider: pi
source_hash: 070ff0cc8592f64c6c9e4ddaddc7e8fba82f0692ceded6fe833ec9ba5b61e6fb
source_path: tts.md
workflow: 15
---
# 文本转语音TTS
OpenClaw 可以使用 ElevenLabs、OpenAI 或 Edge TTS 将出站回复转换为音频。它可以在任何 OpenClaw 能发送音频的地方工作Telegram 会显示圆形语音消息气泡。
## 支持的服务
- **ElevenLabs**(主要或备用提供商)
- **OpenAI**(主要或备用提供商;也用于摘要)
- **Edge TTS**(主要或备用提供商;使用 `node-edge-tts`,无 API 密钥时为默认)
### Edge TTS 注意事项
Edge TTS 通过 `node-edge-tts` 库使用 Microsoft Edge 的在线神经网络 TTS 服务。它是托管服务(非本地),使用 Microsoft 的端点,不需要 API 密钥。`node-edge-tts` 公开了语音配置选项和输出格式,但并非所有选项都被 Edge 服务支持。citeturn2search0
由于 Edge TTS 是一个没有公布 SLA 或配额的公共 Web 服务,请将其视为尽力而为。如果你需要有保证的限制和支持,请使用 OpenAI 或 ElevenLabs。Microsoft 的语音 REST API 记录了每个请求 10 分钟的音频限制Edge TTS 没有公布限制所以假设类似或更低的限制。citeturn0search3
## 可选密钥
如果你想使用 OpenAI 或 ElevenLabs
- `ELEVENLABS_API_KEY`(或 `XI_API_KEY`
- `OPENAI_API_KEY`
Edge TTS **不**需要 API 密钥。如果没有找到 API 密钥OpenClaw 默认使用 Edge TTS除非通过 `messages.tts.edge.enabled=false` 禁用)。
如果配置了多个提供商,首先使用选定的提供商,其他作为备用选项。自动摘要使用配置的 `summaryModel`(或 `agents.defaults.model.primary`),所以如果你启用摘要,该提供商也必须经过认证。
## 服务链接
- [OpenAI 文本转语音指南](https://platform.openai.com/docs/guides/text-to-speech)
- [OpenAI 音频 API 参考](https://platform.openai.com/docs/api-reference/audio)
- [ElevenLabs 文本转语音](https://elevenlabs.io/docs/api-reference/text-to-speech)
- [ElevenLabs 认证](https://elevenlabs.io/docs/api-reference/authentication)
- [node-edge-tts](https://github.com/SchneeHertz/node-edge-tts)
- [Microsoft 语音输出格式](https://learn.microsoft.com/azure/ai-services/speech-service/rest-text-to-speech#audio-outputs)
## 默认启用吗?
不是。自动 TTS 默认**关闭**。在配置中使用 `messages.tts.auto` 或在每个会话中使用 `/tts always`(别名:`/tts on`)启用它。
一旦 TTS 开启Edge TTS **是**默认启用的,并在没有 OpenAI 或 ElevenLabs API 密钥时自动使用。
## 配置
TTS 配置位于 `openclaw.json` 中的 `messages.tts` 下。完整 schema 在 [Gateway 网关配置](/gateway/configuration)中。
### 最小配置(启用 + 提供商)
```json5
{
messages: {
tts: {
auto: "always",
provider: "elevenlabs",
},
},
}
```
### OpenAI 主要ElevenLabs 备用
```json5
{
messages: {
tts: {
auto: "always",
provider: "openai",
summaryModel: "openai/gpt-4.1-mini",
modelOverrides: {
enabled: true,
},
openai: {
apiKey: "openai_api_key",
model: "gpt-4o-mini-tts",
voice: "alloy",
},
elevenlabs: {
apiKey: "elevenlabs_api_key",
baseUrl: "https://api.elevenlabs.io",
voiceId: "voice_id",
modelId: "eleven_multilingual_v2",
seed: 42,
applyTextNormalization: "auto",
languageCode: "en",
voiceSettings: {
stability: 0.5,
similarityBoost: 0.75,
style: 0.0,
useSpeakerBoost: true,
speed: 1.0,
},
},
},
},
}
```
### Edge TTS 主要(无 API 密钥)
```json5
{
messages: {
tts: {
auto: "always",
provider: "edge",
edge: {
enabled: true,
voice: "en-US-MichelleNeural",
lang: "en-US",
outputFormat: "audio-24khz-48kbitrate-mono-mp3",
rate: "+10%",
pitch: "-5%",
},
},
},
}
```
### 禁用 Edge TTS
```json5
{
messages: {
tts: {
edge: {
enabled: false,
},
},
},
}
```
### 自定义限制 + 偏好路径
```json5
{
messages: {
tts: {
auto: "always",
maxTextLength: 4000,
timeoutMs: 30000,
prefsPath: "~/.openclaw/settings/tts.json",
},
},
}
```
### 仅在收到语音消息后用音频回复
```json5
{
messages: {
tts: {
auto: "inbound",
},
},
}
```
### 禁用长回复的自动摘要
```json5
{
messages: {
tts: {
auto: "always",
},
},
}
```
然后运行:
```
/tts summary off
```
### 字段说明
- `auto`:自动 TTS 模式(`off``always``inbound``tagged`)。
- `inbound` 仅在收到语音消息后发送音频。
- `tagged` 仅在回复包含 `[[tts]]` 标签时发送音频。
- `enabled`旧版开关doctor 将其迁移到 `auto`)。
- `mode``"final"`(默认)或 `"all"`(包括工具/分块回复)。
- `provider``"elevenlabs"``"openai"``"edge"`(自动备用)。
- 如果 `provider` **未设置**OpenClaw 优先选择 `openai`(如果有密钥),然后是 `elevenlabs`(如果有密钥),否则是 `edge`
- `summaryModel`:用于自动摘要的可选廉价模型;默认为 `agents.defaults.model.primary`
- 接受 `provider/model` 或配置的模型别名。
- `modelOverrides`:允许模型发出 TTS 指令(默认开启)。
- `maxTextLength`TTS 输入的硬性上限(字符)。超出时 `/tts audio` 会失败。
- `timeoutMs`:请求超时(毫秒)。
- `prefsPath`:覆盖本地偏好 JSON 路径(提供商/限制/摘要)。
- `apiKey` 值回退到环境变量(`ELEVENLABS_API_KEY`/`XI_API_KEY``OPENAI_API_KEY`)。
- `elevenlabs.baseUrl`:覆盖 ElevenLabs API 基础 URL。
- `elevenlabs.voiceSettings`
- `stability``similarityBoost``style``0..1`
- `useSpeakerBoost``true|false`
- `speed``0.5..2.0`1.0 = 正常)
- `elevenlabs.applyTextNormalization``auto|on|off`
- `elevenlabs.languageCode`2 字母 ISO 639-1例如 `en``de`
- `elevenlabs.seed`:整数 `0..4294967295`(尽力确定性)
- `edge.enabled`:允许 Edge TTS 使用(默认 `true`;无 API 密钥)。
- `edge.voice`Edge 神经网络语音名称(例如 `en-US-MichelleNeural`)。
- `edge.lang`:语言代码(例如 `en-US`)。
- `edge.outputFormat`Edge 输出格式(例如 `audio-24khz-48kbitrate-mono-mp3`)。
- 有效值参见 Microsoft 语音输出格式;并非所有格式都被 Edge 支持。
- `edge.rate` / `edge.pitch` / `edge.volume`:百分比字符串(例如 `+10%``-5%`)。
- `edge.saveSubtitles`:在音频文件旁边写入 JSON 字幕。
- `edge.proxy`Edge TTS 请求的代理 URL。
- `edge.timeoutMs`:请求超时覆盖(毫秒)。
## 模型驱动覆盖(默认开启)
默认情况下,模型**可以**为单个回复发出 TTS 指令。当 `messages.tts.auto``tagged` 时,需要这些指令来触发音频。
启用后,模型可以发出 `[[tts:...]]` 指令来覆盖单个回复的语音,加上可选的 `[[tts:text]]...[[/tts:text]]` 块来提供表达性标签(笑声、唱歌提示等),这些仅应出现在音频中。
示例回复负载:
```
Here you go.
[[tts:provider=elevenlabs voiceId=pMsXgVXv3BLzUgSXRplE model=eleven_v3 speed=1.1]]
[[tts:text]](laughs) Read the song once more.[[/tts:text]]
```
可用指令键(启用时):
- `provider``openai` | `elevenlabs` | `edge`
- `voice`OpenAI 语音)或 `voiceId`ElevenLabs
- `model`OpenAI TTS 模型或 ElevenLabs 模型 ID
- `stability``similarityBoost``style``speed``useSpeakerBoost`
- `applyTextNormalization``auto|on|off`
- `languageCode`ISO 639-1
- `seed`
禁用所有模型覆盖:
```json5
{
messages: {
tts: {
modelOverrides: {
enabled: false,
},
},
},
}
```
可选白名单(禁用特定覆盖同时保持标签启用):
```json5
{
messages: {
tts: {
modelOverrides: {
enabled: true,
allowProvider: false,
allowSeed: false,
},
},
},
}
```
## 单用户偏好
斜杠命令将本地覆盖写入 `prefsPath`(默认:`~/.openclaw/settings/tts.json`,可通过 `OPENCLAW_TTS_PREFS``messages.tts.prefsPath` 覆盖)。
存储的字段:
- `enabled`
- `provider`
- `maxLength`(摘要阈值;默认 1500 字符)
- `summarize`(默认 `true`
这些为该主机覆盖 `messages.tts.*`
## 输出格式(固定)
- **Telegram**Opus 语音消息ElevenLabs 的 `opus_48000_64`OpenAI 的 `opus`)。
- 48kHz / 64kbps 是语音消息的良好权衡,圆形气泡所必需。
- **其他渠道**MP3ElevenLabs 的 `mp3_44100_128`OpenAI 的 `mp3`)。
- 44.1kHz / 128kbps 是语音清晰度的默认平衡。
- **Edge TTS**:使用 `edge.outputFormat`(默认 `audio-24khz-48kbitrate-mono-mp3`)。
- `node-edge-tts` 接受 `outputFormat`,但并非所有格式都可从 Edge 服务获得。citeturn2search0
- 输出格式值遵循 Microsoft 语音输出格式(包括 Ogg/WebM Opus。citeturn1search0
- Telegram `sendVoice` 接受 OGG/MP3/M4A如果你需要有保证的 Opus 语音消息,请使用 OpenAI/ElevenLabs。citeturn1search1
- 如果配置的 Edge 输出格式失败OpenClaw 会使用 MP3 重试。
OpenAI/ElevenLabs 格式是固定的Telegram 期望 Opus 以获得语音消息用户体验。
## 自动 TTS 行为
启用后OpenClaw
- 如果回复已包含媒体或 `MEDIA:` 指令,则跳过 TTS。
- 跳过非常短的回复(< 10 字符)。
- 启用时使用 `agents.defaults.model.primary` `summaryModel`对长回复进行摘要
- 将生成的音频附加到回复中
如果回复超过 `maxLength` 且摘要关闭或没有摘要模型的 API 密钥则跳过音频并发送正常的文本回复
## 流程图
```
回复 -> TTS 启用?
否 -> 发送文本
是 -> 有媒体 / MEDIA: / 太短?
是 -> 发送文本
否 -> 长度 > 限制?
否 -> TTS -> 附加音频
是 -> 摘要启用?
否 -> 发送文本
是 -> 摘要summaryModel 或 agents.defaults.model.primary
-> TTS -> 附加音频
```
## 斜杠命令用法
只有一个命令`/tts`参见[斜杠命令](/tools/slash-commands)了解启用详情
Discord 注意`/tts` Discord 的内置命令所以 OpenClaw 在那里注册 `/voice` 作为原生命令文本 `/tts ...` 仍然有效
```
/tts off
/tts always
/tts inbound
/tts tagged
/tts status
/tts provider openai
/tts limit 2000
/tts summary off
/tts audio Hello from OpenClaw
```
注意事项
- 命令需要授权发送者白名单/所有者规则仍然适用)。
- 必须启用 `commands.text` 或原生命令注册
- `off|always|inbound|tagged` 是单会话开关`/tts on` `/tts always` 的别名)。
- `limit` `summary` 存储在本地偏好中不在主配置中
- `/tts audio` 生成一次性音频回复不会开启 TTS)。
## 智能体工具
`tts` 工具将文本转换为语音并返回 `MEDIA:` 路径当结果与 Telegram 兼容时工具包含 `[[audio_as_voice]]`以便 Telegram 发送语音气泡
## Gateway 网关 RPC
Gateway 网关方法
- `tts.status`
- `tts.enable`
- `tts.disable`
- `tts.convert`
- `tts.setProvider`
- `tts.providers`

View File

@@ -0,0 +1,72 @@
---
read_when:
- 更改语音唤醒词行为或默认值
- 添加需要唤醒词同步的新节点平台
summary: 全局语音唤醒词Gateway 网关拥有)及其如何跨节点同步
title: 语音唤醒
x-i18n:
generated_at: "2026-02-03T07:51:10Z"
model: claude-opus-4-5
provider: pi
source_hash: eb34f52dfcdc3fc1ae088ae1f621f245546d3cf388299fbeea62face61788c37
source_path: nodes/voicewake.md
workflow: 15
---
# 语音唤醒(全局唤醒词)
OpenClaw 将**唤醒词作为单一全局列表**,由 **Gateway 网关**拥有。
- **没有**每节点的自定义唤醒词。
- **任何节点/应用 UI 都可以编辑**列表;更改由 Gateway 网关持久化并广播给所有人。
- 每个设备仍保留自己的**语音唤醒启用/禁用**开关(本地用户体验 + 权限不同)。
## 存储Gateway 网关主机)
唤醒词存储在 Gateway 网关机器上:
- `~/.openclaw/settings/voicewake.json`
结构:
```json
{ "triggers": ["openclaw", "claude", "computer"], "updatedAtMs": 1730000000000 }
```
## 协议
### 方法
- `voicewake.get``{ triggers: string[] }`
- `voicewake.set`,参数 `{ triggers: string[] }``{ triggers: string[] }`
注意事项:
- 触发词会被规范化(修剪空格、删除空值)。空列表回退到默认值。
- 为安全起见会强制执行限制(数量/长度上限)。
### 事件
- `voicewake.changed` 载荷 `{ triggers: string[] }`
接收者:
- 所有 WebSocket 客户端macOS 应用、WebChat 等)
- 所有已连接的节点iOS/Android以及节点连接时作为初始"当前状态"推送。
## 客户端行为
### macOS 应用
- 使用全局列表来控制 `VoiceWakeRuntime` 触发器。
- 在语音唤醒设置中编辑"触发词"会调用 `voicewake.set`,然后依赖广播保持其他客户端同步。
### iOS 节点
- 使用全局列表进行 `VoiceWakeManager` 触发检测。
- 在设置中编辑唤醒词会调用 `voicewake.set`(通过 Gateway 网关 WS同时保持本地唤醒词检测的响应性。
### Android 节点
- 在设置中暴露唤醒词编辑器。
- 通过 Gateway 网关 WS 调用 `voicewake.set`,使编辑在所有地方同步。