first commit

2026-02-28 23:01:30 +08:00
commit 3956ee4806
415 changed files with 74538 additions and 0 deletions
--- a/content/nodes/audio.md
+++ b/content/nodes/audio.md
@@ -0,0 +1,120 @@
+---
+read_when:
+  - 更改音频转录或媒体处理方式
+summary: 入站音频/语音消息如何被下载、转录并注入回复
+title: 音频与语音消息
+x-i18n:
+  generated_at: "2026-02-01T21:17:35Z"
+  model: claude-opus-4-5
+  provider: pi
+  source_hash: b926c47989ab0d1ee1fb8ae6372c51d27515b53d6fefe211a85856d372f14569
+  source_path: nodes/audio.md
+  workflow: 15
+---
+
+# 音频 / 语音消息 — 2026-01-17
+
+## 已支持的功能
+
+- **媒体理解（音频）**：如果音频理解已启用（或自动检测），OpenClaw 会：
+  1. 找到第一个音频附件（本地路径或 URL），如有需要则下载。
+  2. 在发送给每个模型条目之前执行 `maxBytes` 限制。
+  3. 按顺序运行第一个符合条件的模型条目（提供商或 CLI）。
+  4. 如果失败或跳过（大小/超时），则尝试下一个条目。
+  5. 成功后，将 `Body` 替换为 `[Audio]` 块并设置 `{{Transcript}}`。
+- **命令解析**：转录成功时，`CommandBody`/`RawBody` 会设置为转录文本，因此斜杠命令仍然有效。
+- **详细日志**：在 `--verbose` 模式下，我们会在转录运行和替换正文时记录日志。
+
+## 自动检测（默认）
+
+如果你**未配置模型**且 `tools.media.audio.enabled` **未**设置为 `false`，OpenClaw 会按以下顺序自动检测，并在找到第一个可用选项时停止：
+
+1. **本地 CLI**（如已安装）
+   - `sherpa-onnx-offline`（需要 `SHERPA_ONNX_MODEL_DIR` 包含 encoder/decoder/joiner/tokens）
+   - `whisper-cli`（来自 `whisper-cpp`；使用 `WHISPER_CPP_MODEL` 或内置的 tiny 模型）
+   - `whisper`（Python CLI；自动下载模型）
+2. **Gemini CLI**（`gemini`）使用 `read_many_files`
+3. **提供商密钥**（OpenAI → Groq → Deepgram → Google）
+
+要禁用自动检测，请设置 `tools.media.audio.enabled: false`。
+要自定义，请设置 `tools.media.audio.models`。
+注意：二进制检测在 macOS/Linux/Windows 上采用尽力而为的方式；请确保 CLI 在 `PATH` 中（我们会展开 `~`），或通过完整命令路径设置显式 CLI 模型。
+
+## 配置示例
+
+### 提供商 + CLI 回退（OpenAI + Whisper CLI）
+
+```json5
+{
+  tools: {
+    media: {
+      audio: {
+        enabled: true,
+        maxBytes: 20971520,
+        models: [
+          { provider: "openai", model: "gpt-4o-mini-transcribe" },
+          {
+            type: "cli",
+            command: "whisper",
+            args: ["--model", "base", "{{MediaPath}}"],
+            timeoutSeconds: 45,
+          },
+        ],
+      },
+    },
+  },
+}
+```
+
+### 仅提供商 + 作用域控制
+
+```json5
+{
+  tools: {
+    media: {
+      audio: {
+        enabled: true,
+        scope: {
+          default: "allow",
+          rules: [{ action: "deny", match: { chatType: "group" } }],
+        },
+        models: [{ provider: "openai", model: "gpt-4o-mini-transcribe" }],
+      },
+    },
+  },
+}
+```
+
+### 仅提供商（Deepgram）
+
+```json5
+{
+  tools: {
+    media: {
+      audio: {
+        enabled: true,
+        models: [{ provider: "deepgram", model: "nova-3" }],
+      },
+    },
+  },
+}
+```
+
+## 注意事项与限制
+
+- 提供商认证遵循标准的模型认证顺序（认证配置文件、环境变量、`models.providers.*.apiKey`）。
+- 当使用 `provider: "deepgram"` 时，Deepgram 会读取 `DEEPGRAM_API_KEY`。
+- Deepgram 设置详情：[Deepgram（音频转录）](/providers/deepgram)。
+- 音频提供商可以通过 `tools.media.audio` 覆盖 `baseUrl`、`headers` 和 `providerOptions`。
+- 默认大小限制为 20MB（`tools.media.audio.maxBytes`）。超大音频会跳过该模型并尝试下一个条目。
+- 音频的默认 `maxChars` **未设置**（完整转录文本）。设置 `tools.media.audio.maxChars` 或每个条目的 `maxChars` 来裁剪输出。
+- OpenAI 自动检测默认使用 `gpt-4o-mini-transcribe`；设置 `model: "gpt-4o-transcribe"` 可获得更高准确度。
+- 使用 `tools.media.audio.attachments` 处理多条语音消息（`mode: "all"` + `maxAttachments`）。
+- 转录文本可在模板中通过 `{{Transcript}}` 使用。
+- CLI 标准输出有上限（5MB）；请保持 CLI 输出简洁。
+
+## 常见陷阱
+
+- 作用域规则采用首次匹配优先。`chatType` 会被规范化为 `direct`、`group` 或 `room`。
+- 确保你的 CLI 以退出码 0 退出并输出纯文本；JSON 格式需要通过 `jq -r .text` 进行转换。
+- 保持合理的超时时间（`timeoutSeconds`，默认 60 秒），以避免阻塞回复队列。
--- a/content/nodes/camera.md
+++ b/content/nodes/camera.md
@@ -0,0 +1,162 @@
+---
+read_when:
+  - 在 iOS 节点或 macOS 上添加或修改相机捕获
+  - 扩展智能体可访问的 MEDIA 临时文件工作流
+summary: 用于智能体的相机捕获（iOS 节点 + macOS 应用）：照片（jpg）和短视频片段（mp4）
+title: 相机捕获
+x-i18n:
+  generated_at: "2026-02-03T07:50:55Z"
+  model: claude-opus-4-5
+  provider: pi
+  source_hash: b4d5f5ecbab6f70597cf1e1f9cc5f7f54681253bd747442db16cc681203b5813
+  source_path: nodes/camera.md
+  workflow: 15
+---
+
+# 相机捕获（智能体）
+
+OpenClaw 支持用于智能体工作流的**相机捕获**：
+
+- **iOS 节点**（通过 Gateway 网关配对）：通过 `node.invoke` 捕获**照片**（`jpg`）或**短视频片段**（`mp4`，可选音频）。
+- **Android 节点**（通过 Gateway 网关配对）：通过 `node.invoke` 捕获**照片**（`jpg`）或**短视频片段**（`mp4`，可选音频）。
+- **macOS 应用**（通过 Gateway 网关的节点）：通过 `node.invoke` 捕获**照片**（`jpg`）或**短视频片段**（`mp4`，可选音频）。
+
+所有相机访问都受**用户控制的设置**限制。
+
+## iOS 节点
+
+### 用户设置（默认开启）
+
+- iOS 设置标签页 → **相机** → **允许相机**（`camera.enabled`）
+  - 默认：**开启**（缺少键时视为启用）。
+  - 关闭时：`camera.*` 命令返回 `CAMERA_DISABLED`。
+
+### 命令（通过 Gateway 网关 `node.invoke`）
+
+- `camera.list`
+  - 响应载荷：
+    - `devices`：`{ id, name, position, deviceType }` 数组
+
+- `camera.snap`
+  - 参数：
+    - `facing`：`front|back`（默认：`front`）
+    - `maxWidth`：数字（可选；iOS 节点默认 `1600`）
+    - `quality`：`0..1`（可选；默认 `0.9`）
+    - `format`：当前为 `jpg`
+    - `delayMs`：数字（可选；默认 `0`）
+    - `deviceId`：字符串（可选；来自 `camera.list`）
+  - 响应载荷：
+    - `format: "jpg"`
+    - `base64: "<...>"`
+    - `width`、`height`
+  - 载荷保护：照片会重新压缩以保持 base64 载荷小于 5 MB。
+
+- `camera.clip`
+  - 参数：
+    - `facing`：`front|back`（默认：`front`）
+    - `durationMs`：数字（默认 `3000`，上限 `60000`）
+    - `includeAudio`：布尔值（默认 `true`）
+    - `format`：当前为 `mp4`
+    - `deviceId`：字符串（可选；来自 `camera.list`）
+  - 响应载荷：
+    - `format: "mp4"`
+    - `base64: "<...>"`
+    - `durationMs`
+    - `hasAudio`
+
+### 前台要求
+
+与 `canvas.*` 类似，iOS 节点仅允许在**前台**执行 `camera.*` 命令。后台调用返回 `NODE_BACKGROUND_UNAVAILABLE`。
+
+### CLI 辅助工具（临时文件 + MEDIA）
+
+获取附件最简单的方法是通过 CLI 辅助工具，它将解码的媒体写入临时文件并打印 `MEDIA:<path>`。
+
+示例：
+
+```bash
+openclaw nodes camera snap --node <id>               # default: both front + back (2 MEDIA lines)
+openclaw nodes camera snap --node <id> --facing front
+openclaw nodes camera clip --node <id> --duration 3000
+openclaw nodes camera clip --node <id> --no-audio
+```
+
+注意事项：
+
+- `nodes camera snap` 默认拍摄**两个**方向以给智能体提供两个视角。
+- 输出文件是临时的（在操作系统临时目录中），除非你构建自己的包装器。
+
+## Android 节点
+
+### 用户设置（默认开启）
+
+- Android 设置页 → **相机** → **允许相机**（`camera.enabled`）
+  - 默认：**开启**（缺少键时视为启用）。
+  - 关闭时：`camera.*` 命令返回 `CAMERA_DISABLED`。
+
+### 权限
+
+- Android 需要运行时权限：
+  - `CAMERA` 用于 `camera.snap` 和 `camera.clip`。
+  - `RECORD_AUDIO` 用于 `includeAudio=true` 时的 `camera.clip`。
+
+如果缺少权限，应用会在可能时提示；如果被拒绝，`camera.*` 请求会失败并返回 `*_PERMISSION_REQUIRED` 错误。
+
+### 前台要求
+
+与 `canvas.*` 类似，Android 节点仅允许在**前台**执行 `camera.*` 命令。后台调用返回 `NODE_BACKGROUND_UNAVAILABLE`。
+
+### 载荷保护
+
+照片会重新压缩以保持 base64 载荷小于 5 MB。
+
+## macOS 应用
+
+### 用户设置（默认关闭）
+
+macOS 配套应用暴露一个复选框：
+
+- **设置 → 通用 → 允许相机**（`openclaw.cameraEnabled`）
+  - 默认：**关闭**
+  - 关闭时：相机请求返回"用户已禁用相机"。
+
+### CLI 辅助工具（节点调用）
+
+使用主 `openclaw` CLI 在 macOS 节点上调用相机命令。
+
+示例：
+
+```bash
+openclaw nodes camera list --node <id>            # list camera ids
+openclaw nodes camera snap --node <id>            # prints MEDIA:<path>
+openclaw nodes camera snap --node <id> --max-width 1280
+openclaw nodes camera snap --node <id> --delay-ms 2000
+openclaw nodes camera snap --node <id> --device-id <id>
+openclaw nodes camera clip --node <id> --duration 10s          # prints MEDIA:<path>
+openclaw nodes camera clip --node <id> --duration-ms 3000      # prints MEDIA:<path> (legacy flag)
+openclaw nodes camera clip --node <id> --device-id <id>
+openclaw nodes camera clip --node <id> --no-audio
+```
+
+注意事项：
+
+- `openclaw nodes camera snap` 默认 `maxWidth=1600`，除非被覆盖。
+- 在 macOS 上，`camera.snap` 在预热/曝光稳定后等待 `delayMs`（默认 2000ms）再捕获。
+- 照片载荷会重新压缩以保持 base64 小于 5 MB。
+
+## 安全性 + 实际限制
+
+- 相机和麦克风访问会触发通常的操作系统权限提示（并需要 Info.plist 中的使用说明字符串）。
+- 视频片段有上限（当前 `<= 60s`）以避免过大的节点载荷（base64 开销 + 消息限制）。
+
+## macOS 屏幕视频（操作系统级别）
+
+对于*屏幕*视频（非相机），使用 macOS 配套应用：
+
+```bash
+openclaw nodes screen record --node <id> --duration 10s --fps 15   # prints MEDIA:<path>
+```
+
+注意事项：
+
+- 需要 macOS **屏幕录制**权限（TCC）。
--- a/content/nodes/images.md
+++ b/content/nodes/images.md
@@ -0,0 +1,79 @@
+---
+read_when:
+  - 修改媒体管道或附件
+summary: 发送、Gateway 网关和智能体回复的图像和媒体处理规则
+title: 图像和媒体支持
+x-i18n:
+  generated_at: "2026-02-03T07:50:42Z"
+  model: claude-opus-4-5
+  provider: pi
+  source_hash: 971aed398ea01078efbad7a8a4bca17f2a975222a2c4db557565e4334c9450e0
+  source_path: nodes/images.md
+  workflow: 15
+---
+
+# 图像与媒体支持 — 2025-12-05
+
+WhatsApp 渠道通过 **Baileys Web** 运行。本文档记录了发送、Gateway 网关和智能体回复的当前媒体处理规则。
+
+## 目标
+
+- 通过 `openclaw message send --media` 发送带可选标题的媒体。
+- 允许来自网页收件箱的自动回复在文本旁边包含媒体。
+- 保持每种类型的限制合理且可预测。
+
+## CLI 接口
+
+- `openclaw message send --media <path-or-url> [--message <caption>]`
+  - `--media` 可选；标题可以为空以进行纯媒体发送。
+  - `--dry-run` 打印解析后的负载；`--json` 输出 `{ channel, to, messageId, mediaUrl, caption }`。
+
+## WhatsApp Web 渠道行为
+
+- 输入：本地文件路径**或** HTTP(S) URL。
+- 流程：加载到 Buffer，检测媒体类型，并构建正确的负载：
+  - **图像：** 调整大小并重新压缩为 JPEG（最大边 2048px），目标为 `agents.defaults.mediaMaxMb`（默认 5 MB），上限 6 MB。
+  - **音频/语音/视频：** 直通最大 16 MB；音频作为语音消息发送（`ptt: true`）。
+  - **文档：** 其他任何内容，最大 100 MB，可用时保留文件名。
+- WhatsApp GIF 风格播放：发送带 `gifPlayback: true` 的 MP4（CLI：`--gif-playback`），使移动客户端内联循环播放。
+- MIME 检测优先使用魔数字节，然后是头信息，最后是文件扩展名。
+- 标题来自 `--message` 或 `reply.text`；允许空标题。
+- 日志：非详细模式显示 `↩️`/`✅`；详细模式包含大小和源路径/URL。
+
+## 自动回复管道
+
+- `getReplyFromConfig` 返回 `{ text?, mediaUrl?, mediaUrls? }`。
+- 当存在媒体时，网页发送器使用与 `openclaw message send` 相同的管道解析本地路径或 URL。
+- 如果提供多个媒体条目，则按顺序发送。
+
+## 入站媒体到命令（Pi）
+
+- 当入站网页消息包含媒体时，OpenClaw 下载到临时文件并暴露模板变量：
+  - `{{MediaUrl}}` 入站媒体的伪 URL。
+  - `{{MediaPath}}` 运行命令前写入的本地临时路径。
+- 当启用每会话 Docker 沙箱时，入站媒体被复制到沙箱工作区，`MediaPath`/`MediaUrl` 被重写为相对路径如 `media/inbound/<filename>`。
+- 媒体理解（如果通过 `tools.media.*` 或共享的 `tools.media.models` 配置）在模板化之前运行，可以将 `[Image]`、`[Audio]` 和 `[Video]` 块插入 `Body`。
+  - 音频设置 `{{Transcript}}` 并使用转录进行命令解析，因此斜杠命令仍然有效。
+  - 视频和图像描述保留任何标题文本用于命令解析。
+- 默认情况下只处理第一个匹配的图像/音频/视频附件；设置 `tools.media.<cap>.attachments` 以处理多个附件。
+
+## 限制与错误
+
+**出站发送上限（WhatsApp 网页发送）**
+
+- 图像：重新压缩后约 6 MB 上限。
+- 音频/语音/视频：16 MB 上限；文档：100 MB 上限。
+- 超大或无法读取的媒体 → 日志中有明确错误，回复被跳过。
+
+**媒体理解上限（转录/描述）**
+
+- 图像默认：10 MB（`tools.media.image.maxBytes`）。
+- 音频默认：20 MB（`tools.media.audio.maxBytes`）。
+- 视频默认：50 MB（`tools.media.video.maxBytes`）。
+- 超大媒体跳过理解，但回复仍然使用原始正文通过。
+
+## 测试说明
+
+- 覆盖图像/音频/文档情况的发送 + 回复流程。
+- 验证图像的重新压缩（大小限制）和音频的语音消息标志。
+- 确保多媒体回复作为顺序发送扇出。
--- a/content/nodes/index.md
+++ b/content/nodes/index.md
@@ -0,0 +1,348 @@
+---
+read_when:
+  - 将 iOS/Android 节点配对到 Gateway 网关时
+  - 使用节点 canvas/camera 为智能体提供上下文时
+  - 添加新的节点命令或 CLI 辅助工具时
+summary: 节点：配对、能力、权限以及 canvas/camera/screen/system 的 CLI 辅助工具
+title: 节点
+x-i18n:
+  generated_at: "2026-02-03T07:51:55Z"
+  model: claude-opus-4-5
+  provider: pi
+  source_hash: 74e9420f61c653e4ceeb00f5a27e4266bd1c7715c1000edd969c3ee185e74de9
+  source_path: nodes/index.md
+  workflow: 15
+---
+
+# 节点
+
+**节点**是一个配套设备（macOS/iOS/Android/无头），它以 `role: "node"` 连接到 Gateway 网关 **WebSocket**（与操作员相同的端口），并通过 `node.invoke` 暴露命令接口（例如 `canvas.*`、`camera.*`、`system.*`）。协议详情：[Gateway 网关协议](/gateway/protocol)。
+
+旧版传输：[Bridge 协议](/gateway/bridge-protocol)（TCP JSONL；当前节点已弃用/移除）。
+
+macOS 也可以在**节点模式**下运行：菜单栏应用连接到 Gateway 网关的 WS 服务器，并将其本地 canvas/camera 命令作为节点暴露（因此 `openclaw nodes …` 可以针对这台 Mac 工作）。
+
+注意事项：
+
+- 节点是**外围设备**，不是 Gateway 网关。它们不运行 Gateway 网关服务。
+- Telegram/WhatsApp 等消息落在 **Gateway 网关**上，而不是节点上。
+
+## 配对 + 状态
+
+**WS 节点使用设备配对。** 节点在 `connect` 期间呈现设备身份；Gateway 网关
+为 `role: node` 创建设备配对请求。通过设备 CLI（或 UI）批准。
+
+快速 CLI：
+
+```bash
+openclaw devices list
+openclaw devices approve <requestId>
+openclaw devices reject <requestId>
+openclaw nodes status
+openclaw nodes describe --node <idOrNameOrIp>
+```
+
+注意事项：
+
+- 当节点的设备配对角色包含 `node` 时，`nodes status` 将节点标记为**已配对**。
+- `node.pair.*`（CLI：`openclaw nodes pending/approve/reject`）是一个单独的 Gateway 网关拥有的
+  节点配对存储；它**不会**限制 WS `connect` 握手。
+
+## 远程节点主机（system.run）
+
+当你的 Gateway 网关在一台机器上运行而你希望命令
+在另一台机器上执行时，使用**节点主机**。模型仍然与 **Gateway 网关**通信；当选择 `host=node` 时，Gateway 网关
+将 `exec` 调用转发到**节点主机**。
+
+### 什么在哪里运行
+
+- **Gateway 网关主机**：接收消息，运行模型，路由工具调用。
+- **节点主机**：在节点机器上执行 `system.run`/`system.which`。
+- **批准**：通过 `~/.openclaw/exec-approvals.json` 在节点主机上执行。
+
+### 启动节点主机（前台）
+
+在节点机器上：
+
+```bash
+openclaw node run --host <gateway-host> --port 18789 --display-name "Build Node"
+```
+
+### 通过 SSH 隧道访问远程 Gateway 网关（loopback 绑定）
+
+如果 Gateway 网关绑定到 loopback（`gateway.bind=loopback`，本地模式下的默认值），
+远程节点主机无法直接连接。创建 SSH 隧道并将
+节点主机指向隧道的本地端。
+
+示例（节点主机 -> Gateway 网关主机）：
+
+```bash
+# 终端 A（保持运行）：转发本地 18790 -> Gateway 网关 127.0.0.1:18789
+ssh -N -L 18790:127.0.0.1:18789 user@gateway-host
+
+# 终端 B：导出 Gateway 网关令牌并通过隧道连接
+export OPENCLAW_GATEWAY_TOKEN="<gateway-token>"
+openclaw node run --host 127.0.0.1 --port 18790 --display-name "Build Node"
+```
+
+注意事项：
+
+- 令牌是 Gateway 网关配置中的 `gateway.auth.token`（Gateway 网关主机上的 `~/.openclaw/openclaw.json`）。
+- `openclaw node run` 读取 `OPENCLAW_GATEWAY_TOKEN` 进行认证。
+
+### 启动节点主机（服务）
+
+```bash
+openclaw node install --host <gateway-host> --port 18789 --display-name "Build Node"
+openclaw node restart
+```
+
+### 配对 + 命名
+
+在 Gateway 网关主机上：
+
+```bash
+openclaw nodes pending
+openclaw nodes approve <requestId>
+openclaw nodes list
+```
+
+命名选项：
+
+- 在 `openclaw node run` / `openclaw node install` 上使用 `--display-name`（持久化在节点上的 `~/.openclaw/node.json` 中）。
+- `openclaw nodes rename --node <id|name|ip> --name "Build Node"`（Gateway 网关覆盖）。
+
+### 将命令加入允许列表
+
+Exec 批准是**每个节点主机**的。从 Gateway 网关添加允许列表条目：
+
+```bash
+openclaw approvals allowlist add --node <id|name|ip> "/usr/bin/uname"
+openclaw approvals allowlist add --node <id|name|ip> "/usr/bin/sw_vers"
+```
+
+批准存储在节点主机的 `~/.openclaw/exec-approvals.json` 中。
+
+### 将 exec 指向节点
+
+配置默认值（Gateway 网关配置）：
+
+```bash
+openclaw config set tools.exec.host node
+openclaw config set tools.exec.security allowlist
+openclaw config set tools.exec.node "<id-or-name>"
+```
+
+或按会话：
+
+```
+/exec host=node security=allowlist node=<id-or-name>
+```
+
+设置后，任何带有 `host=node` 的 `exec` 调用都会在节点主机上运行（受
+节点允许列表/批准约束）。
+
+相关：
+
+- [节点主机 CLI](/cli/node)
+- [Exec 工具](/tools/exec)
+- [Exec 批准](/tools/exec-approvals)
+
+## 调用命令
+
+低级（原始 RPC）：
+
+```bash
+openclaw nodes invoke --node <idOrNameOrIp> --command canvas.eval --params '{"javaScript":"location.href"}'
+```
+
+对于常见的"给智能体一个 MEDIA 附件"工作流，存在更高级的辅助工具。
+
+## 截图（canvas 快照）
+
+如果节点正在显示 Canvas（WebView），`canvas.snapshot` 返回 `{ format, base64 }`。
+
+CLI 辅助工具（写入临时文件并打印 `MEDIA:<path>`）：
+
+```bash
+openclaw nodes canvas snapshot --node <idOrNameOrIp> --format png
+openclaw nodes canvas snapshot --node <idOrNameOrIp> --format jpg --max-width 1200 --quality 0.9
+```
+
+### Canvas 控制
+
+```bash
+openclaw nodes canvas present --node <idOrNameOrIp> --target https://example.com
+openclaw nodes canvas hide --node <idOrNameOrIp>
+openclaw nodes canvas navigate https://example.com --node <idOrNameOrIp>
+openclaw nodes canvas eval --node <idOrNameOrIp> --js "document.title"
+```
+
+注意事项：
+
+- `canvas present` 接受 URL 或本地文件路径（`--target`），以及可选的 `--x/--y/--width/--height` 用于定位。
+- `canvas eval` 接受内联 JS（`--js`）或位置参数。
+
+### A2UI（Canvas）
+
+```bash
+openclaw nodes canvas a2ui push --node <idOrNameOrIp> --text "Hello"
+openclaw nodes canvas a2ui push --node <idOrNameOrIp> --jsonl ./payload.jsonl
+openclaw nodes canvas a2ui reset --node <idOrNameOrIp>
+```
+
+注意事项：
+
+- 仅支持 A2UI v0.8 JSONL（v0.9/createSurface 被拒绝）。
+
+## 照片 + 视频（节点相机）
+
+照片（`jpg`）：
+
+```bash
+openclaw nodes camera list --node <idOrNameOrIp>
+openclaw nodes camera snap --node <idOrNameOrIp>            # 默认：两个朝向（2 个 MEDIA 行）
+openclaw nodes camera snap --node <idOrNameOrIp> --facing front
+```
+
+视频片段（`mp4`）：
+
+```bash
+openclaw nodes camera clip --node <idOrNameOrIp> --duration 10s
+openclaw nodes camera clip --node <idOrNameOrIp> --duration 3000 --no-audio
+```
+
+注意事项：
+
+- 节点必须处于**前台**才能使用 `canvas.*` 和 `camera.*`（后台调用返回 `NODE_BACKGROUND_UNAVAILABLE`）。
+- 片段时长被限制（当前 `<= 60s`）以避免过大的 base64 负载。
+- Android 会在可能时提示 `CAMERA`/`RECORD_AUDIO` 权限；权限被拒绝会以 `*_PERMISSION_REQUIRED` 失败。
+
+## 屏幕录制（节点）
+
+节点暴露 `screen.record`（mp4）。示例：
+
+```bash
+openclaw nodes screen record --node <idOrNameOrIp> --duration 10s --fps 10
+openclaw nodes screen record --node <idOrNameOrIp> --duration 10s --fps 10 --no-audio
+```
+
+注意事项：
+
+- `screen.record` 需要节点应用处于前台。
+- Android 会在录制前显示系统屏幕捕获提示。
+- 屏幕录制被限制为 `<= 60s`。
+- `--no-audio` 禁用麦克风捕获（iOS/Android 支持；macOS 使用系统捕获音频）。
+- 当有多个屏幕可用时，使用 `--screen <index>` 选择显示器。
+
+## 位置（节点）
+
+当在设置中启用位置时，节点暴露 `location.get`。
+
+CLI 辅助工具：
+
+```bash
+openclaw nodes location get --node <idOrNameOrIp>
+openclaw nodes location get --node <idOrNameOrIp> --accuracy precise --max-age 15000 --location-timeout 10000
+```
+
+注意事项：
+
+- 位置**默认关闭**。
+- "始终"需要系统权限；后台获取是尽力而为的。
+- 响应包括纬度/经度、精度（米）和时间戳。
+
+## 短信（Android 节点）
+
+当用户授予 **SMS** 权限且设备支持电话功能时，Android 节点可以暴露 `sms.send`。
+
+低级调用：
+
+```bash
+openclaw nodes invoke --node <idOrNameOrIp> --command sms.send --params '{"to":"+15555550123","message":"Hello from OpenClaw"}'
+```
+
+注意事项：
+
+- 在能力被广播之前，必须在 Android 设备上接受权限提示。
+- 没有电话功能的纯 Wi-Fi 设备不会广播 `sms.send`。
+
+## 系统命令（节点主机 / mac 节点）
+
+macOS 节点暴露 `system.run`、`system.notify` 和 `system.execApprovals.get/set`。
+无头节点主机暴露 `system.run`、`system.which` 和 `system.execApprovals.get/set`。
+
+示例：
+
+```bash
+openclaw nodes run --node <idOrNameOrIp> -- echo "Hello from mac node"
+openclaw nodes notify --node <idOrNameOrIp> --title "Ping" --body "Gateway ready"
+```
+
+注意事项：
+
+- `system.run` 在负载中返回 stdout/stderr/退出码。
+- `system.notify` 遵守 macOS 应用上的通知权限状态。
+- `system.run` 支持 `--cwd`、`--env KEY=VAL`、`--command-timeout` 和 `--needs-screen-recording`。
+- `system.notify` 支持 `--priority <passive|active|timeSensitive>` 和 `--delivery <system|overlay|auto>`。
+- macOS 节点会丢弃 `PATH` 覆盖；无头节点主机仅在 `PATH` 前置到节点主机 PATH 时才接受它。
+- 在 macOS 节点模式下，`system.run` 受 macOS 应用中的 exec 批准限制（设置 → Exec 批准）。
+  Ask/allowlist/full 的行为与无头节点主机相同；被拒绝的提示返回 `SYSTEM_RUN_DENIED`。
+- 在无头节点主机上，`system.run` 受 exec 批准限制（`~/.openclaw/exec-approvals.json`）。
+
+## Exec 节点绑定
+
+当有多个节点可用时，你可以将 exec 绑定到特定节点。
+这设置了 `exec host=node` 的默认节点（可以按智能体覆盖）。
+
+全局默认：
+
+```bash
+openclaw config set tools.exec.node "node-id-or-name"
+```
+
+按智能体覆盖：
+
+```bash
+openclaw config get agents.list
+openclaw config set agents.list[0].tools.exec.node "node-id-or-name"
+```
+
+取消设置以允许任何节点：
+
+```bash
+openclaw config unset tools.exec.node
+openclaw config unset agents.list[0].tools.exec.node
+```
+
+## 权限映射
+
+节点可能在 `node.list` / `node.describe` 中包含 `permissions` 映射，按权限名称（例如 `screenRecording`、`accessibility`）键入，值为布尔值（`true` = 已授予）。
+
+## 无头节点主机（跨平台）
+
+OpenClaw 可以运行**无头节点主机**（无 UI），它连接到 Gateway 网关
+WebSocket 并暴露 `system.run` / `system.which`。这在 Linux/Windows
+上或在服务器旁运行最小节点时很有用。
+
+启动它：
+
+```bash
+openclaw node run --host <gateway-host> --port 18789
+```
+
+注意事项：
+
+- 仍然需要配对（Gateway 网关会显示节点批准提示）。
+- 节点主机将其节点 id、令牌、显示名称和 Gateway 网关连接信息存储在 `~/.openclaw/node.json` 中。
+- Exec 批准通过 `~/.openclaw/exec-approvals.json` 在本地执行
+  （参见 [Exec 批准](/tools/exec-approvals)）。
+- 在 macOS 上，当配套应用 exec 主机可达时，无头节点主机优先使用它，
+  如果应用不可用则回退到本地执行。设置 `OPENCLAW_NODE_EXEC_HOST=app` 要求
+  使用应用，或设置 `OPENCLAW_NODE_EXEC_FALLBACK=0` 禁用回退。
+- 当 Gateway 网关 WS 使用 TLS 时，添加 `--tls` / `--tls-fingerprint`。
+
+## Mac 节点模式
+
+- macOS 菜单栏应用作为节点连接到 Gateway 网关 WS 服务器（因此 `openclaw nodes …` 可以针对这台 Mac 工作）。
+- 在远程模式下，应用为 Gateway 网关端口打开 SSH 隧道并连接到 `localhost`。
--- a/content/nodes/location-command.md
+++ b/content/nodes/location-command.md
@@ -0,0 +1,120 @@
+---
+read_when:
+  - 添加位置节点支持或权限 UI
+  - 设计后台位置 + 推送流程
+summary: 节点的位置命令（location.get）、权限模式和后台行为
+title: 位置命令
+x-i18n:
+  generated_at: "2026-02-03T07:50:59Z"
+  model: claude-opus-4-5
+  provider: pi
+  source_hash: 23124096256384d2b28157352b072309c61c970a20e009aac5ce4a8250dc3764
+  source_path: nodes/location-command.md
+  workflow: 15
+---
+
+# 位置命令（节点）
+
+## 简要概述
+
+- `location.get` 是一个节点命令（通过 `node.invoke`）。
+- 默认关闭。
+- 设置使用选择器：关闭 / 使用时 / 始终。
+- 单独的开关：精确位置。
+
+## 为什么用选择器（而不只是开关）
+
+操作系统权限是多级的。我们可以在应用内暴露选择器，但操作系统仍然决定实际授权。
+
+- iOS/macOS：用户可以在系统提示/设置中选择**使用时**或**始终**。应用可以请求升级，但操作系统可能要求进入设置。
+- Android：后台位置是单独的权限；在 Android 10+ 上通常需要进入设置流程。
+- 精确位置是单独的授权（iOS 14+ "精确"，Android "精细" vs "粗略"）。
+
+UI 中的选择器驱动我们请求的模式；实际授权存在于操作系统设置中。
+
+## 设置模型
+
+每个节点设备：
+
+- `location.enabledMode`：`off | whileUsing | always`
+- `location.preciseEnabled`：bool
+
+UI 行为：
+
+- 选择 `whileUsing` 请求前台权限。
+- 选择 `always` 首先确保 `whileUsing`，然后请求后台（或在需要时将用户引导到设置）。
+- 如果操作系统拒绝请求的级别，回退到已授予的最高级别并显示状态。
+
+## 权限映射（node.permissions）
+
+可选。macOS 节点通过权限映射报告 `location`；iOS/Android 可能省略它。
+
+## 命令：`location.get`
+
+通过 `node.invoke` 调用。
+
+参数（建议）：
+
+```json
+{
+  "timeoutMs": 10000,
+  "maxAgeMs": 15000,
+  "desiredAccuracy": "coarse|balanced|precise"
+}
+```
+
+响应负载：
+
+```json
+{
+  "lat": 48.20849,
+  "lon": 16.37208,
+  "accuracyMeters": 12.5,
+  "altitudeMeters": 182.0,
+  "speedMps": 0.0,
+  "headingDeg": 270.0,
+  "timestamp": "2026-01-03T12:34:56.000Z",
+  "isPrecise": true,
+  "source": "gps|wifi|cell|unknown"
+}
+```
+
+错误（稳定代码）：
+
+- `LOCATION_DISABLED`：选择器已关闭。
+- `LOCATION_PERMISSION_REQUIRED`：缺少请求模式的权限。
+- `LOCATION_BACKGROUND_UNAVAILABLE`：应用在后台但只允许使用时。
+- `LOCATION_TIMEOUT`：在时间内没有定位。
+- `LOCATION_UNAVAILABLE`：系统故障/没有提供商。
+
+## 后台行为（未来）
+
+目标：模型可以在节点处于后台时请求位置，但仅当：
+
+- 用户选择了**始终**。
+- 操作系统授予后台位置权限。
+- 应用被允许在后台运行以获取位置（iOS 后台模式/Android 前台服务或特殊许可）。
+
+推送触发流程（未来）：
+
+1. Gateway 网关向节点发送推送（静默推送或 FCM 数据）。
+2. 节点短暂唤醒并从设备请求位置。
+3. 节点将负载转发给 Gateway 网关。
+
+说明：
+
+- iOS：需要始终权限 + 后台位置模式。静默推送可能被限流；预期会有间歇性失败。
+- Android：后台位置可能需要前台服务；否则预期会被拒绝。
+
+## 模型/工具集成
+
+- 工具接口：`nodes` 工具添加 `location_get` 操作（需要节点）。
+- CLI：`openclaw nodes location get --node <id>`。
+- 智能体指南：仅在用户启用位置并理解范围时调用。
+
+## UX 文案（建议）
+
+- 关闭："位置共享已禁用。"
+- 使用时："仅当 OpenClaw 打开时。"
+- 始终："允许后台位置。需要系统权限。"
+- 精确："使用精确 GPS 位置。关闭以共享大致位置。"
--- a/content/nodes/media-understanding.md
+++ b/content/nodes/media-understanding.md
@@ -0,0 +1,380 @@
+---
+read_when:
+  - 设计或重构媒体理解
+  - 调优入站音频/视频/图片预处理
+summary: 入站图片/音频/视频理解（可选），带提供商 + CLI 回退
+title: 媒体理解
+x-i18n:
+  generated_at: "2026-02-03T07:51:40Z"
+  model: claude-opus-4-5
+  provider: pi
+  source_hash: f6c575662b7fcbf0b62c46e3fdfa4cdb7cfd455513097e4a2cdec8a34cbdbd48
+  source_path: nodes/media-understanding.md
+  workflow: 15
+---
+
+# 媒体理解（入站）— 2026-01-17
+
+OpenClaw 可以在回复流程运行之前**摘要入站媒体**（图片/音频/视频）。它会自动检测本地工具或提供商密钥是否可用，并且可以禁用或自定义。如果理解关闭，模型仍然会像往常一样接收原始文件/URL。
+
+## 目标
+
+- 可选：将入站媒体预先消化为短文本，以便更快路由 + 更好的命令解析。
+- 保留原始媒体传递给模型（始终）。
+- 支持**提供商 API** 和 **CLI 回退**。
+- 允许多个模型并按顺序回退（错误/大小/超时）。
+
+## 高层行为
+
+1. 收集入站附件（`MediaPaths`、`MediaUrls`、`MediaTypes`）。
+2. 对于每个启用的能力（图片/音频/视频），根据策略选择附件（默认：**第一个**）。
+3. 选择第一个符合条件的模型条目（大小 + 能力 + 认证）。
+4. 如果模型失败或媒体太大，**回退到下一个条目**。
+5. 成功时：
+   - `Body` 变为 `[Image]`、`[Audio]` 或 `[Video]` 块。
+   - 音频设置 `{{Transcript}}`；命令解析在有标题文本时使用标题文本，否则使用转录。
+   - 标题作为 `User text:` 保留在块内。
+
+如果理解失败或被禁用，**回复流程继续**使用原始正文 + 附件。
+
+## 配置概述
+
+`tools.media` 支持**共享模型**加上每能力覆盖：
+
+- `tools.media.models`：共享模型列表（使用 `capabilities` 来限定）。
+- `tools.media.image` / `tools.media.audio` / `tools.media.video`：
+  - 默认值（`prompt`、`maxChars`、`maxBytes`、`timeoutSeconds`、`language`）
+  - 提供商覆盖（`baseUrl`、`headers`、`providerOptions`）
+  - 通过 `tools.media.audio.providerOptions.deepgram` 配置 Deepgram 音频选项
+  - 可选的**每能力 `models` 列表**（优先于共享模型）
+  - `attachments` 策略（`mode`、`maxAttachments`、`prefer`）
+  - `scope`（可选的按渠道/聊天类型/会话键限定）
+- `tools.media.concurrency`：最大并发能力运行数（默认 **2**）。
+
+```json5
+{
+  tools: {
+    media: {
+      models: [
+        /* 共享列表 */
+      ],
+      image: {
+        /* 可选覆盖 */
+      },
+      audio: {
+        /* 可选覆盖 */
+      },
+      video: {
+        /* 可选覆盖 */
+      },
+    },
+  },
+}
+```
+
+### 模型条目
+
+每个 `models[]` 条目可以是**提供商**或 **CLI**：
+
+```json5
+{
+  type: "provider", // 省略时默认
+  provider: "openai",
+  model: "gpt-5.2",
+  prompt: "Describe the image in <= 500 chars.",
+  maxChars: 500,
+  maxBytes: 10485760,
+  timeoutSeconds: 60,
+  capabilities: ["image"], // 可选，用于多模态条目
+  profile: "vision-profile",
+  preferredProfile: "vision-fallback",
+}
+```
+
+```json5
+{
+  type: "cli",
+  command: "gemini",
+  args: [
+    "-m",
+    "gemini-3-flash",
+    "--allowed-tools",
+    "read_file",
+    "Read the media at {{MediaPath}} and describe it in <= {{MaxChars}} characters.",
+  ],
+  maxChars: 500,
+  maxBytes: 52428800,
+  timeoutSeconds: 120,
+  capabilities: ["video", "image"],
+}
+```
+
+CLI 模板还可以使用：
+
+- `{{MediaDir}}`（包含媒体文件的目录）
+- `{{OutputDir}}`（为本次运行创建的临时目录）
+- `{{OutputBase}}`（临时文件基础路径，无扩展名）
+
+## 默认值和限制
+
+推荐默认值：
+
+- `maxChars`：图片/视频为 **500**（简短，适合命令）
+- `maxChars`：音频**不设置**（完整转录，除非你设置限制）
+- `maxBytes`：
+  - 图片：**10MB**
+  - 音频：**20MB**
+  - 视频：**50MB**
+
+规则：
+
+- 如果媒体超过 `maxBytes`，该模型被跳过，**尝试下一个模型**。
+- 如果模型返回超过 `maxChars`，输出被截断。
+- `prompt` 默认为简单的"Describe the {media}."加上 `maxChars` 指导（仅图片/视频）。
+- 如果 `<capability>.enabled: true` 但未配置模型，当提供商支持该能力时，OpenClaw 尝试**活动的回复模型**。
+
+### 自动检测媒体理解（默认）
+
+如果 `tools.media.<capability>.enabled` **未**设置为 `false` 且你没有配置模型，OpenClaw 按以下顺序自动检测并**在第一个可用选项处停止**：
+
+1. **本地 CLI**（仅音频；如果已安装）
+   - `sherpa-onnx-offline`（需要带有 encoder/decoder/joiner/tokens 的 `SHERPA_ONNX_MODEL_DIR`）
+   - `whisper-cli`（`whisper-cpp`；使用 `WHISPER_CPP_MODEL` 或捆绑的 tiny 模型）
+   - `whisper`（Python CLI；自动下载模型）
+2. **Gemini CLI**（`gemini`）使用 `read_many_files`
+3. **提供商密钥**
+   - 音频：OpenAI → Groq → Deepgram → Google
+   - 图片：OpenAI → Anthropic → Google → MiniMax
+   - 视频：Google
+
+要禁用自动检测，设置：
+
+```json5
+{
+  tools: {
+    media: {
+      audio: {
+        enabled: false,
+      },
+    },
+  },
+}
+```
+
+注意：二进制文件检测在 macOS/Linux/Windows 上是尽力而为的；确保 CLI 在 `PATH` 上（我们会展开 `~`），或设置带有完整命令路径的显式 CLI 模型。
+
+## 能力（可选）
+
+如果你设置了 `capabilities`，该条目仅对这些媒体类型运行。对于共享列表，OpenClaw 可以推断默认值：
+
+- `openai`、`anthropic`、`minimax`：**图片**
+- `google`（Gemini API）：**图片 + 音频 + 视频**
+- `groq`：**音频**
+- `deepgram`：**音频**
+
+对于 CLI 条目，**显式设置 `capabilities`** 以避免意外匹配。如果你省略 `capabilities`，该条目对它出现的列表都符合条件。
+
+## 提供商支持矩阵（OpenClaw 集成）
+
+| 能力 | 提供商集成                                     | 说明                                    |
+| ---- | ---------------------------------------------- | --------------------------------------- |
+| 图片 | OpenAI / Anthropic / Google / 其他通过 `pi-ai` | 注册表中任何支持图片的模型都可用。      |
+| 音频 | OpenAI、Groq、Deepgram、Google                 | 提供商转录（Whisper/Deepgram/Gemini）。 |
+| 视频 | Google（Gemini API）                           | 提供商视频理解。                        |
+
+## 推荐提供商
+
+**图片**
+
+- 如果支持图片，优先使用你的活动模型。
+- 良好的默认值：`openai/gpt-5.2`、`anthropic/claude-opus-4-5`、`google/gemini-3-pro-preview`。
+
+**音频**
+
+- `openai/gpt-4o-mini-transcribe`、`groq/whisper-large-v3-turbo` 或 `deepgram/nova-3`。
+- CLI 回退：`whisper-cli`（whisper-cpp）或 `whisper`。
+- Deepgram 设置：[Deepgram（音频转录）](/providers/deepgram)。
+
+**视频**
+
+- `google/gemini-3-flash-preview`（快速）、`google/gemini-3-pro-preview`（更丰富）。
+- CLI 回退：`gemini` CLI（支持对视频/音频使用 `read_file`）。
+
+## 附件策略
+
+每能力的 `attachments` 控制处理哪些附件：
+
+- `mode`：`first`（默认）或 `all`
+- `maxAttachments`：限制处理数量（默认 **1**）
+- `prefer`：`first`、`last`、`path`、`url`
+
+当 `mode: "all"` 时，输出标记为 `[Image 1/2]`、`[Audio 2/2]` 等。
+
+## 配置示例
+
+### 1) 共享模型列表 + 覆盖
+
+```json5
+{
+  tools: {
+    media: {
+      models: [
+        { provider: "openai", model: "gpt-5.2", capabilities: ["image"] },
+        {
+          provider: "google",
+          model: "gemini-3-flash-preview",
+          capabilities: ["image", "audio", "video"],
+        },
+        {
+          type: "cli",
+          command: "gemini",
+          args: [
+            "-m",
+            "gemini-3-flash",
+            "--allowed-tools",
+            "read_file",
+            "Read the media at {{MediaPath}} and describe it in <= {{MaxChars}} characters.",
+          ],
+          capabilities: ["image", "video"],
+        },
+      ],
+      audio: {
+        attachments: { mode: "all", maxAttachments: 2 },
+      },
+      video: {
+        maxChars: 500,
+      },
+    },
+  },
+}
+```
+
+### 2) 仅音频 + 视频（图片关闭）
+
+```json5
+{
+  tools: {
+    media: {
+      audio: {
+        enabled: true,
+        models: [
+          { provider: "openai", model: "gpt-4o-mini-transcribe" },
+          {
+            type: "cli",
+            command: "whisper",
+            args: ["--model", "base", "{{MediaPath}}"],
+          },
+        ],
+      },
+      video: {
+        enabled: true,
+        maxChars: 500,
+        models: [
+          { provider: "google", model: "gemini-3-flash-preview" },
+          {
+            type: "cli",
+            command: "gemini",
+            args: [
+              "-m",
+              "gemini-3-flash",
+              "--allowed-tools",
+              "read_file",
+              "Read the media at {{MediaPath}} and describe it in <= {{MaxChars}} characters.",
+            ],
+          },
+        ],
+      },
+    },
+  },
+}
+```
+
+### 3) 可选图片理解
+
+```json5
+{
+  tools: {
+    media: {
+      image: {
+        enabled: true,
+        maxBytes: 10485760,
+        maxChars: 500,
+        models: [
+          { provider: "openai", model: "gpt-5.2" },
+          { provider: "anthropic", model: "claude-opus-4-5" },
+          {
+            type: "cli",
+            command: "gemini",
+            args: [
+              "-m",
+              "gemini-3-flash",
+              "--allowed-tools",
+              "read_file",
+              "Read the media at {{MediaPath}} and describe it in <= {{MaxChars}} characters.",
+            ],
+          },
+        ],
+      },
+    },
+  },
+}
+```
+
+### 4) 多模态单条目（显式能力）
+
+```json5
+{
+  tools: {
+    media: {
+      image: {
+        models: [
+          {
+            provider: "google",
+            model: "gemini-3-pro-preview",
+            capabilities: ["image", "video", "audio"],
+          },
+        ],
+      },
+      audio: {
+        models: [
+          {
+            provider: "google",
+            model: "gemini-3-pro-preview",
+            capabilities: ["image", "video", "audio"],
+          },
+        ],
+      },
+      video: {
+        models: [
+          {
+            provider: "google",
+            model: "gemini-3-pro-preview",
+            capabilities: ["image", "video", "audio"],
+          },
+        ],
+      },
+    },
+  },
+}
+```
+
+## 状态输出
+
+当媒体理解运行时，`/status` 包含一行简短摘要：
+
+```
+📎 Media: image ok (openai/gpt-5.2) · audio skipped (maxBytes)
+```
+
+这显示每能力的结果以及适用时选择的提供商/模型。
+
+## 注意事项
+
+- 理解是**尽力而为**的。错误不会阻止回复。
+- 即使理解被禁用，附件仍然传递给模型。
+- 使用 `scope` 限制理解运行的位置（例如仅私信）。
+
+## 相关文档
+
+- [配置](/gateway/configuration)
+- [图片和媒体支持](/nodes/images)
--- a/content/nodes/talk.md
+++ b/content/nodes/talk.md
@@ -0,0 +1,97 @@
+---
+read_when:
+  - 在 macOS/iOS/Android 上实现 Talk 模式
+  - 更改语音/TTS/中断行为
+summary: Talk 模式：使用 ElevenLabs TTS 进行连续语音对话
+title: Talk 模式
+x-i18n:
+  generated_at: "2026-02-03T10:07:59Z"
+  model: claude-opus-4-5
+  provider: pi
+  source_hash: ecbc3701c9e9502970cf13227fedbc9714d13668d8f4f3988fef2a4d68116a42
+  source_path: nodes/talk.md
+  workflow: 15
+---
+
+# Talk 模式
+
+Talk 模式是一个连续的语音对话循环：
+
+1. 监听语音
+2. 将转录文本发送到模型（main 会话，chat.send）
+3. 等待响应
+4. 通过 ElevenLabs 朗读（流式播放）
+
+## 行为（macOS）
+
+- Talk 模式启用时显示**常驻悬浮窗**。
+- **监听 → 思考 → 朗读**阶段转换。
+- **短暂停顿**（静音窗口）后，当前转录文本被发送。
+- 回复被**写入 WebChat**（与打字相同）。
+- **语音中断**（默认开启）：如果用户在助手朗读时开始说话，我们会停止播放并记录中断时间戳供下一个提示使用。
+
+## 回复中的语音指令
+
+助手可以在回复前添加**单行 JSON** 来控制语音：
+
+```json
+{ "voice": "<voice-id>", "once": true }
+```
+
+规则：
+
+- 仅适用于第一个非空行。
+- 未知键会被忽略。
+- `once: true` 仅适用于当前回复。
+- 没有 `once` 时，该语音成为 Talk 模式的新默认值。
+- JSON 行在 TTS 播放前会被移除。
+
+支持的键：
+
+- `voice` / `voice_id` / `voiceId`
+- `model` / `model_id` / `modelId`
+- `speed`、`rate`（WPM）、`stability`、`similarity`、`style`、`speakerBoost`
+- `seed`、`normalize`、`lang`、`output_format`、`latency_tier`
+- `once`
+
+## 配置（`~/.openclaw/openclaw.json`）
+
+```json5
+{
+  talk: {
+    voiceId: "elevenlabs_voice_id",
+    modelId: "eleven_v3",
+    outputFormat: "mp3_44100_128",
+    apiKey: "elevenlabs_api_key",
+    interruptOnSpeech: true,
+  },
+}
+```
+
+默认值：
+
+- `interruptOnSpeech`：true
+- `voiceId`：回退到 `ELEVENLABS_VOICE_ID` / `SAG_VOICE_ID`（或当 API 密钥可用时使用第一个 ElevenLabs 语音）
+- `modelId`：未设置时默认为 `eleven_v3`
+- `apiKey`：回退到 `ELEVENLABS_API_KEY`（或 Gateway 网关 shell profile（如果可用））
+- `outputFormat`：macOS/iOS 上默认为 `pcm_44100`，Android 上默认为 `pcm_24000`（设置 `mp3_*` 以强制 MP3 流式传输）
+
+## macOS UI
+
+- 菜单栏切换：**Talk**
+- 配置标签页：**Talk Mode** 组（voice id + 中断开关）
+- 悬浮窗：
+  - **监听**：云朵随麦克风电平脉动
+  - **思考**：下沉动画
+  - **朗读**：辐射圆环
+  - 点击云朵：停止朗读
+  - 点击 X：退出 Talk 模式
+
+## 注意事项
+
+- 需要语音 + 麦克风权限。
+- 使用 `chat.send` 针对会话键 `main`。
+- TTS 使用带有 `ELEVENLABS_API_KEY` 的 ElevenLabs 流式 API，并在 macOS/iOS/Android 上进行增量播放以降低延迟。
+- `eleven_v3` 的 `stability` 验证为 `0.0`、`0.5` 或 `1.0`；其他模型接受 `0..1`。
+- 设置时 `latency_tier` 验证为 `0..4`。
+- Android 支持 `pcm_16000`、`pcm_22050`、`pcm_24000` 和 `pcm_44100` 输出格式，用于低延迟 AudioTrack 流式传输。
--- a/content/nodes/troubleshooting.md
+++ b/content/nodes/troubleshooting.md
@@ -0,0 +1,8 @@
+---
+summary: 节点故障排查：排查配对、前台限制、权限与工具调用失败
+title: 节点故障排查
+---
+
+# 节点故障排查
+
+该页面是英文文档的中文占位版本，完整内容请先参考英文版：[Node Troubleshooting](/nodes/troubleshooting)。
--- a/content/nodes/tts.md
+++ b/content/nodes/tts.md
@@ -0,0 +1,375 @@
+---
+read_when:
+  - 为回复启用文本转语音
+  - 配置 TTS 提供商或限制
+  - 使用 /tts 命令
+summary: 出站回复的文本转语音（TTS）
+title: 文本转语音
+x-i18n:
+  generated_at: "2026-02-03T10:13:55Z"
+  model: claude-opus-4-5
+  provider: pi
+  source_hash: 070ff0cc8592f64c6c9e4ddaddc7e8fba82f0692ceded6fe833ec9ba5b61e6fb
+  source_path: tts.md
+  workflow: 15
+---
+
+# 文本转语音（TTS）
+
+OpenClaw 可以使用 ElevenLabs、OpenAI 或 Edge TTS 将出站回复转换为音频。它可以在任何 OpenClaw 能发送音频的地方工作；Telegram 会显示圆形语音消息气泡。
+
+## 支持的服务
+
+- **ElevenLabs**（主要或备用提供商）
+- **OpenAI**（主要或备用提供商；也用于摘要）
+- **Edge TTS**（主要或备用提供商；使用 `node-edge-tts`，无 API 密钥时为默认）
+
+### Edge TTS 注意事项
+
+Edge TTS 通过 `node-edge-tts` 库使用 Microsoft Edge 的在线神经网络 TTS 服务。它是托管服务（非本地），使用 Microsoft 的端点，不需要 API 密钥。`node-edge-tts` 公开了语音配置选项和输出格式，但并非所有选项都被 Edge 服务支持。citeturn2search0
+
+由于 Edge TTS 是一个没有公布 SLA 或配额的公共 Web 服务，请将其视为尽力而为。如果你需要有保证的限制和支持，请使用 OpenAI 或 ElevenLabs。Microsoft 的语音 REST API 记录了每个请求 10 分钟的音频限制；Edge TTS 没有公布限制，所以假设类似或更低的限制。citeturn0search3
+
+## 可选密钥
+
+如果你想使用 OpenAI 或 ElevenLabs：
+
+- `ELEVENLABS_API_KEY`（或 `XI_API_KEY`）
+- `OPENAI_API_KEY`
+
+Edge TTS **不**需要 API 密钥。如果没有找到 API 密钥，OpenClaw 默认使用 Edge TTS（除非通过 `messages.tts.edge.enabled=false` 禁用）。
+
+如果配置了多个提供商，首先使用选定的提供商，其他作为备用选项。自动摘要使用配置的 `summaryModel`（或 `agents.defaults.model.primary`），所以如果你启用摘要，该提供商也必须经过认证。
+
+## 服务链接
+
+- [OpenAI 文本转语音指南](https://platform.openai.com/docs/guides/text-to-speech)
+- [OpenAI 音频 API 参考](https://platform.openai.com/docs/api-reference/audio)
+- [ElevenLabs 文本转语音](https://elevenlabs.io/docs/api-reference/text-to-speech)
+- [ElevenLabs 认证](https://elevenlabs.io/docs/api-reference/authentication)
+- [node-edge-tts](https://github.com/SchneeHertz/node-edge-tts)
+- [Microsoft 语音输出格式](https://learn.microsoft.com/azure/ai-services/speech-service/rest-text-to-speech#audio-outputs)
+
+## 默认启用吗？
+
+不是。自动 TTS 默认**关闭**。在配置中使用 `messages.tts.auto` 或在每个会话中使用 `/tts always`（别名：`/tts on`）启用它。
+
+一旦 TTS 开启，Edge TTS **是**默认启用的，并在没有 OpenAI 或 ElevenLabs API 密钥时自动使用。
+
+## 配置
+
+TTS 配置位于 `openclaw.json` 中的 `messages.tts` 下。完整 schema 在 [Gateway 网关配置](/gateway/configuration)中。
+
+### 最小配置（启用 + 提供商）
+
+```json5
+{
+  messages: {
+    tts: {
+      auto: "always",
+      provider: "elevenlabs",
+    },
+  },
+}
+```
+
+### OpenAI 主要，ElevenLabs 备用
+
+```json5
+{
+  messages: {
+    tts: {
+      auto: "always",
+      provider: "openai",
+      summaryModel: "openai/gpt-4.1-mini",
+      modelOverrides: {
+        enabled: true,
+      },
+      openai: {
+        apiKey: "openai_api_key",
+        model: "gpt-4o-mini-tts",
+        voice: "alloy",
+      },
+      elevenlabs: {
+        apiKey: "elevenlabs_api_key",
+        baseUrl: "https://api.elevenlabs.io",
+        voiceId: "voice_id",
+        modelId: "eleven_multilingual_v2",
+        seed: 42,
+        applyTextNormalization: "auto",
+        languageCode: "en",
+        voiceSettings: {
+          stability: 0.5,
+          similarityBoost: 0.75,
+          style: 0.0,
+          useSpeakerBoost: true,
+          speed: 1.0,
+        },
+      },
+    },
+  },
+}
+```
+
+### Edge TTS 主要（无 API 密钥）
+
+```json5
+{
+  messages: {
+    tts: {
+      auto: "always",
+      provider: "edge",
+      edge: {
+        enabled: true,
+        voice: "en-US-MichelleNeural",
+        lang: "en-US",
+        outputFormat: "audio-24khz-48kbitrate-mono-mp3",
+        rate: "+10%",
+        pitch: "-5%",
+      },
+    },
+  },
+}
+```
+
+### 禁用 Edge TTS
+
+```json5
+{
+  messages: {
+    tts: {
+      edge: {
+        enabled: false,
+      },
+    },
+  },
+}
+```
+
+### 自定义限制 + 偏好路径
+
+```json5
+{
+  messages: {
+    tts: {
+      auto: "always",
+      maxTextLength: 4000,
+      timeoutMs: 30000,
+      prefsPath: "~/.openclaw/settings/tts.json",
+    },
+  },
+}
+```
+
+### 仅在收到语音消息后用音频回复
+
+```json5
+{
+  messages: {
+    tts: {
+      auto: "inbound",
+    },
+  },
+}
+```
+
+### 禁用长回复的自动摘要
+
+```json5
+{
+  messages: {
+    tts: {
+      auto: "always",
+    },
+  },
+}
+```
+
+然后运行：
+
+```
+/tts summary off
+```
+
+### 字段说明
+
+- `auto`：自动 TTS 模式（`off`、`always`、`inbound`、`tagged`）。
+  - `inbound` 仅在收到语音消息后发送音频。
+  - `tagged` 仅在回复包含 `[[tts]]` 标签时发送音频。
+- `enabled`：旧版开关（doctor 将其迁移到 `auto`）。
+- `mode`：`"final"`（默认）或 `"all"`（包括工具/分块回复）。
+- `provider`：`"elevenlabs"`、`"openai"` 或 `"edge"`（自动备用）。
+- 如果 `provider` **未设置**，OpenClaw 优先选择 `openai`（如果有密钥），然后是 `elevenlabs`（如果有密钥），否则是 `edge`。
+- `summaryModel`：用于自动摘要的可选廉价模型；默认为 `agents.defaults.model.primary`。
+  - 接受 `provider/model` 或配置的模型别名。
+- `modelOverrides`：允许模型发出 TTS 指令（默认开启）。
+- `maxTextLength`：TTS 输入的硬性上限（字符）。超出时 `/tts audio` 会失败。
+- `timeoutMs`：请求超时（毫秒）。
+- `prefsPath`：覆盖本地偏好 JSON 路径（提供商/限制/摘要）。
+- `apiKey` 值回退到环境变量（`ELEVENLABS_API_KEY`/`XI_API_KEY`、`OPENAI_API_KEY`）。
+- `elevenlabs.baseUrl`：覆盖 ElevenLabs API 基础 URL。
+- `elevenlabs.voiceSettings`：
+  - `stability`、`similarityBoost`、`style`：`0..1`
+  - `useSpeakerBoost`：`true|false`
+  - `speed`：`0.5..2.0`（1.0 = 正常）
+- `elevenlabs.applyTextNormalization`：`auto|on|off`
+- `elevenlabs.languageCode`：2 字母 ISO 639-1（例如 `en`、`de`）
+- `elevenlabs.seed`：整数 `0..4294967295`（尽力确定性）
+- `edge.enabled`：允许 Edge TTS 使用（默认 `true`；无 API 密钥）。
+- `edge.voice`：Edge 神经网络语音名称（例如 `en-US-MichelleNeural`）。
+- `edge.lang`：语言代码（例如 `en-US`）。
+- `edge.outputFormat`：Edge 输出格式（例如 `audio-24khz-48kbitrate-mono-mp3`）。
+  - 有效值参见 Microsoft 语音输出格式；并非所有格式都被 Edge 支持。
+- `edge.rate` / `edge.pitch` / `edge.volume`：百分比字符串（例如 `+10%`、`-5%`）。
+- `edge.saveSubtitles`：在音频文件旁边写入 JSON 字幕。
+- `edge.proxy`：Edge TTS 请求的代理 URL。
+- `edge.timeoutMs`：请求超时覆盖（毫秒）。
+
+## 模型驱动覆盖（默认开启）
+
+默认情况下，模型**可以**为单个回复发出 TTS 指令。当 `messages.tts.auto` 为 `tagged` 时，需要这些指令来触发音频。
+
+启用后，模型可以发出 `[[tts:...]]` 指令来覆盖单个回复的语音，加上可选的 `[[tts:text]]...[[/tts:text]]` 块来提供表达性标签（笑声、唱歌提示等），这些仅应出现在音频中。
+
+示例回复负载：
+
+```
+Here you go.
+
+[[tts:provider=elevenlabs voiceId=pMsXgVXv3BLzUgSXRplE model=eleven_v3 speed=1.1]]
+[[tts:text]](laughs) Read the song once more.[[/tts:text]]
+```
+
+可用指令键（启用时）：
+
+- `provider`（`openai` | `elevenlabs` | `edge`）
+- `voice`（OpenAI 语音）或 `voiceId`（ElevenLabs）
+- `model`（OpenAI TTS 模型或 ElevenLabs 模型 ID）
+- `stability`、`similarityBoost`、`style`、`speed`、`useSpeakerBoost`
+- `applyTextNormalization`（`auto|on|off`）
+- `languageCode`（ISO 639-1）
+- `seed`
+
+禁用所有模型覆盖：
+
+```json5
+{
+  messages: {
+    tts: {
+      modelOverrides: {
+        enabled: false,
+      },
+    },
+  },
+}
+```
+
+可选白名单（禁用特定覆盖同时保持标签启用）：
+
+```json5
+{
+  messages: {
+    tts: {
+      modelOverrides: {
+        enabled: true,
+        allowProvider: false,
+        allowSeed: false,
+      },
+    },
+  },
+}
+```
+
+## 单用户偏好
+
+斜杠命令将本地覆盖写入 `prefsPath`（默认：`~/.openclaw/settings/tts.json`，可通过 `OPENCLAW_TTS_PREFS` 或 `messages.tts.prefsPath` 覆盖）。
+
+存储的字段：
+
+- `enabled`
+- `provider`
+- `maxLength`（摘要阈值；默认 1500 字符）
+- `summarize`（默认 `true`）
+
+这些为该主机覆盖 `messages.tts.*`。
+
+## 输出格式（固定）
+
+- **Telegram**：Opus 语音消息（ElevenLabs 的 `opus_48000_64`，OpenAI 的 `opus`）。
+  - 48kHz / 64kbps 是语音消息的良好权衡，圆形气泡所必需。
+- **其他渠道**：MP3（ElevenLabs 的 `mp3_44100_128`，OpenAI 的 `mp3`）。
+  - 44.1kHz / 128kbps 是语音清晰度的默认平衡。
+- **Edge TTS**：使用 `edge.outputFormat`（默认 `audio-24khz-48kbitrate-mono-mp3`）。
+  - `node-edge-tts` 接受 `outputFormat`，但并非所有格式都可从 Edge 服务获得。citeturn2search0
+  - 输出格式值遵循 Microsoft 语音输出格式（包括 Ogg/WebM Opus）。citeturn1search0
+  - Telegram `sendVoice` 接受 OGG/MP3/M4A；如果你需要有保证的 Opus 语音消息，请使用 OpenAI/ElevenLabs。citeturn1search1
+  - 如果配置的 Edge 输出格式失败，OpenClaw 会使用 MP3 重试。
+
+OpenAI/ElevenLabs 格式是固定的；Telegram 期望 Opus 以获得语音消息用户体验。
+
+## 自动 TTS 行为
+
+启用后，OpenClaw：
+
+- 如果回复已包含媒体或 `MEDIA:` 指令，则跳过 TTS。
+- 跳过非常短的回复（< 10 字符）。
+- 启用时使用 `agents.defaults.model.primary`（或 `summaryModel`）对长回复进行摘要。
+- 将生成的音频附加到回复中。
+
+如果回复超过 `maxLength` 且摘要关闭（或没有摘要模型的 API 密钥），则跳过音频并发送正常的文本回复。
+
+## 流程图
+
+```
+回复 -> TTS 启用？
+  否  -> 发送文本
+  是  -> 有媒体 / MEDIA: / 太短？
+          是 -> 发送文本
+          否 -> 长度 > 限制？
+                   否  -> TTS -> 附加音频
+                   是  -> 摘要启用？
+                            否  -> 发送文本
+                            是  -> 摘要（summaryModel 或 agents.defaults.model.primary）
+                                      -> TTS -> 附加音频
+```
+
+## 斜杠命令用法
+
+只有一个命令：`/tts`。参见[斜杠命令](/tools/slash-commands)了解启用详情。
+
+Discord 注意：`/tts` 是 Discord 的内置命令，所以 OpenClaw 在那里注册 `/voice` 作为原生命令。文本 `/tts ...` 仍然有效。
+
+```
+/tts off
+/tts always
+/tts inbound
+/tts tagged
+/tts status
+/tts provider openai
+/tts limit 2000
+/tts summary off
+/tts audio Hello from OpenClaw
+```
+
+注意事项：
+
+- 命令需要授权发送者（白名单/所有者规则仍然适用）。
+- 必须启用 `commands.text` 或原生命令注册。
+- `off|always|inbound|tagged` 是单会话开关（`/tts on` 是 `/tts always` 的别名）。
+- `limit` 和 `summary` 存储在本地偏好中，不在主配置中。
+- `/tts audio` 生成一次性音频回复（不会开启 TTS）。
+
+## 智能体工具
+
+`tts` 工具将文本转换为语音并返回 `MEDIA:` 路径。当结果与 Telegram 兼容时，工具包含 `[[audio_as_voice]]`，以便 Telegram 发送语音气泡。
+
+## Gateway 网关 RPC
+
+Gateway 网关方法：
+
+- `tts.status`
+- `tts.enable`
+- `tts.disable`
+- `tts.convert`
+- `tts.setProvider`
+- `tts.providers`
--- a/content/nodes/voicewake.md
+++ b/content/nodes/voicewake.md
@@ -0,0 +1,72 @@
+---
+read_when:
+  - 更改语音唤醒词行为或默认值
+  - 添加需要唤醒词同步的新节点平台
+summary: 全局语音唤醒词（Gateway 网关拥有）及其如何跨节点同步
+title: 语音唤醒
+x-i18n:
+  generated_at: "2026-02-03T07:51:10Z"
+  model: claude-opus-4-5
+  provider: pi
+  source_hash: eb34f52dfcdc3fc1ae088ae1f621f245546d3cf388299fbeea62face61788c37
+  source_path: nodes/voicewake.md
+  workflow: 15
+---
+
+# 语音唤醒（全局唤醒词）
+
+OpenClaw 将**唤醒词作为单一全局列表**，由 **Gateway 网关**拥有。
+
+- **没有**每节点的自定义唤醒词。
+- **任何节点/应用 UI 都可以编辑**列表；更改由 Gateway 网关持久化并广播给所有人。
+- 每个设备仍保留自己的**语音唤醒启用/禁用**开关（本地用户体验 + 权限不同）。
+
+## 存储（Gateway 网关主机）
+
+唤醒词存储在 Gateway 网关机器上：
+
+- `~/.openclaw/settings/voicewake.json`
+
+结构：
+
+```json
+{ "triggers": ["openclaw", "claude", "computer"], "updatedAtMs": 1730000000000 }
+```
+
+## 协议
+
+### 方法
+
+- `voicewake.get` → `{ triggers: string[] }`
+- `voicewake.set`，参数 `{ triggers: string[] }` → `{ triggers: string[] }`
+
+注意事项：
+
+- 触发词会被规范化（修剪空格、删除空值）。空列表回退到默认值。
+- 为安全起见会强制执行限制（数量/长度上限）。
+
+### 事件
+
+- `voicewake.changed` 载荷 `{ triggers: string[] }`
+
+接收者：
+
+- 所有 WebSocket 客户端（macOS 应用、WebChat 等）
+- 所有已连接的节点（iOS/Android），以及节点连接时作为初始"当前状态"推送。
+
+## 客户端行为
+
+### macOS 应用
+
+- 使用全局列表来控制 `VoiceWakeRuntime` 触发器。
+- 在语音唤醒设置中编辑"触发词"会调用 `voicewake.set`，然后依赖广播保持其他客户端同步。
+
+### iOS 节点
+
+- 使用全局列表进行 `VoiceWakeManager` 触发检测。
+- 在设置中编辑唤醒词会调用 `voicewake.set`（通过 Gateway 网关 WS），同时保持本地唤醒词检测的响应性。
+
+### Android 节点
+
+- 在设置中暴露唤醒词编辑器。
+- 通过 Gateway 网关 WS 调用 `voicewake.set`，使编辑在所有地方同步。