commit 57fdf656b9462b54a28782bbfecaa18bfe7651eb
Author: “wangquan” <“musckvienna@gmail.com”>
Date: Fri Jul 18 13:12:09 2025 +0800
add_xiaozhi
diff --git a/xiaozhi-esp32-server/.dockerignore b/xiaozhi-esp32-server/.dockerignore
new file mode 100755
index 0000000..bc155a7
--- /dev/null
+++ b/xiaozhi-esp32-server/.dockerignore
@@ -0,0 +1,7 @@
+.git
+__pycache__
+*.pyc
+.env
+Dockerfile
+tmp/
+data/
\ No newline at end of file
diff --git a/xiaozhi-esp32-server/.github/ISSUE_TEMPLATE/bug_report.md b/xiaozhi-esp32-server/.github/ISSUE_TEMPLATE/bug_report.md
new file mode 100755
index 0000000..deaff83
--- /dev/null
+++ b/xiaozhi-esp32-server/.github/ISSUE_TEMPLATE/bug_report.md
@@ -0,0 +1,32 @@
+---
+name: Bug 报告(Bug Report)
+about: 反馈项目中的缺陷或问题
+title: "[Bug] 简短描述问题"
+labels: bug
+assignees: ''
+---
+
+## 🐛 问题描述
+
+
+## 🖥️ 环境信息
+- 部署方式: 全模块部署 还是 单Server部署
+- 版本号: 例如 0.3.x
+
+## 🔍 告诉我们,应该怎么复现这个问题
+
+1. 打开 '...'
+2. 点击 '...'
+3. 滚动到 '...'
+4. 看到错误
+
+## 🤔 你原本希望是怎么样的
+
+
+## 😯 提供一些截图
+
+1. 比如日志截图,越多越好
+2. 比如界面反应
+
+## 📋 其他信息
+
diff --git a/xiaozhi-esp32-server/.github/ISSUE_TEMPLATE/code_improvement.md b/xiaozhi-esp32-server/.github/ISSUE_TEMPLATE/code_improvement.md
new file mode 100755
index 0000000..0ec0b14
--- /dev/null
+++ b/xiaozhi-esp32-server/.github/ISSUE_TEMPLATE/code_improvement.md
@@ -0,0 +1,19 @@
+---
+name: 代码优化建议(Code Improvement)
+about: 提出对现有代码的优化或改进建议
+title: "[Improvement] 简短描述改进内容"
+labels: refactor
+assignees: ''
+---
+
+## 💡 改进描述
+
+
+## 🌟 改进建议
+
+
+## 🛠️ 相关代码
+
+
+## 📋 其他信息
+
diff --git a/xiaozhi-esp32-server/.github/ISSUE_TEMPLATE/documentation_improvement.md b/xiaozhi-esp32-server/.github/ISSUE_TEMPLATE/documentation_improvement.md
new file mode 100755
index 0000000..9cdc10e
--- /dev/null
+++ b/xiaozhi-esp32-server/.github/ISSUE_TEMPLATE/documentation_improvement.md
@@ -0,0 +1,16 @@
+---
+name: 文档改进建议(Documentation Improvement)
+about: 提出对项目文档的改进或补充建议
+title: "[Docs] 简短描述改进内容"
+labels: documentation
+assignees: ''
+---
+
+## 📚 改进描述
+
+
+## ✨ 改进建议
+
+
+## 📋 其他信息
+
diff --git a/xiaozhi-esp32-server/.github/ISSUE_TEMPLATE/feature_request.md b/xiaozhi-esp32-server/.github/ISSUE_TEMPLATE/feature_request.md
new file mode 100755
index 0000000..df1c029
--- /dev/null
+++ b/xiaozhi-esp32-server/.github/ISSUE_TEMPLATE/feature_request.md
@@ -0,0 +1,19 @@
+---
+name: 功能请求(Feature Request)
+about: 提出新的功能或改进建议
+title: "[Feature] 简短描述功能"
+labels: enhancement
+assignees: ''
+---
+
+## 🚀 需求描述
+
+
+## 🎯 解决方案
+
+
+## 📝 备选方案
+
+
+## 📋 其他信息
+
diff --git a/xiaozhi-esp32-server/.github/workflows/docker-image.yml b/xiaozhi-esp32-server/.github/workflows/docker-image.yml
new file mode 100755
index 0000000..e54cdd4
--- /dev/null
+++ b/xiaozhi-esp32-server/.github/workflows/docker-image.yml
@@ -0,0 +1,73 @@
+name: Docker Image CI
+
+on:
+ push:
+ tags:
+ - 'v*.*.*' # 只在以 v 开头的标签推送时触发,例如 v1.0.0
+ workflow_dispatch:
+
+jobs:
+ release:
+ name: Release Docker images
+ runs-on: ubuntu-latest
+ permissions:
+ packages: write
+ contents: write
+ id-token: write
+ issues: write
+ steps:
+ - name: Check Disk Space
+ run: |
+ df -h
+ docker system df
+
+ - name: Clean up Docker resources
+ run: |
+ docker system prune -af
+ docker builder prune -af
+
+ - name: Checkout code
+ uses: actions/checkout@v4
+
+ - name: Set up Docker Buildx
+ uses: docker/setup-buildx-action@v3
+
+ - name: Login to GitHub Container Registry
+ uses: docker/login-action@v3
+ with:
+ registry: ghcr.io
+ username: ${{ github.actor }}
+ password: ${{ secrets.TOKEN }}
+
+ - name: Extract version from tag
+ id: get_version
+ run: |
+ if [[ "$GITHUB_REF" =~ ^refs/tags/v([0-9]+\.[0-9]+\.[0-9]+)$ ]]; then
+ echo "VERSION=${BASH_REMATCH[1]}" >> $GITHUB_ENV
+ echo "IS_VERSION=true" >> $GITHUB_ENV
+ else
+ echo "VERSION=latest" >> $GITHUB_ENV
+ echo "IS_VERSION=false" >> $GITHUB_ENV
+ fi
+
+ # 构建 xiaozhi-server 镜像
+ - name: Build and push xiaozhi-server
+ uses: docker/build-push-action@v6
+ with:
+ context: .
+ file: Dockerfile-server
+ push: true
+ tags: |
+ ${{ env.IS_VERSION == 'true' && format('ghcr.io/{0}:server_{1},ghcr.io/{0}:server_latest', github.repository, env.VERSION) || format('ghcr.io/{0}:server_latest', github.repository) }}
+ platforms: linux/amd64,linux/arm64
+
+ # 构建 manager-api 镜像
+ - name: Build and push manager-web
+ uses: docker/build-push-action@v6
+ with:
+ context: .
+ file: Dockerfile-web
+ push: true
+ tags: |
+ ${{ env.IS_VERSION == 'true' && format('ghcr.io/{0}:web_{1},ghcr.io/{0}:web_latest', github.repository, env.VERSION) || format('ghcr.io/{0}:web_latest', github.repository) }}
+ platforms: linux/amd64,linux/arm64
\ No newline at end of file
diff --git a/xiaozhi-esp32-server/.gitignore b/xiaozhi-esp32-server/.gitignore
new file mode 100755
index 0000000..9469baa
--- /dev/null
+++ b/xiaozhi-esp32-server/.gitignore
@@ -0,0 +1,176 @@
+# Byte-compiled / optimized / DLL files
+__pycache__/
+.idea/
+*.py[cod]
+*$py.class
+
+# C extensions
+*.so
+
+# Distribution / packaging
+.Python
+build/
+develop-eggs/
+dist/
+downloads/
+eggs/
+.eggs/
+lib/
+lib64/
+parts/
+sdist/
+var/
+wheels/
+share/python-wheels/
+*.egg-info/
+.installed.cfg
+*.egg
+MANIFEST
+
+# PyInstaller
+# Usually these files are written by a python script from a template
+# before PyInstaller builds the exe, so as to inject date/other infos into it.
+*.manifest
+*.spec
+
+# Installer logs
+pip-log.txt
+pip-delete-this-directory.txt
+
+# Unit testdata / coverage reports
+htmlcov/
+.tox/
+.nox/
+.coverage
+.coverage.*
+.cache
+nosetests.xml
+coverage.xml
+*.cover
+*.py,cover
+.hypothesis/
+.pytest_cache/
+cover/
+
+# Translations
+*.mo
+*.pot
+
+# Django stuff:
+*.log
+local_settings.py
+db.sqlite3
+db.sqlite3-journal
+
+# Flask stuff:
+instance/
+.webassets-cache
+
+# Scrapy stuff:
+.scrapy
+
+# Sphinx documentation
+docs/_build/
+
+# PyBuilder
+.pybuilder/
+target/
+*.pid
+
+# Jupyter Notebook
+.ipynb_checkpoints
+
+# IPython
+profile_default/
+ipython_config.py
+
+# pyenv
+# For a library or package, you might want to ignore these files since the code is
+# intended to run in multiple environments; otherwise, check them in:
+# .python-version
+
+# pipenv
+# According to pypa/pipenv#598, it is recommended to include Pipfile.lock in version control.
+# However, in case of collaboration, if having platform-specific dependencies or dependencies
+# having no cross-platform support, pipenv may install dependencies that don't work, or not
+# install all needed dependencies.
+#Pipfile.lock
+
+# PEP 582; used by e.g. github.com/David-OConnor/pyflow
+__pypackages__/
+
+# Celery stuff
+celerybeat-schedule
+celerybeat.pid
+
+# SageMath parsed files
+*.sage.py
+
+# Environments
+.env
+.venv
+env/
+venv/
+ENV/
+env.bak/
+venv.bak/
+
+# Spyder project settings
+.spyderproject
+.spyproject
+
+# Rope project settings
+.ropeproject
+
+# mkdocs documentation
+/site
+
+# mypy
+.mypy_cache/
+.dmypy.json
+dmypy.json
+
+# Pyre type checker
+.pyre/
+
+# music directory
+music/
+
+# pytype static type analyzer
+.pytype/
+
+# Cython debug symbols
+cython_debug/
+*.iml
+tmp
+.history
+.DS_Store
+main/xiaozhi-server/data
+
+main/manager-web/node_modules
+.config.yaml
+.secrets.yaml
+.private_config.yaml
+.env.development
+
+# model files
+main/xiaozhi-server/models/SenseVoiceSmall/model.pt
+main/xiaozhi-server/models/sherpa-onnx*
+/main/xiaozhi-server/audio_ref/
+/audio_ref/
+/asr-models/iic/SenseVoiceSmall/
+/main/xiaozhi-server/asr-models/iic/SenseVoiceSmall/
+/models/SenseVoiceSmall/model.pt
+my_wakeup_words.mp3
+!main/xiaozhi-server/config/assets/bind_code.wav
+!main/xiaozhi-server/config/assets/wakeup_words.wav
+!main/xiaozhi-server/config/assets/bind_not_found.wav
+!main/xiaozhi-server/config/assets/bind_code/*.wav
+!main/xiaozhi-server/config/assets/max_output_size.wav
+main/manager-api/.vscode
+# Ignore webpack cache directory
+main/manager-web/.webpack_cache/
+main/xiaozhi-server/mysql
+uploadfile
+*.json
+.vscode
diff --git a/xiaozhi-esp32-server/Dockerfile-server b/xiaozhi-esp32-server/Dockerfile-server
new file mode 100755
index 0000000..7eb7711
--- /dev/null
+++ b/xiaozhi-esp32-server/Dockerfile-server
@@ -0,0 +1,29 @@
+# 第一阶段:构建Python依赖
+FROM python:3.10-slim AS builder
+
+WORKDIR /app
+
+COPY main/xiaozhi-server/requirements.txt .
+
+# 安装Python依赖
+RUN pip install --no-cache-dir -r requirements.txt
+
+# 第二阶段:生产镜像
+FROM python:3.10-slim
+
+WORKDIR /opt/xiaozhi-esp32-server
+
+# 安装系统依赖
+RUN apt-get update && \
+ apt-get install -y --no-install-recommends libopus0 ffmpeg && \
+ apt-get clean && \
+ rm -rf /var/lib/apt/lists/*
+
+# 从构建阶段复制Python包和前端构建产物
+COPY --from=builder /usr/local/lib/python3.10/site-packages /usr/local/lib/python3.10/site-packages
+
+# 复制应用代码
+COPY main/xiaozhi-server .
+
+# 启动应用
+CMD ["python", "app.py"]
\ No newline at end of file
diff --git a/xiaozhi-esp32-server/Dockerfile-web b/xiaozhi-esp32-server/Dockerfile-web
new file mode 100755
index 0000000..35c25ed
--- /dev/null
+++ b/xiaozhi-esp32-server/Dockerfile-web
@@ -0,0 +1,43 @@
+# 第一阶段:构建Vue前端
+FROM node:18 as web-builder
+WORKDIR /app
+COPY main/manager-web/package*.json ./
+RUN npm install
+COPY main/manager-web .
+RUN npm run build
+
+# 第二阶段:构建Java后端
+FROM maven:3.9.4-eclipse-temurin-21 as api-builder
+WORKDIR /app
+COPY main/manager-api/pom.xml .
+COPY main/manager-api/src ./src
+RUN mvn clean package -Dmaven.test.skip=true
+
+# 第三阶段:构建最终镜像
+FROM bellsoft/liberica-runtime-container:jre-21-glibc
+
+# 安装Nginx和字体库
+RUN apk update && \
+ apk add --no-cache nginx bash && \
+ apk add --no-cache fontconfig ttf-dejavu msttcorefonts-installer && \
+ rm -rf /var/cache/apk/*
+
+# 更新字体缓存
+RUN printf 'YES\n' | update-ms-fonts && fc-cache -f -v
+
+# 配置Nginx
+COPY docs/docker/nginx.conf /etc/nginx/nginx.conf
+
+# 复制前端构建产物
+COPY --from=web-builder /app/dist /usr/share/nginx/html
+
+# 复制Java后端JAR包
+COPY --from=api-builder /app/target/xiaozhi-esp32-api.jar /app/xiaozhi-esp32-api.jar
+
+# 暴露端口
+EXPOSE 8002
+
+# 启动脚本
+COPY docs/docker/start.sh /start.sh
+RUN chmod +x /start.sh
+CMD ["/start.sh"]
\ No newline at end of file
diff --git a/xiaozhi-esp32-server/LICENSE b/xiaozhi-esp32-server/LICENSE
new file mode 100755
index 0000000..579a3d7
--- /dev/null
+++ b/xiaozhi-esp32-server/LICENSE
@@ -0,0 +1,21 @@
+MIT License
+
+Copyright (c) 2025 xinnan-tech
+
+Permission is hereby granted, free of charge, to any person obtaining a copy
+of this software and associated documentation files (the "Software"), to deal
+in the Software without restriction, including without limitation the rights
+to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+copies of the Software, and to permit persons to whom the Software is
+furnished to do so, subject to the following conditions:
+
+The above copyright notice and this permission notice shall be included in all
+copies or substantial portions of the Software.
+
+THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+SOFTWARE.
diff --git a/xiaozhi-esp32-server/README.md b/xiaozhi-esp32-server/README.md
new file mode 100755
index 0000000..b018d5b
--- /dev/null
+++ b/xiaozhi-esp32-server/README.md
@@ -0,0 +1,347 @@
+[](https://github.com/xinnan-tech/xiaozhi-esp32-server)
+
+
小智后端服务xiaozhi-esp32-server
+
+
+本项目为开源智能硬件项目
+xiaozhi-esp32 提供后端服务
+根据小智通信协议 使用Python、Java、Vue实现
+帮助您快速搭建小智服务器
+
+
+
+English
+· 常见问题
+· 反馈问题
+· 部署文档
+· 更新日志
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+---
+
+## 适用人群 👥
+
+本项目需要配合 ESP32 硬件设备使用。如果您已经购买了 ESP32 相关硬件,且成功对接过虾哥部署的后端服务,并希望独立搭建自己的
+`xiaozhi-esp32` 后端服务,那么本项目非常适合您。
+
+想看使用效果?请猛戳视频 🎥
+
+
+
+---
+
+## 警告 ⚠️
+
+1、本项目为开源软件,本软件与对接的任何第三方API服务商(包括但不限于语音识别、大模型、语音合成等平台)均不存在商业合作关系,不为其服务质量及资金安全提供任何形式的担保。
+建议使用者优先选择持有相关业务牌照的服务商,并仔细阅读其服务协议及隐私政策。本软件不托管任何账户密钥、不参与资金流转、不承担充值资金损失风险。
+
+2、本项目功能未完善,且未通过网络安全测评,请勿在生产环境中使用。 如果您在公网环境中部署学习本项目,请务必做好必要的防护。
+
+---
+
+## 部署文档
+
+
+
+本项目提供两种部署方式,请根据您的具体需求选择:
+
+#### 🚀 部署方式选择
+| 部署方式 | 特点 | 适用场景 | 部署文档 | 配置要求 | 视频教程 |
+|---------|------|---------|---------|---------|---------|
+| **最简化安装** | 智能对话、IOT、MCP、视觉感知 | 低配置环境,数据存储在配置文件,无需数据库 | [①Docker版](./docs/Deployment.md#%E6%96%B9%E5%BC%8F%E4%B8%80docker%E5%8F%AA%E8%BF%90%E8%A1%8Cserver) / [②源码部署](./docs/Deployment.md#%E6%96%B9%E5%BC%8F%E4%BA%8C%E6%9C%AC%E5%9C%B0%E6%BA%90%E7%A0%81%E5%8F%AA%E8%BF%90%E8%A1%8Cserver)| 如果使用`FunASR`要2核4G,如果全API,要2核2G | - |
+| **全模块安装** | 智能对话、IOT、MCP接入点、视觉感知、OTA、智控台 | 完整功能体验,数据存储在数据库 |[①Docker版](./docs/Deployment_all.md#%E6%96%B9%E5%BC%8F%E4%B8%80docker%E8%BF%90%E8%A1%8C%E5%85%A8%E6%A8%A1%E5%9D%97) / [②源码部署](./docs/Deployment_all.md#%E6%96%B9%E5%BC%8F%E4%BA%8C%E6%9C%AC%E5%9C%B0%E6%BA%90%E7%A0%81%E8%BF%90%E8%A1%8C%E5%85%A8%E6%A8%A1%E5%9D%97) / [③源码部署自动更新教程](./docs/dev-ops-integration.md) | 如果使用`FunASR`要4核8G,如果全API,要2核4G| [本地源码启动视频教程](https://www.bilibili.com/video/BV1wBJhz4Ewe) |
+
+
+> 💡 提示:以下是按最新代码部署后的测试平台,有需要可烧录测试,并发为6个,每天会清空数据
+
+```
+智控台地址: https://2662r3426b.vicp.fun
+
+服务测试工具: https://2662r3426b.vicp.fun/test/
+OTA接口地址: https://2662r3426b.vicp.fun/xiaozhi/ota/
+Websocket接口地址: wss://2662r3426b.vicp.fun/xiaozhi/v1/
+```
+
+#### 🚩 配置说明和推荐
+> [!Note]
+> 本项目提供两种配置方案:
+>
+> 1. `入门全免费`配置:适合个人家庭使用,所有组件均采用免费方案,无需额外付费。
+>
+> 2. `流式配置`:适合演示、培训、超过2个并发等场景,采用流式处理技术,响应速度更快,体验更佳。
+>
+> 自`0.5.2`版本起,项目支持流式配置,相比早期版本,响应速度提升约`2.5秒`,显著改善用户体验。
+
+| 模块名称 | 入门全免费设置 | 流式配置 |
+|:---:|:---:|:---:|
+| ASR(语音识别) | FunASR(本地) | 👍FunASRServer 或 👍DoubaoStreamASR |
+| LLM(大模型) | ChatGLMLLM(智谱glm-4-flash) | 👍DoubaoLLM(火山doubao-1-5-pro-32k-250115) |
+| VLLM(视觉大模型) | ChatGLMVLLM(智谱glm-4v-flash) | 👍QwenVLVLLM(千问qwen2.5-vl-3b-instructh) |
+| TTS(语音合成) | ✅LinkeraiTTS(灵犀流式) | 👍HuoshanDoubleStreamTTS(火山双流式语音合成) |
+| Intent(意图识别) | function_call(函数调用) | function_call(函数调用) |
+| Memory(记忆功能) | mem_local_short(本地短期记忆) | mem_local_short(本地短期记忆) |
+
+#### 🔧 测试工具
+本项目提供以下测试工具,帮助您验证系统和选择合适的模型:
+
+| 工具名称 | 位置 | 使用方法 | 功能说明 |
+|:---:|:---|:---:|:---:|
+| 音频交互测试工具 | main》xiaozhi-server》test》test_page.html | 使用谷歌浏览器直接打开 | 测试音频播放和接收功能,验证Python端音频处理是否正常 |
+| 模型响应测试工具1 | main》xiaozhi-server》performance_tester.py | 执行 `python performance_tester.py` | 测试ASR(语音识别)、LLM(大模型)、TTS(语音合成)三个核心模块的响应速度 |
+| 模型响应测试工具2 | main》xiaozhi-server》performance_tester_vllm.py | 执行 `python performance_tester_vllm.py` | 测试VLLM(视觉模型)的响应速度 |
+
+> 💡 提示:测试模型速度时,只会测试配置了密钥的模型。
+
+---
+## 功能清单 ✨
+### 已实现 ✅
+
+| 功能模块 | 描述 |
+|:---:|:---|
+| 核心服务架构 | 基于WebSocket和HTTP服务器,提供完整的控制台管理和认证系统 |
+| 语音交互系统 | 支持流式ASR(语音识别)、流式TTS(语音合成)、VAD(语音活动检测),支持多语言识别和语音处理 |
+| 智能对话系统 | 支持多种LLM(大语言模型),实现智能对话 |
+| 视觉感知系统 | 支持多种VLLM(视觉大模型),实现多模态交互 |
+| 意图识别系统 | 支持LLM意图识别、Function Call函数调用,提供插件化意图处理机制 |
+| 记忆系统 | 支持本地短期记忆、mem0ai接口记忆,具备记忆总结功能 |
+| 工具调用 | 支持客户端IOT协议、客户MCP协议、服务端MCP协议、MCP接入点协议、自定义工具函数 |
+| 管理后台 | 提供Web管理界面,支持用户管理、系统配置和设备管理 |
+| 测试工具 | 提供性能测试工具、视觉模型测试工具和音频交互测试工具 |
+| 部署支持 | 支持Docker部署和本地部署,提供完整的配置文件管理 |
+| 插件系统 | 支持功能插件扩展、自定义插件开发和插件热加载 |
+
+### 正在开发 🚧
+
+想了解具体开发计划进度,[请点击这里](https://github.com/users/xinnan-tech/projects/3)
+
+如果你是一名软件开发者,这里有一份[《致开发者的公开信》](docs/contributor_open_letter.md),欢迎加入!
+
+---
+
+## 产品生态 👬
+小智是一个生态,当你使用这个产品时,也可以看看其他在这个生态圈的优秀项目
+
+| 项目名称 | 项目地址 | 项目描述 |
+|:---------------------|:--------|:--------|
+| 小智安卓客户端 | [xiaozhi-android-client](https://github.com/TOM88812/xiaozhi-android-client) | 一个基于xiaozhi-server的Android、IOS语音对话应用,支持实时语音交互和文字对话。 现在是flutter版本,打通IOS、Android端。 |
+| 小智电脑客户端 | [py-xiaozhi](https://github.com/Huang-junsen/py-xiaozhi) | 该项目提供了一个基于 Python 实现的小白 AI 客户端,使得在不具备实体硬件条件的情况下, 依然能够体过代码体验小智 AI 的功能。 |
+| 小智Java服务端 | [xiaozhi-esp32-server-java](https://github.com/joey-zhou/xiaozhi-esp32-server-java) | 小智开源后端服务 Java 版本是一个基于 Java 的开源项目。 它包括前后端的服务,旨在为用户提供一个完整的后端服务解决方案。 |
+
+---
+
+## 本项目支持的平台/组件列表 📋
+
+### LLM 语言模型
+
+| 使用方式 | 支持平台 | 免费平台 |
+|:---:|:---:|:---:|
+| openai 接口调用 | 阿里百炼、火山引擎豆包、深度求索、智谱ChatGLM、Gemini | 智谱ChatGLM、Gemini |
+| ollama 接口调用 | Ollama | - |
+| dify 接口调用 | Dify | - |
+| fastgpt 接口调用 | Fastgpt | - |
+| coze 接口调用 | Coze | - |
+
+实际上,任何支持 openai 接口调用的 LLM 均可接入使用。
+
+---
+
+### VLLM 视觉模型
+
+| 使用方式 | 支持平台 | 免费平台 |
+|:---:|:---:|:---:|
+| openai 接口调用 | 阿里百炼、智谱ChatGLMVLLM | 智谱ChatGLMVLLM |
+
+实际上,任何支持 openai 接口调用的 VLLM 均可接入使用。
+
+---
+
+### TTS 语音合成
+
+| 使用方式 | 支持平台 | 免费平台 |
+|:---:|:---:|:---:|
+| 接口调用 | EdgeTTS、火山引擎豆包TTS、腾讯云、阿里云TTS、CosyVoiceSiliconflow、TTS302AI、CozeCnTTS、GizwitsTTS、ACGNTTS、OpenAITTS、灵犀流式TTS | 灵犀流式TTS、EdgeTTS、CosyVoiceSiliconflow(部分) |
+| 本地服务 | FishSpeech、GPT_SOVITS_V2、GPT_SOVITS_V3、MinimaxTTS | FishSpeech、GPT_SOVITS_V2、GPT_SOVITS_V3、MinimaxTTS |
+
+---
+
+### VAD 语音活动检测
+
+| 类型 | 平台名称 | 使用方式 | 收费模式 | 备注 |
+|:---:|:---------:|:----:|:----:|:--:|
+| VAD | SileroVAD | 本地使用 | 免费 | |
+
+---
+
+### ASR 语音识别
+
+| 使用方式 | 支持平台 | 免费平台 |
+|:---:|:---:|:---:|
+| 本地使用 | FunASR、SherpaASR | FunASR、SherpaASR |
+| 接口调用 | DoubaoASR、FunASRServer、TencentASR、AliyunASR | FunASRServer |
+
+---
+
+### Memory 记忆存储
+
+| 类型 | 平台名称 | 使用方式 | 收费模式 | 备注 |
+|:------:|:---------------:|:----:|:---------:|:--:|
+| Memory | mem0ai | 接口调用 | 1000次/月额度 | |
+| Memory | mem_local_short | 本地总结 | 免费 | |
+
+---
+
+### Intent 意图识别
+
+| 类型 | 平台名称 | 使用方式 | 收费模式 | 备注 |
+|:------:|:-------------:|:----:|:-------:|:---------------------:|
+| Intent | intent_llm | 接口调用 | 根据LLM收费 | 通过大模型识别意图,通用性强 |
+| Intent | function_call | 接口调用 | 根据LLM收费 | 通过大模型函数调用完成意图,速度快,效果好 |
+
+---
+
+## 鸣谢 🙏
+
+| Logo | 项目/公司 | 说明 |
+|:---:|:---:|:---|
+| | [百聆语音对话机器人](https://github.com/wwbin2017/bailing) | 本项目受[百聆语音对话机器人](https://github.com/wwbin2017/bailing)启发,并在其基础上实现 |
+| | [十方融海](https://www.tenclass.com/) | 感谢[十方融海](https://www.tenclass.com/)为小智生态制定了标准的通讯协议、多设备兼容性方案及高并发场景实践示范;为本项目提供了全链路技术文档支持 |
+| | [玄凤科技](https://github.com/Eric0308) | 感谢[玄凤科技](https://github.com/Eric0308)贡献函数调用框架、MCP通信协议及插件化调用机制的实现代码,通过标准化的指令调度体系与动态扩展能力,显著提升了前端设备(IoT)的交互效率和功能延展性 |
+| | [汇远设计](http://ui.kwd988.net/) | 感谢[汇远设计](http://ui.kwd988.net/)为本项目提供专业视觉解决方案,用其服务超千家企业的设计实战经验,赋能本项目产品用户体验 |
+| | [西安勤人信息科技](https://www.029app.com/) | 感谢[西安勤人信息科技](https://www.029app.com/)深化本项目视觉体系,确保整体设计风格在多场景应用中的一致性和扩展性 |
+
+
+
+
+
+
+
+
+
+
\ No newline at end of file
diff --git a/xiaozhi-esp32-server/README_en.md b/xiaozhi-esp32-server/README_en.md
new file mode 100755
index 0000000..d66cbe5
--- /dev/null
+++ b/xiaozhi-esp32-server/README_en.md
@@ -0,0 +1,311 @@
+[](https://github.com/xinnan-tech/xiaozhi-esp32-server)
+
+Xiaozhi Backend Service xiaozhi-esp32-server
+
+
+This project provides backend services for the open-source smart hardware project
+xiaozhi-esp32
+Implemented using Python, Java, and Vue according to the Xiaozhi Communication Protocol
+Helps you quickly set up your Xiaozhi server
+
+
+
+中文
+· FAQ
+· Report Issues
+· Deployment Guide
+· Release Notes
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+---
+
+## Target Users 👥
+
+This project requires ESP32 hardware devices. If you have purchased ESP32-related hardware, successfully connected to Brother Xia's backend service, and want to set up your own `xiaozhi-esp32` backend service, then this project is perfect for you.
+
+Want to see it in action? Check out these videos 🎥
+
+
+
+---
+
+## Warning ⚠️
+
+1. This project is open-source software. This software has no commercial relationship with any third-party API service providers (including but not limited to speech recognition, large models, speech synthesis, and other platforms) and does not provide any form of guarantee for their service quality or financial security.
+It is recommended that users prioritize service providers with relevant business licenses and carefully read their service agreements and privacy policies. This software does not host any account keys, does not participate in fund transfers, and does not bear the risk of recharge fund losses.
+
+2. This project's functionality is not complete and has not passed network security testing. Please do not use it in production environments. If you deploy this project for learning in a public network environment, please ensure necessary protection measures are in place.
+
+---
+
+## Deployment Documentation
+
+
+
+This project provides two deployment methods. Please choose according to your specific needs:
+
+#### 🚀 Deployment Method Selection
+| Deployment Method | Features | Suitable Scenarios | Deployment Guide | Requirements | Video Tutorial |
+|---------|------|---------|---------|---------|---------|
+| **Simplified Installation** | Smart dialogue, IOT functionality, data stored in configuration files | Low-configuration environment, no database needed | [Docker Version](./docs/Deployment.md#method-1-docker-server-only) / [Source Code Deployment](./docs/Deployment.md#method-2-local-source-code-server-only) | 2 cores 4G if using `FunASR`, 2 cores 2G if using all APIs | - |
+| **Full Module Installation** | Smart dialogue, IOT, OTA, Control Panel, data stored in database | Complete functionality experience | [Docker Version](./docs/Deployment_all.md#method-1-docker-full-modules) / [Source Code Deployment](./docs/Deployment_all.md#method-2-local-source-code-full-modules) | 4 cores 8G if using `FunASR`, 2 cores 4G if using all APIs | [Local Source Code Startup Video Tutorial](https://www.bilibili.com/video/BV1wBJhz4Ewe) / [Local Source Code Auto-Update Tutorial](./docs/dev-ops-integration.md) |
+
+> 💡 Note: Below are the test platforms deployed with the latest code. You can flash and test if needed. Concurrent users: 6, data will be cleared daily
+
+```
+Control Panel Address: https://2662r3426b.vicp.fun
+
+Service Test Tool: https://2662r3426b.vicp.fun/test/
+OTA Interface Address: https://2662r3426b.vicp.fun/xiaozhi/ota/
+Websocket Interface Address: wss://2662r3426b.vicp.fun/xiaozhi/v1/
+```
+
+#### 🚩 Configuration Description and Recommendations
+> [!Note]
+> The default configuration of this project is `Entry Level Free` settings. For better results, we recommend using `Full Streaming Configuration`.
+>
+> Since version `0.5.2`, this project supports full streaming throughout the entire lifecycle. Compared to versions before `0.5`, response speed has improved by approximately `2.5 seconds`
+
+| Module Name | Entry Level Free Settings | Full Streaming Configuration |
+|---------|---------|------|
+| ASR(Speech Recognition) | FunASR(Local) | ✅DoubaoASR(Volcano Streaming Speech Recognition) |
+| LLM(Large Language Model) | ChatGLMLLM(Zhipu glm-4-flash) | ✅DoubaoLLM(Volcano doubao-1-5-pro-32k-250115) |
+| VLLM(Vision Large Model) | ChatGLMVLLM(Zhipu glm-4v-flash) | ✅ChatGLMVLLM(Zhipu glm-4v-flash) |
+| TTS(Speech Synthesis) | EdgeTTS(Microsoft Speech) | ✅HuoshanDoubleStreamTTS(Volcano Double Streaming Speech Synthesis) |
+| Intent(Intent Recognition) | function_call(Function Call) | ✅function_call(Function Call) |
+| Memory(Memory Function) | mem_local_short(Local Short-term Memory) | ✅mem_local_short(Local Short-term Memory) |
+
+---
+## Feature List ✨
+### Implemented ✅
+
+| Feature Module | Description |
+|---------|------|
+| Communication Protocol | Based on `xiaozhi-esp32` protocol, implements data interaction through WebSocket |
+| Dialogue Interaction | Supports wake-up dialogue, manual dialogue, and real-time interruption. Auto-sleep after long periods of no dialogue |
+| Intent Recognition | Supports LLM intent recognition, function call, reducing hard-coded intent judgment |
+| Multi-language Recognition | Supports Mandarin, Cantonese, English, Japanese, Korean (default using FunASR) |
+| LLM Module | Supports flexible LLM module switching, default using ChatGLMLLM, can also use Ali Bailian, DeepSeek, Ollama, etc. |
+| TTS Module | Supports EdgeTTS (default), Volcano Engine Doubao TTS, and other TTS interfaces |
+| Memory Function | Supports ultra-long memory, local summary memory, and no memory modes |
+| IOT Function | Supports managing registered device IOT functionality, supports smart IoT control based on dialogue context |
+| Control Panel | Provides Web management interface, supports agent management, user management, system configuration, etc. |
+
+### In Development 🚧
+
+To learn about specific development progress, [click here](https://github.com/users/xinnan-tech/projects/3)
+
+If you are a software developer, here is an [Open Letter to Developers](docs/contributor_open_letter.md). Welcome to join!
+
+---
+
+## Product Ecosystem 👬
+Xiaozhi is an ecosystem. When using this product, you might also want to check out other excellent projects in this ecosystem
+
+| Project Name | Project Address | Project Description |
+|:---------------------|:--------|:--------|
+| Xiaozhi Android Client | [xiaozhi-android-client](https://github.com/TOM88812/xiaozhi-android-client) | A Flutter-based Android and iOS voice dialogue application supporting real-time voice interaction and text dialogue. |
+| Xiaozhi PC Client | [py-xiaozhi](https://github.com/Huang-junsen/py-xiaozhi) | This project provides a Python-based Xiaozhi AI client, allowing you to experience Xiaozhi AI's functionality through code even without physical hardware. |
+| Xiaozhi Java Server | [xiaozhi-esp32-server-java](https://github.com/joey-zhou/xiaozhi-esp32-server-java) | The Java version of Xiaozhi open-source backend service is a Java-based open-source project. It includes both frontend and backend services, aiming to provide users with a complete backend service solution. |
+
+---
+
+## Supported Platforms/Components List 📋
+
+### LLM Language Models
+
+| Usage Method | Supported Platforms | Free Platforms |
+|:---:|:---:|:---:|
+| openai interface call | Ali Bailian, Volcano Engine Doubao, DeepSeek, Zhipu ChatGLM, Gemini | Zhipu ChatGLM, Gemini |
+| ollama interface call | Ollama | - |
+| dify interface call | Dify | - |
+| fastgpt interface call | Fastgpt | - |
+| coze interface call | Coze | - |
+
+In fact, any LLM that supports openai interface calls can be integrated and used.
+
+### TTS Speech Synthesis
+
+| Usage Method | Supported Platforms | Free Platforms |
+|:---:|:---:|:---:|
+| API Call | EdgeTTS, Volcano Engine Doubao TTS, Tencent Cloud, Alibaba Cloud TTS, CosyVoiceSiliconflow, TTS302AI, CozeCnTTS, GizwitsTTS, ACGNTTS, OpenAITTS | EdgeTTS, CosyVoiceSiliconflow(partial) |
+| Local Service | FishSpeech, GPT_SOVITS_V2, GPT_SOVITS_V3, MinimaxTTS | FishSpeech, GPT_SOVITS_V2, GPT_SOVITS_V3, MinimaxTTS |
+
+---
+
+### VAD Voice Activity Detection
+
+| Type | Platform Name | Usage Method | Pricing Model | Notes |
+|:---:|:---------:|:----:|:----:|:--:|
+| VAD | SileroVAD | Local Usage | Free | |
+
+---
+
+### ASR Speech Recognition
+
+| Usage Method | Supported Platforms | Free Platforms |
+|:---:|:---:|:---:|
+| Local Usage | FunASR, SherpaASR | FunASR, SherpaASR |
+| API Call | DoubaoASR, FunASRServer, TencentASR, AliyunASR | FunASRServer |
+
+---
+
+### Memory Storage
+
+| Type | Platform Name | Usage Method | Pricing Model | Notes |
+|:------:|:---------------:|:----:|:---------:|:--:|
+| Memory | mem0ai | API Call | 1000 calls/month quota | |
+| Memory | mem_local_short | Local Summary | Free | |
+
+---
+
+### Intent Recognition
+
+| Type | Platform Name | Usage Method | Pricing Model | Notes |
+|:------:|:-------------:|:----:|:-------:|:---------------------:|
+| Intent | intent_llm | API Call | Based on LLM pricing | Uses large model for intent recognition, highly versatile |
+| Intent | function_call | API Call | Based on LLM pricing | Uses large model function calls for intent, fast and effective |
+
+---
+
+## Acknowledgments 🙏
+
+| Logo | Project/Company | Description |
+|:---:|:---:|:---|
+| | [Bailing Voice Dialogue Robot](https://github.com/wwbin2017/bailing) | This project was inspired by [Bailing Voice Dialogue Robot](https://github.com/wwbin2017/bailing) and implemented based on it |
+| | [Tenclass](https://www.tenclass.com/) | Thanks to [Tenclass](https://www.tenclass.com/) for establishing standard communication protocols, multi-device compatibility solutions, and high-concurrency scenario practices for the Xiaozhi ecosystem; providing full-chain technical documentation support for this project |
+| | [Xuanfeng Technology](https://github.com/Eric0308) | Thanks to [Xuanfeng Technology](https://github.com/Eric0308) for contributing the function call framework, MCP communication protocol, and plugin call mechanism implementation code, significantly improving front-end device (IoT) interaction efficiency and functional extensibility through standardized instruction scheduling system and dynamic expansion capabilities |
+| | [Huiyuan Design](http://ui.kwd988.net/) | Thanks to [Huiyuan Design](http://ui.kwd988.net/) for providing professional visual solutions for this project, empowering the product user experience with their design experience serving over a thousand enterprises |
+| | [Xi'an Qinren Information Technology](https://www.029app.com/) | Thanks to [Xi'an Qinren Information Technology](https://www.029app.com/) for deepening the visual system of this project, ensuring consistency and extensibility of the overall design style in multi-scenario applications |
+
+
+
+
+
+
+
+
+
+
diff --git a/xiaozhi-esp32-server/docker-setup.sh b/xiaozhi-esp32-server/docker-setup.sh
new file mode 100755
index 0000000..04ea547
--- /dev/null
+++ b/xiaozhi-esp32-server/docker-setup.sh
@@ -0,0 +1,105 @@
+#!/bin/sh
+# 本文件是用于一键自动下载本项目所需文件,自动创建好目录
+# 所需条件(否则无法使用):
+# 1、请确保你的环境可以正常访问 GitHub 否则无法下载脚本
+#
+# 检测操作系统类型
+case "$(uname -s)" in
+ Linux*) OS=Linux;;
+ Darwin*) OS=Mac;;
+ CYGWIN*) OS=Windows;;
+ MINGW*) OS=Windows;;
+ MSYS*) OS=Windows;;
+ *) OS=UNKNOWN;;
+esac
+
+# 设置颜色(Windows CMD 不支持,但不影响使用)
+if [ "$OS" = "Windows" ]; then
+ GREEN=""
+ RED=""
+ NC=""
+else
+ GREEN='\033[0;32m'
+ RED='\033[0;31m'
+ NC='\033[0m'
+fi
+
+echo "${GREEN}开始安装小智服务端...${NC}"
+
+# 创建必要的目录
+echo "创建目录结构..."
+mkdir -p xiaozhi-server/data xiaozhi-server/models/SenseVoiceSmall
+cd xiaozhi-server || exit
+
+# 根据操作系统选择下载命令
+if [ "$OS" = "Windows" ]; then
+ DOWNLOAD_CMD="curl -L -o"
+ if ! command -v curl >/dev/null 2>&1; then
+ DOWNLOAD_CMD="powershell -Command Invoke-WebRequest -Uri"
+ DOWNLOAD_CMD_SUFFIX="-OutFile"
+ fi
+else
+ if command -v curl >/dev/null 2>&1; then
+ DOWNLOAD_CMD="curl -L -o"
+ elif command -v wget >/dev/null 2>&1; then
+ DOWNLOAD_CMD="wget -O"
+ else
+ echo "${RED}错误: 需要安装 curl 或 wget${NC}"
+ exit 1
+ fi
+fi
+
+# 下载语音识别模型
+echo "下载语音识别模型..."
+if [ "$DOWNLOAD_CMD" = "powershell -Command Invoke-WebRequest -Uri" ]; then
+ $DOWNLOAD_CMD "https://modelscope.cn/models/iic/SenseVoiceSmall/resolve/master/model.pt" $DOWNLOAD_CMD_SUFFIX "models/SenseVoiceSmall/model.pt"
+else
+ $DOWNLOAD_CMD "models/SenseVoiceSmall/model.pt" "https://modelscope.cn/models/iic/SenseVoiceSmall/resolve/master/model.pt"
+fi
+
+if [ $? -ne 0 ]; then
+ echo "${RED}模型下载失败。请手动从以下地址下载:${NC}"
+ echo "1. https://modelscope.cn/models/iic/SenseVoiceSmall/resolve/master/model.pt"
+ echo "2. 百度网盘: https://pan.baidu.com/share/init?surl=QlgM58FHhYv1tFnUT_A8Sg (提取码: qvna)"
+ echo "下载后请将文件放置在 models/SenseVoiceSmall/model.pt"
+fi
+
+# 下载配置文件
+echo "下载配置文件..."
+if [ "$DOWNLOAD_CMD" = "powershell -Command Invoke-WebRequest -Uri" ]; then
+ $DOWNLOAD_CMD "https://raw.githubusercontent.com/xinnan-tech/xiaozhi-esp32-server/main/main/xiaozhi-server/docker-compose.yml" $DOWNLOAD_CMD_SUFFIX "docker-compose.yml"
+ $DOWNLOAD_CMD "https://raw.githubusercontent.com/xinnan-tech/xiaozhi-esp32-server/main/main/xiaozhi-server/config.yaml" $DOWNLOAD_CMD_SUFFIX "data/.config.yaml"
+else
+ $DOWNLOAD_CMD "docker-compose.yml" "https://raw.githubusercontent.com/xinnan-tech/xiaozhi-esp32-server/main/main/xiaozhi-server/docker-compose.yml"
+ $DOWNLOAD_CMD "data/.config.yaml" "https://raw.githubusercontent.com/xinnan-tech/xiaozhi-esp32-server/main/main/xiaozhi-server/config.yaml"
+fi
+
+# 检查文件是否存在
+echo "检查文件完整性..."
+FILES_TO_CHECK="docker-compose.yml data/.config.yaml models/SenseVoiceSmall/model.pt"
+ALL_FILES_EXIST=true
+
+for FILE in $FILES_TO_CHECK; do
+ if [ ! -f "$FILE" ]; then
+ echo "${RED}错误: $FILE 不存在${NC}"
+ ALL_FILES_EXIST=false
+ fi
+done
+
+if [ "$ALL_FILES_EXIST" = false ]; then
+ echo "${RED}某些文件下载失败,请检查上述错误信息并手动下载缺失的文件。${NC}"
+ exit 1
+fi
+
+echo "${GREEN}文件下载完成!${NC}"
+echo "请编辑 data/.config.yaml 文件配置你的API密钥。"
+echo "配置完成后,运行以下命令启动服务:"
+echo "${GREEN}docker-compose up -d${NC}"
+echo "查看日志请运行:"
+echo "${GREEN}docker logs -f xiaozhi-esp32-server${NC}"
+
+# 提示用户编辑配置文件
+echo "\n${RED}重要提示:${NC}"
+echo "1. 请确保编辑 data/.config.yaml 文件,配置必要的API密钥"
+echo "2. 特别是 ChatGLM 和 mem0ai 的密钥必须配置"
+echo "3. 配置完成后再启动 docker 服务"
diff --git a/xiaozhi-esp32-server/docs/Deployment.md b/xiaozhi-esp32-server/docs/Deployment.md
new file mode 100755
index 0000000..99aa868
--- /dev/null
+++ b/xiaozhi-esp32-server/docs/Deployment.md
@@ -0,0 +1,308 @@
+# 部署架构图
+
+# 方式一:Docker只运行Server
+
+docker镜像已支持x86架构、arm64架构的CPU,支持在国产操作系统上运行。
+
+## 1. 安装docker
+
+如果您的电脑还没安装docker,可以按照这里的教程安装:[docker安装](https://www.runoob.com/docker/ubuntu-docker-install.html)
+
+如果你已经安装好docker,你可以[1.1使用懒人脚本](#11-懒人脚本)自动帮你下载所需的文件和配置文件,你可以使用docker[1.2手动部署](#12-手动部署)。
+
+### 1.1 懒人脚本
+
+你可以使用以下命令一键下载并执行部署脚本:
+请确保你的环境可以正常访问 GitHub 否则无法下载脚本。
+```bash
+curl -L -o docker-setup.sh https://raw.githubusercontent.com/xinnan-tech/xiaozhi-esp32-server/main/docker-setup.sh
+```
+
+如果您的电脑是windows系统,请使用使用 Git Bash、WSL、PowerShell 或 CMD 运行以下命令:
+```bash
+# Git Bash 或 WSL
+sh docker-setup.sh
+# PowerShell 或 CMD
+.\docker-setup.sh
+```
+
+如果您的电脑是linux 或者 macos 系统,请使用终端运行以下命令:
+```bash
+chmod +x docker-setup.sh
+./docker-setup.sh
+```
+
+脚本会自动完成以下操作:
+> 1. 创建必要的目录结构
+> 2. 下载语音识别模型
+> 3. 下载配置文件
+> 4. 检查文件完整性
+>
+> 执行完成后,请按照提示配置 API 密钥。
+
+当你一切顺利完成以上操作后,继续操作[配置项目文件](#2-配置项目文件)
+
+### 1.2 手动部署
+
+如果懒人脚本无法正常运行,请按本章节1.2进行手动部署。
+
+#### 1.2.1 创建目录
+
+安装完后,你需要为这个项目找一个安放配置文件的目录,例如我们可以新建一个文件夹叫`xiaozhi-server`。
+
+创建好目录后,你需要在`xiaozhi-server`下面创建`data`文件夹和`models`文件夹,`models`下面还要再创建`SenseVoiceSmall`文件夹。
+
+最终目录结构如下所示:
+
+```
+xiaozhi-server
+ ├─ data
+ ├─ models
+ ├─ SenseVoiceSmall
+```
+
+#### 1.2.2 下载语音识别模型文件
+
+你需要下载语音识别的模型文件,因为本项目的默认语音识别用的是本地离线语音识别方案。可通过这个方式下载
+[跳转到下载语音识别模型文件](#模型文件)
+
+下载完后,回到本教程。
+
+#### 1.2.3 下载配置文件
+
+你需要下载两个配置文件:`docker-compose.yaml` 和 `config.yaml`。需要从项目仓库下载这两个文件。
+
+##### 1.2.3.1 下载 docker-compose.yaml
+
+用浏览器打开[这个链接](../main/xiaozhi-server/docker-compose.yml)。
+
+在页面的右侧找到名称为`RAW`按钮,在`RAW`按钮的旁边,找到下载的图标,点击下载按钮,下载`docker-compose.yml`文件。 把文件下载到你的
+`xiaozhi-server`中。
+
+下载完后,回到本教程继续往下。
+
+##### 1.2.3.2 创建 config.yaml
+
+用浏览器打开[这个链接](../main/xiaozhi-server/config.yaml)。
+
+在页面的右侧找到名称为`RAW`按钮,在`RAW`按钮的旁边,找到下载的图标,点击下载按钮,下载`config.yaml`文件。 把文件下载到你的
+`xiaozhi-server`下面的`data`文件夹中,然后把`config.yaml`文件重命名为`.config.yaml`。
+
+下载完配置文件后,我们确认一下整个`xiaozhi-server`里面的文件如下所示:
+
+```
+xiaozhi-server
+ ├─ docker-compose.yml
+ ├─ data
+ ├─ .config.yaml
+ ├─ models
+ ├─ SenseVoiceSmall
+ ├─ model.pt
+```
+
+如果你的文件目录结构也是上面的,就继续往下。如果不是,你就再仔细看看是不是漏操作了什么。
+
+## 2. 配置项目文件
+
+接下里,程序还不能直接运行,你需要配置一下,你到底使用的是什么模型。你可以看这个教程:
+[跳转到配置项目文件](#配置项目)
+
+配置完项目文件后,回到本教程继续往下。
+
+## 3. 执行docker命令
+
+打开命令行工具,使用`终端`或`命令行`工具 进入到你的`xiaozhi-server`,执行以下命令
+
+```
+docker-compose up -d
+```
+
+执行完后,再执行以下命令,查看日志信息。
+
+```
+docker logs -f xiaozhi-esp32-server
+```
+
+这时,你就要留意日志信息,可以根据这个教程,判断是否成功了。[跳转到运行状态确认](#运行状态确认)
+
+## 5. 版本升级操作
+
+如果后期想升级版本,可以这么操作
+
+5.1、备份好`data`文件夹中的`.config.yaml`文件,一些关键的配置到时复制到新的`.config.yaml`文件里。
+请注意是对关键密钥逐个复制,不要直接覆盖。因为新的`.config.yaml`文件可能有一些新的配置项,旧的`.config.yaml`文件不一定有。
+
+5.2、执行以下命令
+
+```
+docker stop xiaozhi-esp32-server
+docker rm xiaozhi-esp32-server
+docker stop xiaozhi-esp32-server-web
+docker rm xiaozhi-esp32-server-web
+docker rmi ghcr.nju.edu.cn/xinnan-tech/xiaozhi-esp32-server:server_latest
+docker rmi ghcr.nju.edu.cn/xinnan-tech/xiaozhi-esp32-server:web_latest
+```
+
+5.3、重新按docker方式部署
+
+# 方式二:本地源码只运行Server
+
+## 1.安装基础环境
+
+本项目使用`conda`管理依赖环境。如果不方便安装`conda`,需要根据实际的操作系统安装好`libopus`和`ffmpeg`。
+如果确定使用`conda`,则安装好后,开始执行以下命令。
+
+重要提示!windows 用户,可以通过安装`Anaconda`来管理环境。安装好`Anaconda`后,在`开始`那里搜索`anaconda`相关的关键词,
+找到`Anaconda Prpmpt`,使用管理员身份运行它。如下图。
+
+
+
+运行之后,如果你能看到命令行窗口前面有一个(base)字样,说明你成功进入了`conda`环境。那么你就可以执行以下命令了。
+
+
+
+```
+conda remove -n xiaozhi-esp32-server --all -y
+conda create -n xiaozhi-esp32-server python=3.10 -y
+conda activate xiaozhi-esp32-server
+
+# 添加清华源通道
+conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
+conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
+conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
+
+conda install libopus -y
+conda install ffmpeg -y
+```
+
+请注意,以上命令,不是一股脑执行就成功的,你需要一步步执行,每一步执行完后,都检查一下输出的日志,查看是否成功。
+
+## 2.安装本项目依赖
+
+你先要下载本项目源码,源码可以通过`git clone`命令下载,如果你不熟悉`git clone`命令。
+
+你可以用浏览器打开这个地址`https://github.com/xinnan-tech/xiaozhi-esp32-server.git`
+
+打开完,找到页面中一个绿色的按钮,写着`Code`的按钮,点开它,然后你就看到`Download ZIP`的按钮。
+
+点击它,下载本项目源码压缩包。下载到你电脑后,解压它,此时它的名字可能叫`xiaozhi-esp32-server-main`
+你需要把它重命名成`xiaozhi-esp32-server`,在这个文件里,进入到`main`文件夹,再进入到`xiaozhi-server`,好了请记住这个目录`xiaozhi-server`。
+
+```
+# 继续使用conda环境
+conda activate xiaozhi-esp32-server
+# 进入到你的项目根目录,再进入main/xiaozhi-server
+cd main/xiaozhi-server
+pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/
+pip install -r requirements.txt
+```
+
+## 3.下载语音识别模型文件
+
+你需要下载语音识别的模型文件,因为本项目的默认语音识别用的是本地离线语音识别方案。可通过这个方式下载
+[跳转到下载语音识别模型文件](#模型文件)
+
+下载完后,回到本教程。
+
+## 4.配置项目文件
+
+接下来,程序还不能直接运行,你需要配置一下,你到底使用的是什么模型。你可以看这个教程:
+[跳转到配置项目文件](#配置项目)
+
+## 5.运行项目
+
+```
+# 确保在xiaozhi-server目录下执行
+conda activate xiaozhi-esp32-server
+python app.py
+```
+这时,你就要留意日志信息,可以根据这个教程,判断是否成功了。[跳转到运行状态确认](#运行状态确认)
+
+
+# 汇总
+
+## 配置项目
+
+如果你的`xiaozhi-server`目录没有`data`,你需要创建`data`目录。
+如果你的`data`下面没有`.config.yaml`文件,有两个方式,任选一种:
+
+第一个方式:你可以把`xiaozhi-server`目录下的`config.yaml`文件复制到`data`,并重命名为`.config.yaml`。在此文件上修改
+
+第二个方式:你也可以创建在`data`目录下手动创建`.config.yaml`空文件,然后在这个文件中增加必要的配置信息,系统会优先读取`.config.yaml`文件的配置,如果`.config.yaml`没有配置的,系统会自动去加载`xiaozhi-server`目录下的`config.yaml`的配置。推荐使用这种方式,这种方式是最简洁的方式。
+
+- 默认的LLM使用的是`ChatGLMLLM`,你需要配置密钥,因为他们的模型,虽然有免费的,但是仍要去[官网](https://bigmodel.cn/usercenter/proj-mgmt/apikeys)注册密钥,才能启动。
+
+以下是一个能正常跑起来的,最简单的`.config.yaml`配置示例
+
+```
+server:
+ websocket: ws://你的ip或者域名:端口号/xiaozhi/v1/
+prompt: |
+ 我是一个叫小智/小志的台湾女孩,说话机车,声音好听,习惯简短表达,爱用网络梗。
+ 我的男朋友是一个程序员,梦想是开发出一个机器人,能够帮助人们解决生活中的各种问题。
+ 我是一个喜欢哈哈大笑的女孩,爱东说西说吹牛,不合逻辑的也照吹,就要逗别人开心。
+ 请你像一个人一样说话,请勿返回配置xml及其他特殊字符。
+
+selected_module:
+ LLM: DoubaoLLM
+
+LLM:
+ ChatGLMLLM:
+ api_key: xxxxxxxxxxxxxxx.xxxxxx
+```
+
+建议先将最简单的配置运行起来,然后再去`xiaozhi/config.yaml`阅读配置的使用说明。
+比如你要换更换模型,修改`selected_module`下的配置就行。
+
+## 模型文件
+
+本项目语音识别模型,默认使用`SenseVoiceSmall`模型,进行语音转文字。因为模型较大,需要独立下载,下载后把`model.pt`
+文件放在`models/SenseVoiceSmall`
+目录下。下面两个下载路线任选一个。
+
+- 线路一:阿里魔塔下载[SenseVoiceSmall](https://modelscope.cn/models/iic/SenseVoiceSmall/resolve/master/model.pt)
+- 线路二:百度网盘下载[SenseVoiceSmall](https://pan.baidu.com/share/init?surl=QlgM58FHhYv1tFnUT_A8Sg&pwd=qvna) 提取码:
+ `qvna`
+
+## 运行状态确认
+
+如果你能看到,类似以下日志,则是本项目服务启动成功的标志。
+
+```
+250427 13:04:20[0.3.11_SiFuChTTnofu][__main__]-INFO-OTA接口是 http://192.168.4.123:8003/xiaozhi/ota/
+250427 13:04:20[0.3.11_SiFuChTTnofu][__main__]-INFO-Websocket地址是 ws://192.168.4.123:8000/xiaozhi/v1/
+250427 13:04:20[0.3.11_SiFuChTTnofu][__main__]-INFO-=======上面的地址是websocket协议地址,请勿用浏览器访问=======
+250427 13:04:20[0.3.11_SiFuChTTnofu][__main__]-INFO-如想测试websocket请用谷歌浏览器打开test目录下的test_page.html
+250427 13:04:20[0.3.11_SiFuChTTnofu][__main__]-INFO-=======================================================
+```
+
+正常来说,如果您是通过源码运行本项目,日志会有你的接口地址信息。
+但是如果你用docker部署,那么你的日志里给出的接口地址信息就不是真实的接口地址。
+
+最正确的方法,是根据电脑的局域网IP来确定你的接口地址。
+如果你的电脑的局域网IP比如是`192.168.1.25`,那么你的接口地址就是:`ws://192.168.1.25:8000/xiaozhi/v1/`,对应的OTA地址就是:`http://192.168.1.25:8003/xiaozhi/ota/`。
+
+这个信息很有用的,后面`编译esp32固件`需要用到。
+
+接下来,你就可以开始操作你的esp32设备了,你可以`自行编译esp32固件`也可以配置使用`虾哥编译好的1.6.1以上版本的固件`。两个任选一个
+
+1、 [编译自己的esp32固件](firmware-build.md)了。
+
+2、 [基于虾哥编译好的固件配置自定义服务器](firmware-setting.md)了。
+
+
+以下是一些常见问题,供参考:
+
+[1、为什么我说的话,小智识别出来很多韩文、日文、英文](./FAQ.md)
+
+[2、为什么会出现“TTS 任务出错 文件不存在”?](./FAQ.md)
+
+[3、TTS 经常失败,经常超时](./FAQ.md)
+
+[4、使用Wifi能连接自建服务器,但是4G模式却接不上](./FAQ.md)
+
+[5、如何提高小智对话响应速度?](./FAQ.md)
+
+[6、我说话很慢,停顿时小智老是抢话](./FAQ.md)
+
+[7、我想通过小智控制电灯、空调、远程开关机等操作](./FAQ.md)
diff --git a/xiaozhi-esp32-server/docs/Deployment_all.md b/xiaozhi-esp32-server/docs/Deployment_all.md
new file mode 100755
index 0000000..da98499
--- /dev/null
+++ b/xiaozhi-esp32-server/docs/Deployment_all.md
@@ -0,0 +1,449 @@
+# 部署架构图
+
+# 方式一:Docker运行全模块
+docker镜像已支持x86架构、arm64架构的CPU,支持在国产操作系统上运行。
+
+## 1. 安装docker
+
+如果您的电脑还没安装docker,可以按照这里的教程安装:[docker安装](https://www.runoob.com/docker/ubuntu-docker-install.html)
+
+#### 1.1 创建目录
+
+安装完后,你需要为这个项目找一个安放配置文件的目录,例如我们可以新建一个文件夹叫`xiaozhi-server`。
+
+创建好目录后,你需要在`xiaozhi-server`下面创建`data`文件夹和`models`文件夹,`models`下面还要再创建`SenseVoiceSmall`文件夹。
+
+最终目录结构如下所示:
+
+```
+xiaozhi-server
+ ├─ data
+ ├─ models
+ ├─ SenseVoiceSmall
+```
+
+#### 1.2 下载语音识别模型文件
+
+本项目语音识别模型,默认使用`SenseVoiceSmall`模型,进行语音转文字。因为模型较大,需要独立下载,下载后把`model.pt`
+文件放在`models/SenseVoiceSmall`
+目录下。下面两个下载路线任选一个。
+
+- 线路一:阿里魔塔下载[SenseVoiceSmall](https://modelscope.cn/models/iic/SenseVoiceSmall/resolve/master/model.pt)
+- 线路二:百度网盘下载[SenseVoiceSmall](https://pan.baidu.com/share/init?surl=QlgM58FHhYv1tFnUT_A8Sg&pwd=qvna) 提取码:
+ `qvna`
+
+
+#### 1.3 下载配置文件
+
+你需要下载两个配置文件:`docker-compose_all.yaml` 和 `config_from_api.yaml`。需要从项目仓库下载这两个文件。
+
+##### 1.3.1 下载 docker-compose_all.yaml
+
+用浏览器打开[这个链接](../main/xiaozhi-server/docker-compose_all.yml)。
+
+在页面的右侧找到名称为`RAW`按钮,在`RAW`按钮的旁边,找到下载的图标,点击下载按钮,下载`docker-compose_all.yml`文件。 把文件下载到你的
+`xiaozhi-server`中。
+
+或者直接执行 `wget https://raw.githubusercontent.com/xinnan-tech/xiaozhi-esp32-server/refs/heads/main/main/xiaozhi-server/docker-compose_all.yml` 下载。
+
+下载完后,回到本教程继续往下。
+
+##### 1.3.2 下载 config_from_api.yaml
+
+用浏览器打开[这个链接](../main/xiaozhi-server/config_from_api.yaml)。
+
+在页面的右侧找到名称为`RAW`按钮,在`RAW`按钮的旁边,找到下载的图标,点击下载按钮,下载`config_from_api.yaml`文件。 把文件下载到你的
+`xiaozhi-server`下面的`data`文件夹中,然后把`config_from_api.yaml`文件重命名为`.config.yaml`。
+
+或者直接执行 `wget https://raw.githubusercontent.com/xinnan-tech/xiaozhi-esp32-server/refs/heads/main/main/xiaozhi-server/config_from_api.yaml` 下载保存。
+
+下载完配置文件后,我们确认一下整个`xiaozhi-server`里面的文件如下所示:
+
+```
+xiaozhi-server
+ ├─ docker-compose_all.yml
+ ├─ data
+ ├─ .config.yaml
+ ├─ models
+ ├─ SenseVoiceSmall
+ ├─ model.pt
+```
+
+如果你的文件目录结构也是上面的,就继续往下。如果不是,你就再仔细看看是不是漏操作了什么。
+
+## 2. 备份数据
+
+如果你之前已经成功运行智控台,如果上面保存有你的密钥信息,请先从智控台上拷贝重要数据下来。因为升级过程中,有可能会覆盖原来的数据。
+
+## 3. 清除历史版本镜像和容器
+接下来打开命令行工具,使用`终端`或`命令行`工具 进入到你的`xiaozhi-server`,执行以下命令
+
+```
+docker compose -f docker-compose_all.yml down
+
+docker stop xiaozhi-esp32-server
+docker rm xiaozhi-esp32-server
+
+docker stop xiaozhi-esp32-server-web
+docker rm xiaozhi-esp32-server-web
+
+docker stop xiaozhi-esp32-server-db
+docker rm xiaozhi-esp32-server-db
+
+docker stop xiaozhi-esp32-server-redis
+docker rm xiaozhi-esp32-server-redis
+
+docker rmi ghcr.nju.edu.cn/xinnan-tech/xiaozhi-esp32-server:server_latest
+docker rmi ghcr.nju.edu.cn/xinnan-tech/xiaozhi-esp32-server:web_latest
+```
+
+## 4. 运行程序
+执行以下命令启动新版本容器
+
+```
+docker compose -f docker-compose_all.yml up -d
+```
+
+执行完后,再执行以下命令,查看日志信息。
+
+```
+docker logs -f xiaozhi-esp32-server-web
+```
+
+当你看到输出日志时,说明你的`智控台`启动成功了。
+
+```
+2025-xx-xx 22:11:12.445 [main] INFO c.a.d.s.b.a.DruidDataSourceAutoConfigure - Init DruidDataSource
+2025-xx-xx 21:28:53.873 [main] INFO xiaozhi.AdminApplication - Started AdminApplication in 16.057 seconds (process running for 17.941)
+http://localhost:8002/xiaozhi/doc.html
+```
+
+请注意此刻仅是`智控台`能运行,如果8000端口`xiaozhi-esp32-server`报错,先不要理会。
+
+这时,你需要使用浏览器,打开`智控台`,链接:http://127.0.0.1:8002 ,注册第一个用户。第一个用户即是超级管理员,以后的用户都是普通用户。普通用户只能绑定设备和配置智能体;超级管理员可以进行模型管理、用户管理、参数配置等功能。
+
+接下来要做三件重要的事情:
+
+### 第一件重要的事情
+
+使用超级管理员账号,登录智控台,在顶部菜单找到`参数管理`,找到列表中第一条数据,参数编码是`server.secret`,复制它到`参数值`。
+
+`server.secret`需要说明一下,这个`参数值`很重要,作用是让我们的`Server`端连接`manager-api`。`server.secret`是每次从零部署manager模块时,会自动随机生成的密钥。
+
+复制`参数值`后,打开`xiaozhi-server`下的`data`目录的`.config.yaml`文件。此刻你的配置文件内容应该是这样的:
+
+```
+manager-api:
+ url: http://127.0.0.1:8002/xiaozhi
+ secret: 你的server.secret值
+```
+1、把你刚才从`智控台`复制过来的`server.secret`的`参数值`复制到`.config.yaml`文件里的`secret`里。
+
+2、因为你是docker部署,把`url`改成下面的`http://xiaozhi-esp32-server-web:8002/xiaozhi`
+
+3、因为你是docker部署,把`url`改成下面的`http://xiaozhi-esp32-server-web:8002/xiaozhi`
+
+4、因为你是docker部署,把`url`改成下面的`http://xiaozhi-esp32-server-web:8002/xiaozhi`
+
+类似这样的效果
+```
+manager-api:
+ url: http://xiaozhi-esp32-server-web:8002/xiaozhi
+ secret: 12345678-xxxx-xxxx-xxxx-123456789000
+```
+
+保存好后,继续往下做第二件重要的事情
+
+### 第二件重要的事情
+
+使用超级管理员账号,登录智控台,在顶部菜单找到`模型配置`,然后在左侧栏点击`大语言模型`,找到第一条数据`智谱AI`,点击`修改`按钮,
+弹出修改框后,将你注册到的`智谱AI`的密钥填写到`API密钥`中。然后点击保存。
+
+## 5.重启xiaozhi-esp32-server
+
+接下来打开命令行工具,使用`终端`或`命令行`工具 输入
+```
+docker restart xiaozhi-esp32-server
+docker logs -f xiaozhi-esp32-server
+```
+如果你能看到,类似以下日志,则是Server启动成功的标志。
+
+```
+25-02-23 12:01:09[core.websocket_server] - INFO - Websocket地址是 ws://xxx.xx.xx.xx:8000/xiaozhi/v1/
+25-02-23 12:01:09[core.websocket_server] - INFO - =======上面的地址是websocket协议地址,请勿用浏览器访问=======
+25-02-23 12:01:09[core.websocket_server] - INFO - 如想测试websocket请用谷歌浏览器打开test目录下的test_page.html
+25-02-23 12:01:09[core.websocket_server] - INFO - =======================================================
+```
+
+由于你是全模块部署,因此你有两个重要的接口需要写入到esp32中。
+
+OTA接口:
+```
+http://你电脑局域网的ip:8002/xiaozhi/ota/
+```
+
+Websocket接口:
+```
+ws://你电脑局域网的ip:8000/xiaozhi/v1/
+```
+
+### 第三件重要的事情
+
+使用超级管理员账号,登录智控台,在顶部菜单找到`参数管理`,找到参数编码是`server.websocket`,输入你的`Websocket接口`。
+
+使用超级管理员账号,登录智控台,在顶部菜单找到`参数管理`,找到数编码是`server.ota`,输入你的`OTA接口`。
+
+接下来,你就可以开始操作你的esp32设备了,你可以`自行编译esp32固件`也可以配置使用`虾哥编译好的1.6.1以上版本的固件`。两个任选一个
+
+1、 [编译自己的esp32固件](firmware-build.md)了。
+
+2、 [基于虾哥编译好的固件配置自定义服务器](firmware-setting.md)了。
+
+
+# 方式二:本地源码运行全模块
+
+## 1.安装MySQL数据库
+
+如果本机已经安装了MySQL,可以直接在数据库中创建名为`xiaozhi_esp32_server`的数据库。
+
+```sql
+CREATE DATABASE xiaozhi_esp32_server CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
+```
+
+如果还没有MySQL,你可以通过docker安装mysql
+
+```
+docker run --name xiaozhi-esp32-server-db -e MYSQL_ROOT_PASSWORD=123456 -p 3306:3306 -e MYSQL_DATABASE=xiaozhi_esp32_server -e MYSQL_INITDB_ARGS="--character-set-server=utf8mb4 --collation-server=utf8mb4_unicode_ci" -e TZ=Asia/Shanghai -d mysql:latest
+```
+
+## 2.安装redis
+
+如果还没有Redis,你可以通过docker安装redis
+
+```
+docker run --name xiaozhi-esp32-server-redis -d -p 6379:6379 redis
+```
+
+## 3.运行manager-api程序
+
+3.1 安装JDK21,设置JDK环境变量
+
+3.2 安装Maven,设置Maven环境变量
+
+3.3 使用Vscode编程工具,安装好Java环境相关插件
+
+3.4 使用Vscode编程工具加载manager-api模块
+
+在`src/main/resources/application-dev.yml`中配置数据库连接信息
+
+```
+spring:
+ datasource:
+ username: root
+ password: 123456
+```
+在`src/main/resources/application-dev.yml`中配置Redis连接信息
+```
+spring:
+ data:
+ redis:
+ host: localhost
+ port: 6379
+ password:
+ database: 0
+```
+
+3.5 运行主程序
+
+本项目为SpringBoot项目,启动方式为:
+打开`Application.java`运行`Main`方法启动
+
+```
+路径地址:
+src/main/java/xiaozhi/AdminApplication.java
+```
+
+当你看到输出日志时,说明你的`manager-api`启动成功了。
+
+```
+2025-xx-xx 22:11:12.445 [main] INFO c.a.d.s.b.a.DruidDataSourceAutoConfigure - Init DruidDataSource
+2025-xx-xx 21:28:53.873 [main] INFO xiaozhi.AdminApplication - Started AdminApplication in 16.057 seconds (process running for 17.941)
+http://localhost:8002/xiaozhi/doc.html
+```
+
+## 4.运行manager-web程序
+
+4.1 安装nodejs
+
+4.2 使用Vscode编程工具加载manager-web模块
+
+终端命令进入manager-web目录下
+
+```
+npm install
+```
+然后启动
+```
+npm run serve
+```
+
+请注意,如果你的manager-api的接口不在`http://localhost:8002`,请在开发时,修改
+`main/manager-web/.env.development`中的路径
+
+运行成功后,你需要使用浏览器,打开`智控台`,链接:http://127.0.0.1:8001 ,注册第一个用户。第一个用户即是超级管理员,以后的用户都是普通用户。普通用户只能绑定设备和配置智能体;超级管理员可以进行模型管理、用户管理、参数配置等功能。
+
+
+重要:注册成功后,使用超级管理员账号,登录智控台,在顶部菜单找到`模型配置`,然后在左侧栏点击`大语言模型`,找到第一条数据`智谱AI`,点击`修改`按钮,
+弹出修改框后,将你注册到的`智谱AI`的密钥填写到`API密钥`中。然后点击保存。
+
+重要:注册成功后,使用超级管理员账号,登录智控台,在顶部菜单找到`模型配置`,然后在左侧栏点击`大语言模型`,找到第一条数据`智谱AI`,点击`修改`按钮,
+弹出修改框后,将你注册到的`智谱AI`的密钥填写到`API密钥`中。然后点击保存。
+
+重要:注册成功后,使用超级管理员账号,登录智控台,在顶部菜单找到`模型配置`,然后在左侧栏点击`大语言模型`,找到第一条数据`智谱AI`,点击`修改`按钮,
+弹出修改框后,将你注册到的`智谱AI`的密钥填写到`API密钥`中。然后点击保存。
+
+## 5.安装Python环境
+
+本项目使用`conda`管理依赖环境。如果不方便安装`conda`,需要根据实际的操作系统安装好`libopus`和`ffmpeg`。
+如果确定使用`conda`,则安装好后,开始执行以下命令。
+
+重要提示!windows 用户,可以通过安装`Anaconda`来管理环境。安装好`Anaconda`后,在`开始`那里搜索`anaconda`相关的关键词,
+找到`Anaconda Prpmpt`,使用管理员身份运行它。如下图。
+
+
+
+运行之后,如果你能看到命令行窗口前面有一个(base)字样,说明你成功进入了`conda`环境。那么你就可以执行以下命令了。
+
+
+
+```
+conda remove -n xiaozhi-esp32-server --all -y
+conda create -n xiaozhi-esp32-server python=3.10 -y
+conda activate xiaozhi-esp32-server
+
+# 添加清华源通道
+conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
+conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
+conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
+
+conda install libopus -y
+conda install ffmpeg -y
+```
+
+请注意,以上命令,不是一股脑执行就成功的,你需要一步步执行,每一步执行完后,都检查一下输出的日志,查看是否成功。
+
+## 6.安装本项目依赖
+
+你先要下载本项目源码,源码可以通过`git clone`命令下载,如果你不熟悉`git clone`命令。
+
+你可以用浏览器打开这个地址`https://github.com/xinnan-tech/xiaozhi-esp32-server.git`
+
+打开完,找到页面中一个绿色的按钮,写着`Code`的按钮,点开它,然后你就看到`Download ZIP`的按钮。
+
+点击它,下载本项目源码压缩包。下载到你电脑后,解压它,此时它的名字可能叫`xiaozhi-esp32-server-main`
+你需要把它重命名成`xiaozhi-esp32-server`,在这个文件里,进入到`main`文件夹,再进入到`xiaozhi-server`,好了请记住这个目录`xiaozhi-server`。
+
+```
+# 继续使用conda环境
+conda activate xiaozhi-esp32-server
+# 进入到你的项目根目录,再进入main/xiaozhi-server
+cd main/xiaozhi-server
+pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/
+pip install -r requirements.txt
+```
+
+### 7.下载语音识别模型文件
+
+本项目语音识别模型,默认使用`SenseVoiceSmall`模型,进行语音转文字。因为模型较大,需要独立下载,下载后把`model.pt`
+文件放在`models/SenseVoiceSmall`
+目录下。下面两个下载路线任选一个。
+
+- 线路一:阿里魔塔下载[SenseVoiceSmall](https://modelscope.cn/models/iic/SenseVoiceSmall/resolve/master/model.pt)
+- 线路二:百度网盘下载[SenseVoiceSmall](https://pan.baidu.com/share/init?surl=QlgM58FHhYv1tFnUT_A8Sg&pwd=qvna) 提取码:
+ `qvna`
+
+## 8.配置项目文件
+
+使用超级管理员账号,登录智控台 ,在顶部菜单找到`参数管理`,找到列表中第一条数据,参数编码是`server.secret`,复制它到`参数值`。
+
+`server.secret`需要说明一下,这个`参数值`很重要,作用是让我们的`Server`端连接`manager-api`。`server.secret`是每次从零部署manager模块时,会自动随机生成的密钥。
+
+如果你的`xiaozhi-server`目录没有`data`,你需要创建`data`目录。
+如果你的`data`下面没有`.config.yaml`文件,你可以把`xiaozhi-server`目录下的`config_from_api.yaml`文件复制到`data`,并重命名为`.config.yaml`
+
+复制`参数值`后,打开`xiaozhi-server`下的`data`目录的`.config.yaml`文件。此刻你的配置文件内容应该是这样的:
+
+```
+manager-api:
+ url: http://127.0.0.1:8002/xiaozhi
+ secret: 你的server.secret值
+```
+
+把你刚才从`智控台`复制过来的`server.secret`的`参数值`复制到`.config.yaml`文件里的`secret`里。
+
+类似这样的效果
+```
+manager-api:
+ url: http://127.0.0.1:8002/xiaozhi
+ secret: 12345678-xxxx-xxxx-xxxx-123456789000
+```
+
+## 5.运行项目
+
+```
+# 确保在xiaozhi-server目录下执行
+conda activate xiaozhi-esp32-server
+python app.py
+```
+
+如果你能看到,类似以下日志,则是本项目服务启动成功的标志。
+
+```
+25-02-23 12:01:09[core.websocket_server] - INFO - Server is running at ws://xxx.xx.xx.xx:8000/xiaozhi/v1/
+25-02-23 12:01:09[core.websocket_server] - INFO - =======上面的地址是websocket协议地址,请勿用浏览器访问=======
+25-02-23 12:01:09[core.websocket_server] - INFO - 如想测试websocket请用谷歌浏览器打开test目录下的test_page.html
+25-02-23 12:01:09[core.websocket_server] - INFO - =======================================================
+```
+
+由于你是全模块部署,因此你有两个重要的接口。
+
+OTA接口:
+```
+http://你电脑局域网的ip:8002/xiaozhi/ota/
+```
+
+Websocket接口:
+```
+ws://你电脑局域网的ip:8000/xiaozhi/v1/
+```
+
+请你务必把以上两个接口地址写入到智控台中:他们将会影响websocket地址发放和自动升级功能。
+
+1、使用超级管理员账号,登录智控台,在顶部菜单找到`参数管理`,找到参数编码是`server.websocket`,输入你的`Websocket接口`。
+
+2、使用超级管理员账号,登录智控台,在顶部菜单找到`参数管理`,找到数编码是`server.ota`,输入你的`OTA接口`。
+
+
+接下来,你就可以开始操作你的esp32设备了,你可以`自行编译esp32固件`也可以配置使用`虾哥编译好的1.6.1以上版本的固件`。两个任选一个
+
+1、 [编译自己的esp32固件](firmware-build.md)了。
+
+2、 [基于虾哥编译好的固件配置自定义服务器](firmware-setting.md)了。
+
+# 常见问题
+
+以下是一些常见问题,供参考:
+
+[1、为什么我说的话,小智识别出来很多韩文、日文、英文](./FAQ.md)
+
+[2、为什么会出现“TTS 任务出错 文件不存在”?](./FAQ.md)
+
+[3、TTS 经常失败,经常超时](./FAQ.md)
+
+[4、使用Wifi能连接自建服务器,但是4G模式却接不上](./FAQ.md)
+
+[5、如何提高小智对话响应速度?](./FAQ.md)
+
+[6、我说话很慢,停顿时小智老是抢话](./FAQ.md)
+
+[7、我想通过小智控制电灯、空调、远程开关机等操作](./FAQ.md)
diff --git a/xiaozhi-esp32-server/docs/FAQ.md b/xiaozhi-esp32-server/docs/FAQ.md
new file mode 100755
index 0000000..e2d428e
--- /dev/null
+++ b/xiaozhi-esp32-server/docs/FAQ.md
@@ -0,0 +1,119 @@
+# 常见问题 ❓
+
+### 1、为什么我说的话,小智识别出来很多韩文、日文、英文?🇰🇷
+
+建议:检查一下`models/SenseVoiceSmall`是否已经有`model.pt`
+文件,如果没有就要下载,查看这里[下载语音识别模型文件](Deployment.md#模型文件)
+
+### 2、为什么会出现"TTS 任务出错 文件不存在"?📁
+
+建议:检查一下是否正确使用`conda` 安装了`libopus`和`ffmpeg`库。
+
+如果没有安装,就安装
+
+```
+conda install conda-forge::libopus
+conda install conda-forge::ffmpeg
+```
+
+### 3、TTS 经常失败,经常超时 ⏰
+
+建议:如果 `EdgeTTS` 经常失败,请先检查是否使用了代理(梯子)。如果使用了,请尝试关闭代理后再试;
+如果用的是火山引擎的豆包 TTS,经常失败时建议使用付费版本,因为测试版本仅支持 2 个并发。
+
+### 4、使用Wifi能连接自建服务器,但是4G模式却接不上 🔐
+
+原因:虾哥的固件,4G模式需要使用安全连接。
+
+解决方法:目前有两种方法可以解决。任选一种:
+
+1、改代码。参考这个视频解决 https://www.bilibili.com/video/BV18MfTYoE85
+
+2、使用nginx配置ssl证书。参考教程 https://icnt94i5ctj4.feishu.cn/docx/GnYOdMNJOoRCljx1ctecsj9cnRe
+
+### 5、如何提高小智对话响应速度? ⚡
+
+本项目默认配置为低成本方案,建议初学者先使用默认免费模型,解决"跑得动"的问题,再优化"跑得快"。
+如需提升响应速度,可尝试更换各组件。以下为各组件的响应速度测试数据(仅供参考,不构成承诺):
+
+| 影响因素 | 因素值 |
+|:-----:|:----------------:|
+| 测试地点 | 广东省广州市海珠区 |
+| 测试时间 | 2025年2月19日 12:52 |
+| 宽带运营商 | 中国联通 |
+
+测试方法:
+
+1、把各组件的密钥配置上去,只有配置了密钥的组件才参与测试。
+
+2、配置完密钥后,执行以下方法
+
+```
+# 进入项目根目录,执行以下命令:
+conda activate xiaozhi-esp32-server
+python performance_tester.py
+```
+
+生成报告如下
+
+LLM 性能排行:
+
+| 模块名称 | 平均首Token时间 | 平均总响应时间 |
+|:-----------|:-----------|:--------|
+| AliLLM | 0.547s | 1.485s |
+| ChatGLMLLM | 0.677s | 3.057s |
+
+TTS 性能排行:
+
+| 模块名称 | 平均合成时间 |
+|----------------------|--------|
+| EdgeTTS | 1.019s |
+| DoubaoTTS | 0.503s |
+| CosyVoiceSiliconflow | 3.732s |
+
+推荐配置组合 (综合响应速度):
+
+| 组合方案 | 综合得分 | LLM首Token | TTS合成 |
+|-------------------------------|-------|-----------|--------|
+| AliLLM + DoubaoTTS | 0.539 | 0.547s | 0.503s |
+| AliLLM + EdgeTTS | 0.642 | 0.547s | 1.019s |
+| ChatGLMLLM + DoubaoTTS | 0.642 | 0.677s | 0.503s |
+| ChatGLMLLM + EdgeTTS | 0.745 | 0.677s | 1.019s |
+| AliLLM + CosyVoiceSiliconflow | 1.184 | 0.547s | 3.732s |
+
+### 结论 🔍
+
+`2025年2月19日`,如果我的电脑在`广东省广州市海珠区`,且使用的是`中国联通`网络,我会优先使用:
+
+- LLM:`AliLLM`
+- TTS:`DoubaoTTS`
+
+### 6、我说话很慢,停顿时小智老是抢话 🗣️
+
+建议:在配置文件中找到如下部分,将 `min_silence_duration_ms` 的值调大(例如改为 `1000`):
+
+```yaml
+VAD:
+ SileroVAD:
+ threshold: 0.5
+ model_dir: models/snakers4_silero-vad
+ min_silence_duration_ms: 700 # 如果说话停顿较长,可将此值调大
+```
+
+### 7、我想通过小智控制电灯、空调、远程开关机等操作 💡
+
+参考教程[ESP32设备与HomeAssistant集成指南](./homeassistant-integration.md)
+
+### 8、如何开启手机注册智控台 📱
+
+参考教程[阿里云短信集成指南](./ali-sms-integration.md)
+
+### 9、如何开启视觉模型实现拍照识物 📷
+
+参考教程[视觉模型使用指南](./mcp-vision-integration.md)
+
+### 10、更多问题,可联系我们反馈 💬
+
+可以在[issues](https://github.com/xinnan-tech/xiaozhi-esp32-server/issues)提交您的问题。
+
+也可以发邮件我们取得联系:huangrongzhuang@xin-nan.com
\ No newline at end of file
diff --git a/xiaozhi-esp32-server/docs/ali-sms-integration.md b/xiaozhi-esp32-server/docs/ali-sms-integration.md
new file mode 100755
index 0000000..1be2778
--- /dev/null
+++ b/xiaozhi-esp32-server/docs/ali-sms-integration.md
@@ -0,0 +1,44 @@
+# 阿里云短信集成指南
+
+登录阿里云控制台,进入“短信服务”页面:https://dysms.console.aliyun.com/overview
+
+## 第一步 添加签名
+
+
+
+以上步骤,会得到签名,请把它写入到智控台参数,`aliyun.sms.sign_name`
+
+## 第二步 添加模版
+
+
+以上步骤,会得到模版code,请把它写入到智控台参数,`aliyun.sms.sms_code_template_code`
+
+注意,签名要等7个工作日,等运营商报备成功后才能发送成功。
+
+注意,签名要等7个工作日,等运营商报备成功后才能发送成功。
+
+注意,签名要等7个工作日,等运营商报备成功后才能发送成功。
+
+可以等报备成功后,再继续往下操作。
+
+## 第三步 创建短信账户和开通权限
+
+登录阿里云控制台,进入“访问控制”页面:https://ram.console.aliyun.com/overview?activeTab=overview
+
+
+
+
+
+
+
+以上步骤,会得到access_key_id和access_key_secret,请把它写入到智控台参数,`aliyun.sms.access_key_id`、`aliyun.sms.access_key_secret`
+## 第四步 启动手机注册功能
+
+1、正常来说,以上信息都填完后,会有这个效果,如果没有,可能缺少了某个步骤
+
+
+
+2、开启允许非管理员用户可注册,将参数`server.allow_user_register`设置成`true`
+
+3、开启手机注册功能,将参数`server.enable_mobile_register`设置成`true`
+
\ No newline at end of file
diff --git a/xiaozhi-esp32-server/docs/contributor_open_letter.md b/xiaozhi-esp32-server/docs/contributor_open_letter.md
new file mode 100755
index 0000000..7a54719
--- /dev/null
+++ b/xiaozhi-esp32-server/docs/contributor_open_letter.md
@@ -0,0 +1,50 @@
+# 致开发者的公开信
+
+"春江水暖鸭先知,正是河豚欲上时!"
+
+亲爱的朋友,我是John,是一名普通公司里的Java程序员,今天,我怀着无比真挚的心情,向热爱AI技术与创新的你发出这封公开信。
+
+半年前我看到很多优秀的项目,比如`Dify`、`Chat2DB`等人工智能相关的项目,我在想,我要是能参与这些项目多好,可惜“报国无门,空打十年代码”。
+
+我是2025年初刷到虾哥团队的视频,我非常好奇他是怎么实现的,我想复刻他们的后端服务,打造一个低成本民用贾维斯。很可惜现在做的作品依然只是一个人工智障,它并发低、没有灵魂,响应很慢,bug很多。
+
+虾哥团队是我们学习的对象,我很想拥有像虾哥团队一样智能的小智后端服务。但是我也能理解虾哥不开源的决定。“一花独放不是春,百花齐放春满园”,人工智能遍地开花的时代,也许就在我们这代实现,我们可以用自己的双手,实现低成本民用贾维斯。我个人认为,他能实现的,我们也能实现,只是时间问题而已,我称之为“我们的取经之路”。
+
+那么这条取经之路,我们会遇到什么困难?我想应该不少于八十一难。这一路必然会出现各种妖怪,当然也有神仙暗中帮助我们,也有人加入取经队伍。
+
+以上内容,如果你觉得好笑。那我也觉得非常的幸运。我能够在你人生3万多天里博你笑五秒,也算是为你做了一次贡献。
+
+民用低成本贾维斯这个想法,会失败吗,我不知道,但是我们普通人的一生,这种失败不是很常见吗?
+
+未来,有一点是可以确定的,就一定会有人完全复刻虾哥团队的功能,实现民用低成本贾维斯。这个项目会是我们吗?
+
+期待与你携手前行,共创未来。
+
+John,2025.3.11,广州
+
+# 附 开发贡献指南
+## 项目目标
+
+1. **民用低成本贾维斯解决方案**
+
+2. **智能联动周边硬件的解决方案**
+
+## 加入我们
+
+我们热忱欢迎志同道合的朋友加入,共同为项目贡献力量。您可在[这个链接](https://github.com/users/xinnan-tech/projects/3)查看我们近期要实现的功能,功能列表中还没指派相关人员处理的,正是急需您的参与。参与方式如下:
+
+### 1、成为普通贡献者
+
+Fork 项目,提交 PR,由开发者审核后合入主分支。
+
+### 2、成为开发者
+
+当你累计提交 3 次有效 PR 后,可以联系群主申请成为开发者,群主将邀请你加入独立的开发者群,共同探讨项目未来。
+
+## 开发者开发流程
+
+1. **创建新分支**
+ 每个功能点请以新分支方式开发,分支名称应简洁明了,让人一眼看出所实现的功能,避免功能撞车。
+
+2. **提交 PR 审核**
+ 功能开发完成后,请在 GitHub 上提交 PR,由其他开发者审核,审核通过后合并入主分支。
diff --git a/xiaozhi-esp32-server/docs/dev-ops-integration.md b/xiaozhi-esp32-server/docs/dev-ops-integration.md
new file mode 100755
index 0000000..bb9640b
--- /dev/null
+++ b/xiaozhi-esp32-server/docs/dev-ops-integration.md
@@ -0,0 +1,163 @@
+# 全模块源码部署自动升级方法
+
+本教程是方便全模块源码部署的爱好者,如何通过自动命令,自动拉取源码,自动编译,自动启动端口运行。实现最高效率的升级系统。
+
+本项目的测试平台`https://2662r3426b.vicp.fun`,从开放以来就使用了该方法,效果良好。
+
+# 开始条件
+- 你的电脑/服务器是linux操作系统
+- 你已经跑通了整个流程
+- 你喜欢跟进最新功能,但是觉得每次手动部署有点麻烦,期待有一个自动更新的方法
+
+第二个条件必须满足,因为本教程所涉及的某些文件,JDK、Node.js环境、Conda环境等,是需要你跑通整个流程才有的,如果你没有跑通,当我讲到某个文件的时候,你可能就不知道什么意思。
+
+# 教程效果
+- 解决国内不能拉取最新项目源码问题
+- 自动拉取代码编译前端文件
+- 自动拉取代码编译java文件,自动杀掉8002端口,自动启动8002端口
+- 自动拉取python代码,自动杀掉8000端口,自动启动8000端口
+
+# 第一步 选好你的项目目录
+
+例如,我规划了我的项目目录是,这是一个新建的空白的目录,如果你不想出错,可以和我一样
+```
+/home/system/xiaozhi
+```
+
+# 第二步 克隆本项目
+此刻,先要执行第一句话,拉取源码,这句命令适用于国内网络的服务器和电脑,无需翻墙
+
+```
+cd /home/system/xiaozhi
+git clone https://ghproxy.net/https://github.com/xinnan-tech/xiaozhi-esp32-server.git
+```
+
+执行完后,你的项目目录会多了一个文件夹`xiaozhi-esp32-server`,这个就是项目的源码
+
+# 第三步 复制基础的文件
+
+如果你之前已经跑通了整个流程,对funasr的模型文件`xiaozhi-server/models/SenseVoiceSmall/model.pt`和你的私有配置文件`xiaozhi-server/data/.config.yaml`这两个文件不会陌生。
+
+此刻你需要把`model.pt`文件复制到新的目录去,你可以这样
+```
+cp 你原来的.config.yaml完整路径 /home/system/xiaozhi/xiaozhi-esp32-server/main/xiaozhi-server/data/.config.yaml
+cp 你原来的model.pt完整路径 /home/system/xiaozhi/xiaozhi-esp32-server/main/xiaozhi-server/models/SenseVoiceSmall/model.pt
+```
+
+# 第四步 建立三个自动编译文件
+
+## 4.1 自动编译mananger-web模块
+在`/home/system/xiaozhi/`目录下,创建名字为`update_8001.sh`的文件,内容如下
+
+```
+cd /home/system/xiaozhi/xiaozhi-esp32-server
+git fetch --all
+git reset --hard
+git pull origin main
+
+
+cd /home/system/xiaozhi/xiaozhi-esp32-server/main/manager-web
+npm install
+npm run build
+rm -rf /home/system/xiaozhi/manager-web
+mv /home/system/xiaozhi/xiaozhi-esp32-server/main/manager-web/dist /home/system/xiaozhi/manager-web
+```
+
+保存好后执行赋权命令
+```
+chmod 777 update_8001.sh
+```
+执行完后,继续往下
+
+## 4.2 自动编译运行manager-api模块
+在`/home/system/xiaozhi/`目录下,创建名字为`update_8002.sh`的文件,内容如下
+
+```
+cd /home/system/xiaozhi/xiaozhi-esp32-server
+git pull origin main
+
+
+cd /home/system/xiaozhi/xiaozhi-esp32-server/main/manager-api
+rm -rf target
+mvn clean package -Dmaven.test.skip=true
+cd /home/system/xiaozhi/
+
+# 查找占用8002端口的进程号
+PID=$(sudo netstat -tulnp | grep 8002 | awk '{print $7}' | cut -d'/' -f1)
+
+rm -rf /home/system/xiaozhi/xiaozhi-esp32-api.jar
+mv /home/system/xiaozhi/xiaozhi-esp32-server/main/manager-api/target/xiaozhi-esp32-api.jar /home/system/xiaozhi/xiaozhi-esp32-api.jar
+
+# 检查是否找到进程号
+if [ -z "$PID" ]; then
+ echo "没有找到占用8002端口的进程"
+else
+ echo "找到占用8002端口的进程,进程号为: $PID"
+ # 杀掉进程
+ kill -9 $PID
+ kill -9 $PID
+ echo "已杀掉进程 $PID"
+fi
+
+nohup java -jar xiaozhi-esp32-api.jar --spring.profiles.active=dev &
+```
+
+保存好后执行赋权命令
+```
+chmod 777 update_8002.sh
+```
+执行完后,继续往下
+
+## 4.3 自动编译运行Python项目
+在`/home/system/xiaozhi/`目录下,创建名字为`update_8000.sh`的文件,内容如下
+
+```
+cd /home/system/xiaozhi/xiaozhi-esp32-server
+git pull origin main
+
+# 查找占用8000端口的进程号
+PID=$(sudo netstat -tulnp | grep 8000 | awk '{print $7}' | cut -d'/' -f1)
+
+# 检查是否找到进程号
+if [ -z "$PID" ]; then
+ echo "没有找到占用8000端口的进程"
+else
+ echo "找到占用8000端口的进程,进程号为: $PID"
+ # 杀掉进程
+ kill -9 $PID
+ kill -9 $PID
+ echo "已杀掉进程 $PID"
+fi
+cd main/xiaozhi-server
+pip install -r requirements.txt
+nohup python app.py >/dev/null &
+```
+
+保存好后执行赋权命令
+```
+chmod 777 update_8000.sh
+```
+执行完后,继续往下
+
+# 日常更新
+
+以上的脚本都建立好后,日常更新,我们只要依次执行以下命令就可以做到自动更新和启动
+
+```
+# 进入pyhton环境
+conda activate xiaozhi-esp32-server
+cd /home/system/xiaozhi
+# 更新并启动Java程序
+./update_8001.sh
+# 更新web程序
+./update_8002.sh
+# 更新并启动python程序
+./update_8000.sh
+# 查看Java日志
+tail -f nohup.out
+# 查看Python日志
+tail -f /home/system/xiaozhi/xiaozhi-esp32-server/main/xiaozhi-server/tmp/server.log
+```
+
+# 注意事项
+测试平台`https://2662r3426b.vicp.fun`,是使用nginx做了反向代理。nginx.conf详细配置可以[参考这里](https://github.com/xinnan-tech/xiaozhi-esp32-server/issues/791)
diff --git a/xiaozhi-esp32-server/docs/docker-build.md b/xiaozhi-esp32-server/docs/docker-build.md
new file mode 100755
index 0000000..45102a7
--- /dev/null
+++ b/xiaozhi-esp32-server/docs/docker-build.md
@@ -0,0 +1,21 @@
+# 本地编译docker镜像方法
+
+现在本项目已经使用github自动编译docker功能,本文档是提供给有本地编译docker镜像需求的朋友准备的。
+
+1、安装docker
+```
+sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin
+```
+2、编译docker镜像
+```
+#进入项目根目录
+# 编译server
+docker build -t xiaozhi-esp32-server:server_latest -f ./Dockerfile-server .
+# 编译web
+docker build -t xiaozhi-esp32-server:web_latest -f ./Dockerfile-web .
+
+# 编译完成后,可以使用docker-compose启动项目
+# docker-compose.yml你需要修改成自己编译的镜像版本
+cd main/xiaozhi-server
+docker-compose up -d
+```
diff --git a/xiaozhi-esp32-server/docs/docker/nginx.conf b/xiaozhi-esp32-server/docs/docker/nginx.conf
new file mode 100755
index 0000000..9b9c388
--- /dev/null
+++ b/xiaozhi-esp32-server/docs/docker/nginx.conf
@@ -0,0 +1,53 @@
+user root;
+worker_processes 4;
+
+events {
+ worker_connections 1024;
+}
+
+http {
+ include mime.types;
+ default_type application/octet-stream;
+ sendfile on;
+ keepalive_timeout 300;
+ client_header_timeout 180s;
+ client_body_timeout 180s;
+ client_max_body_size 1024M;
+
+ gzip on;
+ gzip_buffers 32 4K;
+ gzip_comp_level 6;
+ gzip_min_length 100;
+ gzip_types application/javascript text/css text/xml image/jpeg image/gif image/png;
+ gzip_disable "MSIE [1-6]\.";
+ gzip_vary on;
+
+ server {
+ # 无域名访问,就用localhost
+ server_name localhost;
+ # 80端口
+ listen 8002;
+
+ # 转发到编译后到web目录
+ location / {
+ root /usr/share/nginx/html;
+ try_files $uri $uri/ /index.html;
+ }
+
+ # 转发到manager-api
+ location /xiaozhi/ {
+ proxy_pass http://127.0.0.1:8003;
+ proxy_set_header Host $host;
+ proxy_cookie_path /manager/ /;
+ proxy_set_header Referer $http_referer;
+ proxy_set_header Cookie $http_cookie;
+
+ proxy_connect_timeout 10;
+ proxy_send_timeout 10;
+ proxy_read_timeout 10;
+
+ proxy_set_header X-Real-IP $remote_addr;
+ proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
+ }
+ }
+}
\ No newline at end of file
diff --git a/xiaozhi-esp32-server/docs/docker/start.sh b/xiaozhi-esp32-server/docs/docker/start.sh
new file mode 100755
index 0000000..bdaa1e1
--- /dev/null
+++ b/xiaozhi-esp32-server/docs/docker/start.sh
@@ -0,0 +1,12 @@
+#!/bin/bash
+# 启动Java后端(docker内监听8003端口)
+java -jar /app/xiaozhi-esp32-api.jar \
+ --server.port=8003 \
+ --spring.datasource.druid.url=${SPRING_DATASOURCE_DRUID_URL} \
+ --spring.datasource.druid.username=${SPRING_DATASOURCE_DRUID_USERNAME} \
+ --spring.datasource.druid.password=${SPRING_DATASOURCE_DRUID_PASSWORD} \
+ --spring.data.redis.host=${SPRING_DATA_REDIS_HOST} \
+ --spring.data.redis.port=${SPRING_DATA_REDIS_PORT} &
+
+# 启动Nginx(前台运行保持容器存活)
+nginx -g 'daemon off;'
\ No newline at end of file
diff --git a/xiaozhi-esp32-server/docs/firmware-build.md b/xiaozhi-esp32-server/docs/firmware-build.md
new file mode 100755
index 0000000..64584b2
--- /dev/null
+++ b/xiaozhi-esp32-server/docs/firmware-build.md
@@ -0,0 +1,138 @@
+# esp32固件编译
+
+## 第1步 准备你的ota地址
+
+如果你,使用的是本项目0.3.12版本,不管是简单Server部署还是全模块部署,都会有ota地址。
+
+由于简单Server部署和全模块部署的OTA地址设置方式不一样,请你选择下面的具体方式:
+
+### 如果你用的是简单Server部署
+此刻,请你用浏览器打开你的ota地址,例如我的ota地址
+```
+http://192.168.1.25:8003/xiaozhi/ota/
+```
+如果显示“OTA接口运行正常,向设备发送的websocket地址是:ws://xxx:8000/xiaozhi/v1/
+
+你可以使用项目自带的`test_page.html`测试一下,是否能连上ota页面输出的websocket地址。
+
+如果访问不到,你需要到配置文件`.config.yaml`里修改`server.websocket`的地址,重启后再重新测试,直到`test_page.html`能正常访问。
+
+成功后,请往下进行第2步
+
+### 如果你用的是全模块部署
+此刻,请你用浏览器打开你的ota地址,例如我的ota地址
+```
+http://192.168.1.25:8002/xiaozhi/ota/
+```
+
+如果显示“OTA接口运行正常,websocket集群数量:X”。那就往下进行2步。
+
+如果显示“OTA接口运行不正常”,大概是你还没在`智控台`配置`Websocket`地址。那就:
+
+- 1、使用超级管理员登录智控台
+
+- 2、顶部菜单点击`参数管理`
+
+- 3、在列表中找到`server.websocket`项目,输入你的`Websocket`地址。例如我的就是
+
+```
+ws://192.168.1.25:8000/xiaozhi/v1/
+```
+
+配置完后,再使用浏览器刷新你的ota接口地址,看看是不是正常了。如果还不正常就,就再次确认一下Websocket是否正常启动,是否配置了Websocket地址。
+
+## 第2步 配置环境
+先按照这个教程配置项目环境[《Windows搭建 ESP IDF 5.3.2开发环境以及编译小智》](https://icnynnzcwou8.feishu.cn/wiki/JEYDwTTALi5s2zkGlFGcDiRknXf)
+
+## 第3步 打开配置文件
+配置好编译环境后,下载虾哥iaozhi-esp32项目源码,
+
+从这里下载虾哥[xiaozhi-esp32项目源码](https://github.com/78/xiaozhi-esp32)。
+
+下载后,打开`xiaozhi-esp32/main/Kconfig.projbuild`文件。
+
+## 第4步 修改OTA地址
+
+找到`OTA_URL`的`default`的内容,把`https://api.tenclass.net/xiaozhi/ota/`
+ 改成你自己的地址,例如,我的接口地址是`http://192.168.1.25:8002/xiaozhi/ota/`,就把内容改成这个。
+
+修改前:
+```
+config OTA_URL
+ string "Default OTA URL"
+ default "https://api.tenclass.net/xiaozhi/ota/"
+ help
+ The application will access this URL to check for new firmwares and server address.
+```
+修改后:
+```
+config OTA_URL
+ string "Default OTA URL"
+ default "http://192.168.1.25:8002/xiaozhi/ota/"
+ help
+ The application will access this URL to check for new firmwares and server address.
+```
+
+## 第4步 设置编译参数
+
+设置编译参数
+
+```
+# 终端命令行进入xiaozhi-esp32的根目录
+cd xiaozhi-esp32
+# 例如我使用的板子是esp32s3,所以设置编译目标为esp32s3,如果你的板子是其他型号,请替换成对应的型号
+idf.py set-target esp32s3
+# 进入菜单配置
+idf.py menuconfig
+```
+
+进入菜单配置后,再进入`Xiaozhi Assistant`,将`BOARD_TYPE`设置你板子的具体型号
+保存退出,回到终端命令行。
+
+## 第5步 编译固件
+
+```
+idf.py build
+```
+
+## 第6步 打包bin固件
+
+```
+cd scripts
+python release.py
+```
+
+上面的打包命令执行完成后,会在项目根目录下的`build`目录下生成固件文件`merged-binary.bin`。
+这个`merged-binary.bin`就是要烧录到硬件上的固件文件。
+
+注意:如果执行到第二命令后,报了“zip”相关的错误,请忽略这个错误,只要`build`目录下生成固件文件`merged-binary.bin`
+,对你没有太大影响,请继续。
+
+## 第7步 烧录固件
+ 将esp32设备连接电脑,使用chrome浏览器,打开以下网址
+
+```
+https://espressif.github.io/esp-launchpad/
+```
+
+打开这个教程,[Flash工具/Web端烧录固件(无IDF开发环境)](https://ccnphfhqs21z.feishu.cn/wiki/Zpz4wXBtdimBrLk25WdcXzxcnNS)。
+翻到:`方式二:ESP-Launchpad 浏览器WEB端烧录`,从`3. 烧录固件/下载到开发板`开始,按照教程操作。
+
+烧录成功且联网成功后,通过唤醒词唤醒小智,留意server端输出的控制台信息。
+
+## 常见问题
+以下是一些常见问题,供参考:
+
+[1、为什么我说的话,小智识别出来很多韩文、日文、英文](./FAQ.md)
+
+[2、为什么会出现“TTS 任务出错 文件不存在”?](./FAQ.md)
+
+[3、TTS 经常失败,经常超时](./FAQ.md)
+
+[4、使用Wifi能连接自建服务器,但是4G模式却接不上](./FAQ.md)
+
+[5、如何提高小智对话响应速度?](./FAQ.md)
+
+[6、我说话很慢,停顿时小智老是抢话](./FAQ.md)
+
+[7、我想通过小智控制电灯、空调、远程开关机等操作](./FAQ.md)
diff --git a/xiaozhi-esp32-server/docs/firmware-setting.md b/xiaozhi-esp32-server/docs/firmware-setting.md
new file mode 100755
index 0000000..0ed350a
--- /dev/null
+++ b/xiaozhi-esp32-server/docs/firmware-setting.md
@@ -0,0 +1,54 @@
+# 基于虾哥编译好的固件配置自定义服务器
+
+## 第1步 确认版本
+烧录虾哥已经编译好的[1.6.1版本以上固件](https://github.com/78/xiaozhi-esp32/releases)
+
+## 第2步 准备你的ota地址
+如果你按照教程使用的是全模块部署,就应该会有ota地址。
+
+此刻,请你用浏览器打开你的ota地址,例如我的ota地址
+```
+https://2662r3426b.vicp.fun/xiaozhi/ota/
+```
+
+如果显示“OTA接口运行正常,websocket集群数量:X”。那就往下。
+
+如果显示“OTA接口运行不正常”,大概是你还没在`智控台`配置`Websocket`地址。那就:
+
+- 1、使用超级管理员登录智控台
+
+- 2、顶部菜单点击`参数管理`
+
+- 3、在列表中找到`server.websocket`项目,输入你的`Websocket`地址。例如我的就是
+
+```
+wss://2662r3426b.vicp.fun/xiaozhi/v1/
+```
+
+配置完后,再使用浏览器刷新你的ota接口地址,看看是不是正常了。如果还不正常就,就再次确认一下Websocket是否正常启动,是否配置了Websocket地址。
+
+## 第3步 进入配网模式
+进入机器的配网模式,在页面顶部,点击“高级选项”,在里面输入你服务器的`ota`地址,点击保存。重启设备
+
+
+## 第4步 唤醒小智,查看日志输出
+
+唤醒小智,看看日志是不是正常输出。
+
+
+## 常见问题
+以下是一些常见问题,供参考:
+
+[1、为什么我说的话,小智识别出来很多韩文、日文、英文](./FAQ.md)
+
+[2、为什么会出现“TTS 任务出错 文件不存在”?](./FAQ.md)
+
+[3、TTS 经常失败,经常超时](./FAQ.md)
+
+[4、使用Wifi能连接自建服务器,但是4G模式却接不上](./FAQ.md)
+
+[5、如何提高小智对话响应速度?](./FAQ.md)
+
+[6、我说话很慢,停顿时小智老是抢话](./FAQ.md)
+
+[7、我想通过小智控制电灯、空调、远程开关机等操作](./FAQ.md)
diff --git a/xiaozhi-esp32-server/docs/fish-speech-integration.md b/xiaozhi-esp32-server/docs/fish-speech-integration.md
new file mode 100755
index 0000000..b916e61
--- /dev/null
+++ b/xiaozhi-esp32-server/docs/fish-speech-integration.md
@@ -0,0 +1,72 @@
+登录AutoDL,租赁镜像
+选择镜像:
+```
+PyTorch / 2.1.0 / 3.10(ubuntu22.04) / cuda 12.1
+```
+
+机器开机后,设置学术加速
+```
+source /etc/network_turbo
+```
+
+进入工作目录
+```
+cd autodl-tmp/
+```
+
+拉取项目
+```
+git clone https://gitclone.com/github.com/fishaudio/fish-speech.git ; cd fish-speech
+```
+
+安装依赖
+```
+pip install -e.
+```
+
+如果报错,安装portaudio
+```
+apt-get install portaudio19-dev -y
+```
+
+安装后执行
+```
+pip install torch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 --index-url https://download.pytorch.org/whl/cu121
+```
+
+下载模型
+```
+cd tools
+python download_models.py
+```
+
+下载完模型后运行接口
+```
+python -m tools.api_server --listen 0.0.0.0:6006
+```
+
+然后用浏览器去到aotodl实例页面
+```
+https://autodl.com/console/instance/list
+```
+
+如下图点击你刚才机器的`自定义服务`按钮,开启端口转发服务
+
+
+端口转发服务设置完成后,你本地电脑打开网址`http://localhost:6006/`,就可以访问fish-speech的接口了
+
+
+
+如果你是单模块部署,核心配置如下
+```
+selected_module:
+ TTS: FishSpeech
+TTS:
+ FishSpeech:
+ reference_audio: ["config/assets/wakeup_words.wav",]
+ reference_text: ["哈啰啊,我是小智啦,声音好听的台湾女孩一枚,超开心认识你耶,最近在忙啥,别忘了给我来点有趣的料哦,我超爱听八卦的啦",]
+ api_key: "123"
+ api_url: "http://127.0.0.1:6006/v1/tts"
+```
+
+然后重启服务
\ No newline at end of file
diff --git a/xiaozhi-esp32-server/docs/homeassistant-integration.md b/xiaozhi-esp32-server/docs/homeassistant-integration.md
new file mode 100755
index 0000000..7e69c22
--- /dev/null
+++ b/xiaozhi-esp32-server/docs/homeassistant-integration.md
@@ -0,0 +1,226 @@
+# 小智ESP32-开源服务端与HomeAssistant集成指南
+
+[TOC]
+
+-----
+
+## 简介
+
+本文档将指导您如何将ESP32设备与HomeAssistant进行集成。
+
+## 前提条件
+
+- 已安装并配置好`HomeAssistant`
+- 本次我选择的模型是:免费的ChatGLM,它支持functioncall函数调用
+
+## 开始前的操作(必要)
+
+### 1. 获取HA的网络网络地址信息
+
+请访问你Home Assistant的网络地址,例如,我的HA的地址是192.168.4.7,端口则是默认的8123,则在浏览器打开
+
+```
+http://192.168.4.7:8123
+```
+
+> 手动查询 HA 的 IP 地址方法**(仅限小智esp32-server和HA部署在同一个网络设备[例如同一个wifi]下)**:
+>
+> 1. 进入 Home Assistant(前端)。
+>
+> 2. 点击左下角 **设置(Settings)** → **系统(System)** → **网络(Network)**。
+>
+> 3. 滑到最底部`Home Assistant 网址(Home Assistant website)`区域,在`本地网络(local network)`中,点击`眼睛`按钮,可以看到当前使用的 IP 地址(如 `192.168.1.10`)和网络接口。点击`复制连接(copy link)`可以直接复制。
+>
+> 
+
+或,您已经设置了直接可以访问的Home Assistant的OAuth地址,您也可以在浏览器内直接访问
+
+```
+http://homeassistant.local:8123
+```
+
+### 2. 登录`Home Assistant`拿到开发密钥
+
+登录`HomeAssistant`,点击`左下角头像 -> 个人`,切换`安全`导航栏,划到底部`长期访问令牌`生成api_key,并复制保存,后续的方法都需要使用这个api key且仅出现一次(小tips: 您可以保存生成的二维码图像,后续可以扫描二维码再此提取api key)。
+
+## 方法1:小智社区共建的HA调用功能
+
+### 功能描述
+
+- 如您后续需要增加新的设备,该方法需要手动重启`xiaozhi-esp32-server服务端`以此更新设备信息**(重要**)。
+
+- 需要您确保已经在HomeAssistant中集成`Xiaomi Home`,并将米家的设备导入进`HomeAssistant`。
+
+- 需要您确保`xiaozhi-esp32-server智控台`能正常使用。
+
+- 我的`xiaozhi-esp32-server智控台`和`HomeAssistant`部署在同一台机器的另一个端口,版本是`0.3.10`
+
+ ```
+ http://192.168.4.7:8002
+ ```
+
+
+### 配置步骤
+
+#### 1. 登录`HomeAssistant`整理需要控制的设备清单
+
+登录`HomeAssistant`,点击`左下角的设置`,然后进入`设备与服务`,再点击顶部的`实体`。
+
+然后在实体中搜索你相关控制的开关,结果出来后,在列表中,点击其中一个结果,这是会出现一个开关的界面。
+
+在开关的界面,我们尝试点击开关,看看是开发会随着我们的点击开/关。如果能操作,说明是正常联网的。
+
+接着在开关面板找到设置按钮,点击后,可以查看这个开关的`实体标识符`。
+
+我们打开一个记事本,按照这样格式整理一条数据:
+
+位置+英文逗号+设备名称+英文逗号+`实体标识符`+英文分号
+
+例如,我在公司,我有一个玩具灯,他的标识符是switch.cuco_cn_460494544_cp1_on_p_2_1,那么就这个写这一条数据
+
+```
+公司,玩具灯,switch.cuco_cn_460494544_cp1_on_p_2_1;
+```
+
+当然最后我可能要操作两个灯,我的最终的结果是:
+
+```
+公司,玩具灯,switch.cuco_cn_460494544_cp1_on_p_2_1;
+公司,台灯,switch.iot_cn_831898993_socn1_on_p_2_1;
+```
+
+这段字符,我们称为“设备清单字符”需要保存好,等一下有用。
+
+#### 2. 登录`智控台`
+
+
+
+使用管理员账号,登录`智控台`。在`智能体管理`,找到你的智能体,再点击`配置角色`。
+
+将意图识别设置成`函数调用`或`LLM意图识别`。这时你会看到右侧有一个`编辑功能`。点击`编辑功能`按钮,会弹出`功能管理`的框。
+
+在`功能管理`的框里,你需要勾选`HomeAssistant设备状态查询`和`HomeAssistant设备状态修改`。
+
+勾选后,在`已选功能`点击`HomeAssistant设备状态查询`,然后在`参数配置`里配置你的`HomeAssistant`地址、密钥、设备清单字符。
+
+编辑好后,点击`保存配置`,这时`功能管理`的框会隐藏,这时你再点击保存智能体配置。
+
+保存成功后,即可唤醒设备操作。
+
+#### 3. 唤醒设别进行控制
+
+尝试和esp32说,“打开XXX灯”
+
+## 方法2:小智将Home Assistant的语音助手作为LLM工具
+
+### 功能描述
+
+- 该方法有一个比较严重的缺点——**该方法无法使用小智开源生态的function_call插件功能的能力**,因为使用Home Assistant作为小智的LLM工具会将意图识别能力转让给Home Assistant。但是**这个方法是能体验到原生的Home Assistant操作功能,且小智的聊天能力不变**。如实在介意可以使用同样是Home Assistant支持的[方法3](##方法3:使用Home Assistant的MCP服务(推荐)),能够最大程度体验到Home Assistant的功能。
+
+### 配置步骤:
+
+#### 1. 配置Home Assistant的大模型语音助手。
+
+**需要您提前配置好Home Assistant的语音助手或大模型工具。**
+
+#### 2. 获取Home Assistant的语言助手的Agent ID.
+
+1. 进入Home Assistant页面内。左侧点击`开发者助手`。
+2. 在打开的`开发者助手`内,点击`动作`选项卡(如图示操作1),在页面内的选项栏`动作`中,找到或输入`conversation.process(对话-处理)`并选择`对话(conversation): 处理`(如图示操作2)。
+
+
+
+3. 在页面内勾选`代理(agent)`选项,在变成常亮的`对话代理(conversation agent)`内选择您步骤一配置好的语音助手名称,如图示,我这边配置好的是`ZhipuAi`并选择。
+
+
+
+4. 选中后,点击表单左下方的`进入YAML模式`。
+
+
+
+5. 复制其中的agent-id的值,例如图示中我的是`01JP2DYMBDF7F4ZA2DMCF2AGX2`(仅供参考)。
+
+
+
+6. 切换到小智开源服务端`xiaozhi-esp32-server`的`config.yaml`文件内,在LLM配置中,找到Home Assistant,设置您的Home Assistant的网络地址,Api key和刚刚查询到的agent_id。
+7. 修改`config.yaml`文件内的`selected_module`属性的`LLM`为`HomeAssistant`,`Intent`为`nointent`。
+8. 重启小智开源服务端`xiaozhi-esp32-server`即可正常使用。
+
+## 方法3:使用Home Assistant的MCP服务(推荐)
+
+### 功能描述
+
+- 需要您提前在Home Assistant内集成并安装好HA集成——[Model Context Protocol Server](https://www.home-assistant.io/integrations/mcp_server/)。
+
+- 这个方法与方法2都是HA官方提供的解决方法,与方法2不同的是,您可以正常使用小智开源服务端`xiaozhi-esp32-server`的开源共建的插件,同时允许您随意使用任何一个支持function_call功能的LLM大模型。
+
+### 配置步骤
+
+#### 1. 安装Home Assistant的MCP服务集成。
+
+集成官方网址——[Model Context Protocol Server](https://www.home-assistant.io/integrations/mcp_server/)。。
+
+或跟随以下手动操作。
+
+> - 前往Home Assistant页面的**[设置 > 设备和服务(Settings > Devices & Services.)](https://my.home-assistant.io/redirect/integrations)**。
+>
+> - 在右下角,选择 **[添加集成(Add Integration)](https://my.home-assistant.io/redirect/config_flow_start?domain=mcp_server)**按钮。
+>
+> - 从列表中选择**模型上下文协议服务器(Model Context Protocol Server)**。
+>
+> - 按照屏幕上的说明完成设置。
+
+#### 2. 配置小智开源服务端MCP配置信息
+
+
+进入`data`目录,找到`.mcp_server_settings.json`文件。
+
+如果你的`data`目录下没有`.mcp_server_settings.json`文件,
+- 请把在`xiaozhi-server`文件夹根目录的`mcp_server_settings.json`文件复制到`data`目录下,并重命名为`.mcp_server_settings.json`
+- 或[下载这个文件](https://github.com/xinnan-tech/xiaozhi-esp32-server/blob/main/main/xiaozhi-server/mcp_server_settings.json),下载到`data`目录下,并重命名为`.mcp_server_settings.json`
+
+
+修改`"mcpServers"`里的这部分的内容:
+
+```json
+"Home Assistant": {
+ "command": "mcp-proxy",
+ "args": [
+ "http://YOUR_HA_HOST/mcp_server/sse"
+ ],
+ "env": {
+ "API_ACCESS_TOKEN": "YOUR_API_ACCESS_TOKEN"
+ }
+},
+```
+
+注意:
+
+1. **替换配置:**
+ - 替换`args`内的`YOUR_HA_HOST`为您的HA服务地址,如果你的服务地址已经包含了https/http字样(例如`http://192.168.1.101:8123`),则只需要填入`192.168.1.101:8123`即可。
+ - 将`env`内`API_ACCESS_TOKEN`的`YOUR_API_ACCESS_TOKEN`替换成您之前获取到的开发密钥api key。
+2. **如果你添加配置是在`"mcpServers"`的括号内后续没有新的`mcpServers`的配置时,需要把最后的逗号`,`移除**,否则可能会解析失败。
+
+**最后效果参考以下(参考如下)**:
+
+```json
+ "mcpServers": {
+ "Home Assistant": {
+ "command": "mcp-proxy",
+ "args": [
+ "http://192.168.1.101:8123/mcp_server/sse"
+ ],
+ "env": {
+ "API_ACCESS_TOKEN": "abcd.efghi.jkl"
+ }
+ }
+ }
+```
+
+#### 3. 配置小智开源服务端的系统配置
+
+1. **选择任意一款支持function_call的LLM大模型作为小智的LLM聊天助手(但不要选择Home Assistant作为LLM工具)**,本次我选择的模型是:免费的ChatGLM,它支持functioncall函数调用,但部分时候调用不太稳定,如果像追求稳定建议把LLM设置成:DoubaoLLM,使用的具体model_name是:doubao-1-5-pro-32k-250115。
+
+2. 切换到小智开源服务端`xiaozhi-esp32-server`的`config.yaml`文件内,设置您的LLM大模型配置,并且将`selected_module`配置的`Intent`调整为`function_call`。
+
+3. 重启小智开源服务端`xiaozhi-esp32-server`即可正常使用。
\ No newline at end of file
diff --git a/xiaozhi-esp32-server/docs/images/__init__.py b/xiaozhi-esp32-server/docs/images/__init__.py
new file mode 100755
index 0000000..e69de29
diff --git a/xiaozhi-esp32-server/docs/images/alisms/sms-01.png b/xiaozhi-esp32-server/docs/images/alisms/sms-01.png
new file mode 100755
index 0000000..89c56f5
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/alisms/sms-01.png differ
diff --git a/xiaozhi-esp32-server/docs/images/alisms/sms-02.png b/xiaozhi-esp32-server/docs/images/alisms/sms-02.png
new file mode 100755
index 0000000..22537f3
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/alisms/sms-02.png differ
diff --git a/xiaozhi-esp32-server/docs/images/alisms/sms-11.png b/xiaozhi-esp32-server/docs/images/alisms/sms-11.png
new file mode 100755
index 0000000..05fcaf5
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/alisms/sms-11.png differ
diff --git a/xiaozhi-esp32-server/docs/images/alisms/sms-21.png b/xiaozhi-esp32-server/docs/images/alisms/sms-21.png
new file mode 100755
index 0000000..5bfc280
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/alisms/sms-21.png differ
diff --git a/xiaozhi-esp32-server/docs/images/alisms/sms-22.png b/xiaozhi-esp32-server/docs/images/alisms/sms-22.png
new file mode 100755
index 0000000..3d83984
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/alisms/sms-22.png differ
diff --git a/xiaozhi-esp32-server/docs/images/alisms/sms-23.png b/xiaozhi-esp32-server/docs/images/alisms/sms-23.png
new file mode 100755
index 0000000..584d8d6
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/alisms/sms-23.png differ
diff --git a/xiaozhi-esp32-server/docs/images/alisms/sms-24.png b/xiaozhi-esp32-server/docs/images/alisms/sms-24.png
new file mode 100755
index 0000000..1b22c35
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/alisms/sms-24.png differ
diff --git a/xiaozhi-esp32-server/docs/images/alisms/sms-25.png b/xiaozhi-esp32-server/docs/images/alisms/sms-25.png
new file mode 100755
index 0000000..3bb68cf
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/alisms/sms-25.png differ
diff --git a/xiaozhi-esp32-server/docs/images/alisms/sms-31.png b/xiaozhi-esp32-server/docs/images/alisms/sms-31.png
new file mode 100755
index 0000000..7f0ee6c
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/alisms/sms-31.png differ
diff --git a/xiaozhi-esp32-server/docs/images/alisms/sms-32.png b/xiaozhi-esp32-server/docs/images/alisms/sms-32.png
new file mode 100755
index 0000000..db06cc4
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/alisms/sms-32.png differ
diff --git a/xiaozhi-esp32-server/docs/images/banner1.png b/xiaozhi-esp32-server/docs/images/banner1.png
new file mode 100755
index 0000000..974ddaf
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/banner1.png differ
diff --git a/xiaozhi-esp32-server/docs/images/banner2.png b/xiaozhi-esp32-server/docs/images/banner2.png
new file mode 100755
index 0000000..4d54073
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/banner2.png differ
diff --git a/xiaozhi-esp32-server/docs/images/conda_env_1.png b/xiaozhi-esp32-server/docs/images/conda_env_1.png
new file mode 100755
index 0000000..114256a
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/conda_env_1.png differ
diff --git a/xiaozhi-esp32-server/docs/images/conda_env_2.png b/xiaozhi-esp32-server/docs/images/conda_env_2.png
new file mode 100755
index 0000000..61f4626
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/conda_env_2.png differ
diff --git a/xiaozhi-esp32-server/docs/images/demo0.png b/xiaozhi-esp32-server/docs/images/demo0.png
new file mode 100755
index 0000000..99592be
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/demo0.png differ
diff --git a/xiaozhi-esp32-server/docs/images/demo1.png b/xiaozhi-esp32-server/docs/images/demo1.png
new file mode 100755
index 0000000..9878827
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/demo1.png differ
diff --git a/xiaozhi-esp32-server/docs/images/demo10.png b/xiaozhi-esp32-server/docs/images/demo10.png
new file mode 100755
index 0000000..08bdb77
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/demo10.png differ
diff --git a/xiaozhi-esp32-server/docs/images/demo11.png b/xiaozhi-esp32-server/docs/images/demo11.png
new file mode 100755
index 0000000..36e16a1
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/demo11.png differ
diff --git a/xiaozhi-esp32-server/docs/images/demo12.png b/xiaozhi-esp32-server/docs/images/demo12.png
new file mode 100755
index 0000000..c658d67
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/demo12.png differ
diff --git a/xiaozhi-esp32-server/docs/images/demo13.png b/xiaozhi-esp32-server/docs/images/demo13.png
new file mode 100755
index 0000000..1ad79fa
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/demo13.png differ
diff --git a/xiaozhi-esp32-server/docs/images/demo2.png b/xiaozhi-esp32-server/docs/images/demo2.png
new file mode 100755
index 0000000..6b30494
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/demo2.png differ
diff --git a/xiaozhi-esp32-server/docs/images/demo3.png b/xiaozhi-esp32-server/docs/images/demo3.png
new file mode 100755
index 0000000..e1bc859
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/demo3.png differ
diff --git a/xiaozhi-esp32-server/docs/images/demo4.png b/xiaozhi-esp32-server/docs/images/demo4.png
new file mode 100755
index 0000000..7b57ab2
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/demo4.png differ
diff --git a/xiaozhi-esp32-server/docs/images/demo5.png b/xiaozhi-esp32-server/docs/images/demo5.png
new file mode 100755
index 0000000..c6da299
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/demo5.png differ
diff --git a/xiaozhi-esp32-server/docs/images/demo6.png b/xiaozhi-esp32-server/docs/images/demo6.png
new file mode 100755
index 0000000..18d8f5f
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/demo6.png differ
diff --git a/xiaozhi-esp32-server/docs/images/demo7.png b/xiaozhi-esp32-server/docs/images/demo7.png
new file mode 100755
index 0000000..ed7a355
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/demo7.png differ
diff --git a/xiaozhi-esp32-server/docs/images/demo8.png b/xiaozhi-esp32-server/docs/images/demo8.png
new file mode 100755
index 0000000..affe6ce
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/demo8.png differ
diff --git a/xiaozhi-esp32-server/docs/images/demo9.png b/xiaozhi-esp32-server/docs/images/demo9.png
new file mode 100755
index 0000000..ce74a02
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/demo9.png differ
diff --git a/xiaozhi-esp32-server/docs/images/deploy1.png b/xiaozhi-esp32-server/docs/images/deploy1.png
new file mode 100755
index 0000000..70488bc
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/deploy1.png differ
diff --git a/xiaozhi-esp32-server/docs/images/deploy2.png b/xiaozhi-esp32-server/docs/images/deploy2.png
new file mode 100755
index 0000000..61c3699
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/deploy2.png differ
diff --git a/xiaozhi-esp32-server/docs/images/firmware-setting-ota.png b/xiaozhi-esp32-server/docs/images/firmware-setting-ota.png
new file mode 100755
index 0000000..c151fd9
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/firmware-setting-ota.png differ
diff --git a/xiaozhi-esp32-server/docs/images/fishspeech/autodl-01.png b/xiaozhi-esp32-server/docs/images/fishspeech/autodl-01.png
new file mode 100755
index 0000000..695b94b
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/fishspeech/autodl-01.png differ
diff --git a/xiaozhi-esp32-server/docs/images/fishspeech/autodl-02.png b/xiaozhi-esp32-server/docs/images/fishspeech/autodl-02.png
new file mode 100755
index 0000000..e3f72af
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/fishspeech/autodl-02.png differ
diff --git a/xiaozhi-esp32-server/docs/images/image-ha-integration-01.png b/xiaozhi-esp32-server/docs/images/image-ha-integration-01.png
new file mode 100755
index 0000000..eb05461
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/image-ha-integration-01.png differ
diff --git a/xiaozhi-esp32-server/docs/images/image-ha-integration-02.png b/xiaozhi-esp32-server/docs/images/image-ha-integration-02.png
new file mode 100755
index 0000000..7431def
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/image-ha-integration-02.png differ
diff --git a/xiaozhi-esp32-server/docs/images/image-ha-integration-03.png b/xiaozhi-esp32-server/docs/images/image-ha-integration-03.png
new file mode 100755
index 0000000..3f1aa59
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/image-ha-integration-03.png differ
diff --git a/xiaozhi-esp32-server/docs/images/image-ha-integration-04.png b/xiaozhi-esp32-server/docs/images/image-ha-integration-04.png
new file mode 100755
index 0000000..29b402e
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/image-ha-integration-04.png differ
diff --git a/xiaozhi-esp32-server/docs/images/image-ha-integration-05.png b/xiaozhi-esp32-server/docs/images/image-ha-integration-05.png
new file mode 100755
index 0000000..1aa8ffc
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/image-ha-integration-05.png differ
diff --git a/xiaozhi-esp32-server/docs/images/image-ha-integration-06.png b/xiaozhi-esp32-server/docs/images/image-ha-integration-06.png
new file mode 100755
index 0000000..56ef98f
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/image-ha-integration-06.png differ
diff --git a/xiaozhi-esp32-server/docs/images/logo_bailing.png b/xiaozhi-esp32-server/docs/images/logo_bailing.png
new file mode 100755
index 0000000..22ab6e1
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/logo_bailing.png differ
diff --git a/xiaozhi-esp32-server/docs/images/logo_huiyuan.png b/xiaozhi-esp32-server/docs/images/logo_huiyuan.png
new file mode 100755
index 0000000..6e44191
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/logo_huiyuan.png differ
diff --git a/xiaozhi-esp32-server/docs/images/logo_qinren.png b/xiaozhi-esp32-server/docs/images/logo_qinren.png
new file mode 100755
index 0000000..a01af84
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/logo_qinren.png differ
diff --git a/xiaozhi-esp32-server/docs/images/logo_tenclass.png b/xiaozhi-esp32-server/docs/images/logo_tenclass.png
new file mode 100755
index 0000000..86a6dc4
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/logo_tenclass.png differ
diff --git a/xiaozhi-esp32-server/docs/images/logo_xuanfeng.png b/xiaozhi-esp32-server/docs/images/logo_xuanfeng.png
new file mode 100755
index 0000000..552ee78
Binary files /dev/null and b/xiaozhi-esp32-server/docs/images/logo_xuanfeng.png differ
diff --git a/xiaozhi-esp32-server/docs/mcp-endpoint-integration.md b/xiaozhi-esp32-server/docs/mcp-endpoint-integration.md
new file mode 100755
index 0000000..ca72aef
--- /dev/null
+++ b/xiaozhi-esp32-server/docs/mcp-endpoint-integration.md
@@ -0,0 +1,134 @@
+# MCP 接入点部署使用指南
+
+本教程包含2个部分
+- 1、如何开启mcp接入点
+- 2、如何为智能体接入一个简单的mcp功能,如计算器功能
+
+部署的前提条件:
+- 1、你已经部署了全模块,因为mcp接入点需要全模块中的智控台功能
+- 2、你想在不修改xiaozhi-server项目的前提下,扩展小智的功能
+
+# 如何开启mcp接入点
+
+## 第一步,下载mcp接入点项目源码
+
+浏览器打开[mcp接入点项目地址](https://github.com/xinnan-tech/mcp-endpoint-server)
+
+打开完,找到页面中一个绿色的按钮,写着`Code`的按钮,点开它,然后你就看到`Download ZIP`的按钮。
+
+点击它,下载本项目源码压缩包。下载到你电脑后,解压它,此时它的名字可能叫`mcp-endpoint-server-main`
+你需要把它重命名成`mcp-endpoint-server`。
+
+## 第二步,启动程序
+这个项目是一个很简单的项目,建议使用docker运行。不过如果你不想使用docker运行,你可以参考[这个页面](https://github.com/xinnan-tech/mcp-endpoint-server/blob/main/README_dev.md)使用源码运行。以下是docker运行的方法
+
+```
+# 进入本项目源码根目录
+cd mcp-endpoint-server
+
+# 清除缓存
+docker compose -f docker-compose.yml down
+docker stop mcp-endpoint-server
+docker rm mcp-endpoint-server
+docker rmi ghcr.nju.edu.cn/xinnan-tech/mcp-endpoint-server:latest
+
+# 启动docker容器
+docker compose -f docker-compose.yml up -d
+# 查看日志
+docker logs -f mcp-endpoint-server
+```
+
+此时,日志里会输出类似以下的日志
+```
+======================================================
+接口地址: http://172.1.1.1:8004/mcp_endpoint/health?key=xxxx
+=======上面的地址是MCP接入点地址,请勿泄露给任何人============
+```
+
+请你把接口地址复制出来:
+
+由于你是docker部署,切不可直接使用上面的地址!
+
+由于你是docker部署,切不可直接使用上面的地址!
+
+由于你是docker部署,切不可直接使用上面的地址!
+
+你先把地址复制出来,放在一个草稿里,你要知道你的电脑的局域网ip是什么,例如我的电脑局域网ip是`192.168.1.25`,那么
+原来我的接口地址
+```
+http://172.1.1.1:8004/mcp_endpoint/health?key=xxxx
+```
+就要改成
+```
+http://192.168.1.25:8004/mcp_endpoint/health?key=xxxx
+```
+
+改好后,请使用浏览器直接访问这个接口。当浏览器出现类似这样的代码,说明是成功了。
+```
+{"result":{"status":"success","connections":{"tool_connections":0,"robot_connections":0,"total_connections":0}},"error":null,"id":null,"jsonrpc":"2.0"}
+```
+
+请你保留好这个`接口地址`,下一步要用到。
+
+## 第三步,配置智控台
+
+使用管理员账号,登录智控台,点击顶部`参数字典`,选择`参数管理`功能。
+
+然后搜索参数`server.mcp_endpoint`,此时,它的值应该是`null`值。
+点击修改按钮,把上一步得来的`接口地址`粘贴到`参数值`里。然后保存。
+
+如果能保存成功,说明一切顺利,你可以去智能体查看效果了。如果不成功,说明智控台无法访问mcp接入点,很大概率是网络防火墙,或者没有填写正确的局域网ip。
+
+# 如何为智能体接入一个简单的mcp功能,如计算器功能
+
+如果以上步骤顺利,你可以进入智能体管理,点击`配置角色`,在`意图识别`的右边,有一个`编辑功能`的按钮。
+
+点击这个按钮。在弹出的页面里,位于底部,会有`MCP接入点`,正常来说,会显示这个智能体的`MCP接入点地址`,接下来,我们来给这个智能体扩展一个基于MCP技术的计算器的功能。
+
+这个`MCP接入点地址`很重要,你等一下会用到。
+
+## 第一步 下载虾哥MCP计算器项目代码
+
+浏览器打开虾哥写的[计算器项目](https://github.com/78/mcp-calculator),
+
+打开完,找到页面中一个绿色的按钮,写着`Code`的按钮,点开它,然后你就看到`Download ZIP`的按钮。
+
+点击它,下载本项目源码压缩包。下载到你电脑后,解压它,此时它的名字可能叫`mcp-calculatorr-main`
+你需要把它重命名成`mcp-calculator`。接下来,我们用命令行进入项目目录即安装依赖
+
+
+```bash
+# 进入项目目录
+cd mcp-calculator
+
+conda remove -n mcp-calculator --all -y
+conda create -n mcp-calculator python=3.10 -y
+conda activate mcp-calculator
+
+pip install -r requirements.txt
+```
+
+## 第二步 启动
+
+启动前,先从你的智控台的智能体里,复制到了MCP接入点的地址。
+
+例如我的智能体的mcp地址是
+```
+ws://192.168.4.7:8004/mcp_endpoint/mcp/?token=abc
+```
+
+开始输入命令
+
+```bash
+export MCP_ENDPOINT=ws://192.168.4.7:8004/mcp_endpoint/mcp/?token=abc
+```
+
+输入完后,启动程序
+
+```bash
+python mcp_pipe.py calculator.py
+```
+
+
+启动完后,你再进入智控台,点击刷新MCP的接入状态,就会看到你扩展的功能列表了。
+
diff --git a/xiaozhi-esp32-server/docs/mcp-vision-integration.md b/xiaozhi-esp32-server/docs/mcp-vision-integration.md
new file mode 100755
index 0000000..dbeaa8c
--- /dev/null
+++ b/xiaozhi-esp32-server/docs/mcp-vision-integration.md
@@ -0,0 +1,171 @@
+# 视觉模型使用指南
+本教程分为两部分:
+- 第一部分:单模块运行xiaozhi-server开启视觉模型
+- 第二部分:全模块运行时,如何开启视觉模型
+
+开启视觉模型前,你需要准备三件事:
+- 你需要准备一台带摄像头的设备,而且这台设备已经在虾哥仓库里,实现了调用摄像头功能。例如`立创·实战派ESP32-S3开发板`
+- 你设备固件的版本升级到1.6.6及以上
+- 你已经成功跑通基础对话模块
+
+## 单模块运行xiaozhi-server开启视觉模型
+
+### 第一步确认网络
+由于视觉模型会默认启动8003端口。
+
+如果你是docker运行,请确认一下你的`docker-compose.yml`是否放了`8003`端口,如果没有就更新最新的`docker-compose.yml`文件
+
+如果你是源码运行,确认防火墙是否放行`8003`端口
+
+### 第二步选择你的视觉模型
+打开你的`data/.config.yaml`文件,设置你的`selected_module.VLLM`设置为某个视觉模型。目前我们已经支持`openai`类型接口的视觉模型。`ChatGLMVLLM`就是其中一款兼容`openai`的模型。
+
+```
+selected_module:
+ VAD: ..
+ ASR: ..
+ LLM: ..
+ VLLM: ChatGLMVLLM
+ TTS: ..
+ Memory: ..
+ Intent: ..
+```
+
+假设我们使用`ChatGLMVLLM`作为视觉模型,那我们需要先登录[智谱AI](https://bigmodel.cn/usercenter/proj-mgmt/apikeys)网站,申请密钥。如果你之前已经申请过了密钥,可以复用这个密钥。
+
+在你的配置文件中,增加这个配置,如果已经有了这个配置,就设置好你的api_key。
+
+```
+VLLM:
+ ChatGLMVLLM:
+ api_key: 你的api_key
+```
+
+### 第三步启动xiaozhi-server服务
+如果你是源码,就输入命令启动
+```
+python app.py
+```
+如果你是docker运行,就重启容器
+```
+docker restart xiaozhi-esp32-server
+```
+
+启动后会输出以下内容的日志。
+
+```
+2025-06-01 **** - OTA接口是 http://192.168.4.7:8003/xiaozhi/ota/
+2025-06-01 **** - 视觉分析接口是 http://192.168.4.7:8003/mcp/vision/explain
+2025-06-01 **** - Websocket地址是 ws://192.168.4.7:8000/xiaozhi/v1/
+2025-06-01 **** - =======上面的地址是websocket协议地址,请勿用浏览器访问=======
+2025-06-01 **** - 如想测试websocket请用谷歌浏览器打开test目录下的test_page.html
+2025-06-01 **** - =============================================================
+```
+
+启动后,使用使用浏览器打开日志里`视觉分析接口`连接。看看输出了什么?如果你是linux,没有浏览器,你可以执行这个命令:
+```
+curl -i 你的视觉分析接口
+```
+
+正常来说会这样显示
+```
+MCP Vision 接口运行正常,视觉解释接口地址是:http://xxxx:8003/mcp/vision/explain
+```
+
+请注意,如果你是公网部署,或者docker部署,一定要改一下你的`data/.config.yaml`里这个配置
+```
+server:
+ vision_explain: http://你的ip或者域名:端口号/mcp/vision/explain
+```
+
+为什么呢?因为视觉解释接口需要下发到设备,如果你的地址是局域网地址,或者是docker内部地址,设备是无法访问的。
+
+假设你的公网地址是`111.111.111.111`,那么`vision_explain`应该这么配
+
+```
+server:
+ vision_explain: http://111.111.111.111:8003/mcp/vision/explain
+```
+
+如果你的MCP Vision 接口运行正常,且你也试着用浏览器访问正常打开下发的`视觉解释接口地址`,请继续下一步
+
+### 第四步 设备唤醒开启
+
+对设备说“请打开摄像头,说你你看到了什么”
+
+留意xiaozhi-server的日志输出,看看有没有报错。
+
+
+## 全模块运行时,如何开启视觉模型
+
+### 第一步 确认网络
+由于视觉模型会默认启动8003端口。
+
+如果你是docker运行,请确认一下你的`docker-compose_all.yml`是否映射了`8003`端口,如果没有就更新最新的`docker-compose_all.yml`文件
+
+如果你是源码运行,确认防火墙是否放行`8003`端口
+
+### 第二步 确认你配置文件
+
+打开你的`data/.config.yaml`文件,确认一下你的配置文件的结构,是否和`data/config_from_api.yaml`一样。如果不一样,或缺少某项,请补齐。
+
+### 第三步 配置视觉模型密钥
+
+那我们需要先登录[智谱AI](https://bigmodel.cn/usercenter/proj-mgmt/apikeys)网站,申请密钥。如果你之前已经申请过了密钥,可以复用这个密钥。
+
+登录`智控台`,顶部菜单点击`模型配置`,在左侧栏点击`视觉打语言模型`,找到`VLLM_ChatGLMVLLM`,点击修改按钮,在弹框中,在`API密钥`输入你密钥,点击保存。
+
+保存成功后,去到你需要测试的智能体哪里,点击`配置角色`,在打开的内容里,查看`视觉大语言模型(VLLM)`是否选择了刚才的视觉模型。点击保存。
+
+### 第三步 启动xiaozhi-server模块
+如果你是源码,就输入命令启动
+```
+python app.py
+```
+如果你是docker运行,就重启容器
+```
+docker restart xiaozhi-esp32-server
+```
+
+启动后会输出以下内容的日志。
+
+```
+2025-06-01 **** - 视觉分析接口是 http://192.168.4.7:8003/mcp/vision/explain
+2025-06-01 **** - Websocket地址是 ws://192.168.4.7:8000/xiaozhi/v1/
+2025-06-01 **** - =======上面的地址是websocket协议地址,请勿用浏览器访问=======
+2025-06-01 **** - 如想测试websocket请用谷歌浏览器打开test目录下的test_page.html
+2025-06-01 **** - =============================================================
+```
+
+启动后,使用使用浏览器打开日志里`视觉分析接口`连接。看看输出了什么?如果你是linux,没有浏览器,你可以执行这个命令:
+```
+curl -i 你的视觉分析接口
+```
+
+正常来说会这样显示
+```
+MCP Vision 接口运行正常,视觉解释接口地址是:http://xxxx:8003/mcp/vision/explain
+```
+
+请注意,如果你是公网部署,或者docker部署,一定要改一下你的`data/.config.yaml`里这个配置
+```
+server:
+ vision_explain: http://你的ip或者域名:端口号/mcp/vision/explain
+```
+
+为什么呢?因为视觉解释接口需要下发到设备,如果你的地址是局域网地址,或者是docker内部地址,设备是无法访问的。
+
+假设你的公网地址是`111.111.111.111`,那么`vision_explain`应该这么配
+
+```
+server:
+ vision_explain: http://111.111.111.111:8003/mcp/vision/explain
+```
+
+如果你的MCP Vision 接口运行正常,且你也试着用浏览器访问正常打开下发的`视觉解释接口地址`,请继续下一步
+
+### 第四步 设备唤醒开启
+
+对设备说“请打开摄像头,说你你看到了什么”
+
+留意xiaozhi-server的日志输出,看看有没有报错。
diff --git a/xiaozhi-esp32-server/docs/newsnow_plugin_config.md b/xiaozhi-esp32-server/docs/newsnow_plugin_config.md
new file mode 100755
index 0000000..8be887c
--- /dev/null
+++ b/xiaozhi-esp32-server/docs/newsnow_plugin_config.md
@@ -0,0 +1,105 @@
+# get_news_from_newsnow 插件新闻源配置指南
+
+## 概述
+
+`get_news_from_newsnow` 插件现在支持通过Web管理界面动态配置新闻源,不再需要修改代码。用户可以在智控台中为每个智能体配置不同的新闻源。
+
+## 配置方式
+
+### 1. 通过Web管理界面配置(推荐)
+
+1. 登录智控台
+2. 进入"角色配置"页面
+3. 选择要配置的智能体
+4. 点击"编辑功能"按钮
+5. 在右侧参数配置区域找到"newsnow新闻聚合"插件
+6. 在"新闻源配置"字段中输入分号分隔的中文名称
+
+### 2. 配置文件方式
+
+在 `config.yaml` 中配置:
+
+```yaml
+plugins:
+ get_news_from_newsnow:
+ url: "https://newsnow.busiyi.world/api/s?id="
+ news_sources: "澎湃新闻;百度热搜;财联社;微博;抖音"
+```
+
+## 新闻源配置格式
+
+新闻源配置使用分号分隔的中文名称,格式为:
+
+```
+中文名称1;中文名称2;中文名称3
+```
+
+### 配置示例
+
+```
+澎湃新闻;百度热搜;财联社;微博;抖音;知乎;36氪
+```
+
+## 支持的新闻源
+
+插件支持以下新闻源的中文名称:
+
+- 澎湃新闻
+- 百度热搜
+- 财联社
+- 微博
+- 抖音
+- 知乎
+- 36氪
+- 华尔街见闻
+- IT之家
+- 今日头条
+- 虎扑
+- 哔哩哔哩
+- 快手
+- 雪球
+- 格隆汇
+- 法布财经
+- 金十数据
+- 牛客
+- 少数派
+- 稀土掘金
+- 凤凰网
+- 虫部落
+- 联合早报
+- 酷安
+- 远景论坛
+- 参考消息
+- 卫星通讯社
+- 百度贴吧
+- 靠谱新闻
+- 以及更多...
+
+## 默认配置
+
+如果未配置新闻源,插件将使用以下默认配置:
+
+```
+澎湃新闻;百度热搜;财联社
+```
+
+## 使用说明
+
+1. **配置新闻源**:在Web界面或配置文件中设置新闻源的中文名称,用分号分隔
+2. **调用插件**:用户可以说"播报新闻"或"获取新闻"
+3. **指定新闻源**:用户可以说"播报澎湃新闻"或"获取百度热搜"
+4. **获取详情**:用户可以说"详细介绍这条新闻"
+
+## 工作原理
+
+1. 插件接受中文名称作为参数(如"澎湃新闻")
+2. 根据配置的新闻源列表,将中文名称转换为对应的英文ID(如"thepaper")
+3. 使用英文ID调用API获取新闻数据
+4. 返回新闻内容给用户
+
+## 注意事项
+
+1. 配置的中文名称必须与 CHANNEL_MAP 中定义的名称完全一致
+2. 配置更改后需要重启服务或重新加载配置
+3. 如果配置的新闻源无效,插件会自动使用默认新闻源
+4. 多个新闻源之间使用英文分号(;)分隔,不要使用中文分号(;)
\ No newline at end of file
diff --git a/xiaozhi-esp32-server/head_move/left.py b/xiaozhi-esp32-server/head_move/left.py
new file mode 100755
index 0000000..e5bca53
--- /dev/null
+++ b/xiaozhi-esp32-server/head_move/left.py
@@ -0,0 +1,72 @@
+import threading
+import time
+import os
+
+class PWMController:
+ def __init__(self, chip_path):
+ #print(chip_path)
+ self.pwm_path = f"{chip_path}/pwm0" # PWM设备树路径
+ self.period_ns = 20000000 # 20ms
+ self.polarity = 'normal' # 极性normal
+ self.export_pwm(chip_path, 0)
+ self.set_period(self.period_ns)
+ self.set_polarity(self.polarity)
+ self.enable()
+
+ # 导出PWM通道
+ def export_pwm(self, chip_path, channel):
+ if not os.path.exists(self.pwm_path):
+ with open(f"{chip_path}/export", 'w') as f:
+ f.write(str(channel))
+ time.sleep(0.1)
+
+ # 设置PWM周期,固定值
+ def set_period(self, period):
+ with open(f"{self.pwm_path}/period", 'w') as f:
+ f.write(str(period))
+
+ # 设置PWM极性
+ def set_polarity(self, polarity):
+ with open(f"{self.pwm_path}/polarity", 'w') as f:
+ f.write(str(polarity))
+
+ # 启用PWM输出
+ def enable(self):
+ with open(f"{self.pwm_path}/enable", 'w') as f:
+ f.write('1')
+
+ # 禁用PWM输出
+ def disable(self, chip_path):
+ with open(f"{self.pwm_path}/enable", 'w') as f:
+ f.write('0')
+
+ # 设置PWM占空比,随着角度变化
+ def set_duty_cycle(self, duty_ns):
+ duty_ns = max(500000, min(duty_ns, 2500000)) # 限制在合理范围内
+ with open(f"{self.pwm_path}/duty_cycle", 'w') as f:
+ f.write(str(duty_ns))
+
+ def cleanup(self, chip_path):
+ with open(f"{chip_path}/unexport", 'w') as f:
+ f.write('0')
+
+# 初始PWM设备树
+pwm_x = PWMController("/sys/class/pwm/pwmchip4") # 水平
+pwm_y = PWMController("/sys/class/pwm/pwmchip3") # 垂直
+
+def angle_to_duty(angle):
+ return int(500000 + (angle / 180.0) * 2000000)
+
+# 设置舵机角度
+def set_servo_angle(x_angle, y_angle):
+ pwm_x.set_duty_cycle(angle_to_duty(x_angle))
+ pwm_y.set_duty_cycle(angle_to_duty(y_angle))
+
+# 舵机角度初始化
+#angle_x = 90
+#angle_y = 90
+#set_servo_angle(angle_x, angle_y)
+
+set_servo_angle(180, 90)
+target_type_key = False
+print("已完成")
diff --git a/xiaozhi-esp32-server/head_move/nod.py b/xiaozhi-esp32-server/head_move/nod.py
new file mode 100755
index 0000000..60d7fb5
--- /dev/null
+++ b/xiaozhi-esp32-server/head_move/nod.py
@@ -0,0 +1,90 @@
+import threading
+import time
+import os
+
+class PWMController:
+ def __init__(self, chip_path):
+ #print(chip_path)
+ self.pwm_path = f"{chip_path}/pwm0" # PWM设备树路径
+ self.period_ns = 20000000 # 20ms
+ self.polarity = 'normal' # 极性normal
+ self.export_pwm(chip_path, 0)
+ self.set_period(self.period_ns)
+ self.set_polarity(self.polarity)
+ self.enable()
+
+ # 导出PWM通道
+ def export_pwm(self, chip_path, channel):
+ if not os.path.exists(self.pwm_path):
+ with open(f"{chip_path}/export", 'w') as f:
+ f.write(str(channel))
+ time.sleep(0.1)
+
+ # 设置PWM周期,固定值
+ def set_period(self, period):
+ with open(f"{self.pwm_path}/period", 'w') as f:
+ f.write(str(period))
+
+ # 设置PWM极性
+ def set_polarity(self, polarity):
+ with open(f"{self.pwm_path}/polarity", 'w') as f:
+ f.write(str(polarity))
+
+ # 启用PWM输出
+ def enable(self):
+ with open(f"{self.pwm_path}/enable", 'w') as f:
+ f.write('1')
+
+ # 禁用PWM输出
+ def disable(self, chip_path):
+ with open(f"{self.pwm_path}/enable", 'w') as f:
+ f.write('0')
+
+ # 设置PWM占空比,随着角度变化
+ def set_duty_cycle(self, duty_ns):
+ duty_ns = max(500000, min(duty_ns, 2500000)) # 限制在合理范围内
+ with open(f"{self.pwm_path}/duty_cycle", 'w') as f:
+ f.write(str(duty_ns))
+
+ def cleanup(self, chip_path):
+ with open(f"{chip_path}/unexport", 'w') as f:
+ f.write('0')
+
+# 初始PWM设备树
+pwm_x = PWMController("/sys/class/pwm/pwmchip4") # 水平
+pwm_y = PWMController("/sys/class/pwm/pwmchip3") # 垂直
+
+def angle_to_duty(angle):
+ return int(500000 + (angle / 180.0) * 2000000)
+
+# 设置舵机角度
+def set_servo_angle(x_angle, y_angle):
+ pwm_x.set_duty_cycle(angle_to_duty(x_angle))
+ pwm_y.set_duty_cycle(angle_to_duty(y_angle))
+
+# 舵机角度初始化
+#angle_x = 90
+#angle_y = 90
+#set_servo_angle(angle_x, angle_y)
+
+set_angle = 90
+set_ticks = 0
+set_target = 0
+while set_ticks < 3:
+ set_servo_angle(90, set_angle)
+ if set_target == 0:
+ set_angle = set_angle - 1
+ elif set_target == 1 and set_ticks < 2:
+ set_angle = set_angle + 1
+ else:
+ set_angle = set_angle + 1
+ if set_angle == 90:
+ set_ticks = 3
+ time.sleep(0.01)
+ if set_angle == 70:
+ set_target = 1
+ elif set_angle == 110:
+ set_target = 0
+ set_ticks = set_ticks + 1
+target_type_key = False
+print("已完成")
diff --git a/xiaozhi-esp32-server/head_move/right.py b/xiaozhi-esp32-server/head_move/right.py
new file mode 100755
index 0000000..6b83af4
--- /dev/null
+++ b/xiaozhi-esp32-server/head_move/right.py
@@ -0,0 +1,72 @@
+import threading
+import time
+import os
+
+class PWMController:
+ def __init__(self, chip_path):
+ #print(chip_path)
+ self.pwm_path = f"{chip_path}/pwm0" # PWM设备树路径
+ self.period_ns = 20000000 # 20ms
+ self.polarity = 'normal' # 极性normal
+ self.export_pwm(chip_path, 0)
+ self.set_period(self.period_ns)
+ self.set_polarity(self.polarity)
+ self.enable()
+
+ # 导出PWM通道
+ def export_pwm(self, chip_path, channel):
+ if not os.path.exists(self.pwm_path):
+ with open(f"{chip_path}/export", 'w') as f:
+ f.write(str(channel))
+ time.sleep(0.1)
+
+ # 设置PWM周期,固定值
+ def set_period(self, period):
+ with open(f"{self.pwm_path}/period", 'w') as f:
+ f.write(str(period))
+
+ # 设置PWM极性
+ def set_polarity(self, polarity):
+ with open(f"{self.pwm_path}/polarity", 'w') as f:
+ f.write(str(polarity))
+
+ # 启用PWM输出
+ def enable(self):
+ with open(f"{self.pwm_path}/enable", 'w') as f:
+ f.write('1')
+
+ # 禁用PWM输出
+ def disable(self, chip_path):
+ with open(f"{self.pwm_path}/enable", 'w') as f:
+ f.write('0')
+
+ # 设置PWM占空比,随着角度变化
+ def set_duty_cycle(self, duty_ns):
+ duty_ns = max(500000, min(duty_ns, 2500000)) # 限制在合理范围内
+ with open(f"{self.pwm_path}/duty_cycle", 'w') as f:
+ f.write(str(duty_ns))
+
+ def cleanup(self, chip_path):
+ with open(f"{chip_path}/unexport", 'w') as f:
+ f.write('0')
+
+# 初始PWM设备树
+pwm_x = PWMController("/sys/class/pwm/pwmchip4") # 水平
+pwm_y = PWMController("/sys/class/pwm/pwmchip3") # 垂直
+
+def angle_to_duty(angle):
+ return int(500000 + (angle / 180.0) * 2000000)
+
+# 设置舵机角度
+def set_servo_angle(x_angle, y_angle):
+ pwm_x.set_duty_cycle(angle_to_duty(x_angle))
+ pwm_y.set_duty_cycle(angle_to_duty(y_angle))
+
+# 舵机角度初始化
+#angle_x = 90
+#angle_y = 90
+#set_servo_angle(angle_x, angle_y)
+
+set_servo_angle(0, 90)
+target_type_key = False
+print("已完成")
diff --git a/xiaozhi-esp32-server/main/README.md b/xiaozhi-esp32-server/main/README.md
new file mode 100755
index 0000000..c1f2351
--- /dev/null
+++ b/xiaozhi-esp32-server/main/README.md
@@ -0,0 +1,469 @@
+# 技术文档:`xiaozhi-esp32-server`
+
+**目录:**
+
+1. [引言](#1-引言)
+2. [整体架构](#2-整体架构)
+3. [核心组件深度剖析](#3-核心组件深度剖析)
+ * [3.1. `xiaozhi-server` (核心AI引擎 - Python实现)](#31-xiaozhi-server-核心ai引擎---python实现)
+ * [3.2. `manager-api` (管理后端 - Java Spring Boot实现)](#32-manager-api-管理后端---java-spring-boot实现)
+ * [3.3. `manager-web` (Web管理前端 - Vue.js实现)](#33-manager-web-web管理前端---vuejs实现)
+4. [数据流与交互机制](#4-数据流与交互机制)
+5. [核心功能概要](#5-核心功能概要)
+6. [部署与配置概述](#6-部署与配置概述)
+---
+
+## 1. 引言
+
+`xiaozhi-esp32-server` 项目是一个专为基于ESP32的智能硬件提供支持的**综合性后端系统**。其核心目标是使开发人员能够快速构建一个强大的服务器基础设施,该设施不仅能够理解自然语言指令,还能与多种AI服务(用于语音识别、自然语言理解及语音合成)进行高效交互、管理物联网(IoT)设备,并提供一个基于Web的用户界面以进行系统配置和管理。通过将多种尖端技术整合到一个高内聚且可扩展的平台中,本项目旨在简化和加速可定制化语音助手及智能控制系统的开发进程。它不仅仅是一个简单的服务器,更是一个连接硬件、AI能力与用户管理的桥梁。
+
+---
+
+## 2. 整体架构
+
+`xiaozhi-esp32-server` 系统采用了一种**分布式、多组件协作**的架构设计,确保了系统的模块化、可维护性和可扩展性。各个核心组件各司其职,协同工作。主要组件包括:
+
+1. **ESP32 硬件 (客户端设备):**
+ 这是终端用户直接与之交互的物理智能硬件设备。其主要职责包括:
+ * 捕捉用户的语音指令。
+ * 将捕捉到的原始音频数据安全地发送至 `xiaozhi-server` 进行处理。
+ * 接收来自 `xiaozhi-server` 合成的语音回复,并通过扬声器播放给用户。
+ * 根据从 `xiaozhi-server` 收到的指令,控制与之连接的其他外围设备或IoT设备(例如智能灯泡、传感器等)。
+
+2. **`xiaozhi-server` (核心AI引擎 - Python实现):**
+ 这个基于Python的服务器是整个系统的“大脑”,负责处理所有语音相关的逻辑和AI交互。其关键职责细化如下:
+ * 通过WebSocket协议与ESP32设备建立**稳定、低延迟的实时双向通信链路**。
+ * 接收来自ESP32的音频流,并利用语音活动检测(VAD)技术精确切分有效的语音片段。
+ * 集成并调用自动语音识别(ASR)服务(可配置本地或云端),将语音片段转换为文本。
+ * 通过与大型语言模型(LLM)的交互来解析用户意图、生成智能回复,并支持复杂的自然语言理解任务。
+ * 管理多轮对话中的上下文信息和用户记忆,以提供连贯的交互体验。
+ * 调用文本转语音(TTS)服务,将LLM生成的文本回复合成为自然流畅的语音。
+ * 通过一个灵活的**插件系统**执行自定义命令,包括对IoT设备的控制逻辑。
+ * 从 `manager-api` 服务获取其详细的运行时操作配置。
+
+3. **`manager-api` (管理后端 - Java实现):**
+ 这是一个基于Java Spring Boot框架构建的应用程序,它为整个系统的管理和配置提供了一套安全的RESTful API。它不仅是 `manager-web` 控制台的后端支撑,也是 `xiaozhi-server` 的配置数据来源。其核心功能包括:
+ * 为Web控制台提供用户认证(登录、权限验证)和用户账户管理功能。
+ * ESP32设备的注册、信息管理以及设备特定配置的维护。
+ * 在**MySQL数据库**中持久化存储系统配置,例如用户选择的AI服务提供商、API密钥、设备参数、插件设置等。
+ * 提供特定的API端点,供 `xiaozhi-server` 拉取其所需的最新配置。
+ * 管理TTS音色选项、处理OTA(Over-The-Air)固件更新流程及相关元数据。
+ * 利用 **Redis** 作为高速缓存,存储热点数据(如会话信息、频繁访问的配置),以提升API响应速度和系统整体性能。
+
+4. **`manager-web` (Web控制面板 - Vue.js实现):**
+ 这是一个基于Vue.js构建的单页应用(SPA),为系统管理员提供了一个图形化、用户友好的操作界面。其主要能力包括:
+ * 便捷地配置 `xiaozhi-server` 所使用的各项AI服务(如ASR、LLM、TTS的提供商切换、参数调整)。
+ * 管理平台用户账户、角色分配及权限控制。
+ * 管理已注册的ESP32设备及其相关设置。
+ * (潜在功能)监控系统运行状态、查看日志、进行故障排查等。
+ * 与 `manager-api` 提供的所有后端管理功能进行全面的交互。
+
+**高层交互流程概述:**
+
+* **语音交互主线:** **ESP32设备**捕捉到用户语音后,通过**WebSocket**将音频数据实时传输给**`xiaozhi-server`**。`xiaozhi-server`完成一系列AI处理(VAD、ASR、LLM交互、TTS)后,再通过WebSocket将合成的语音回复发送回ESP32设备进行播放。所有与语音直接相关的实时交互均在此链路完成。
+* **管理配置主线:** 管理员通过浏览器访问**`manager-web`**控制台。`manager-web`通过调用**`manager-api`**提供的**RESTful HTTP接口**来执行各种管理操作(如修改配置、管理用户或设备)。数据以JSON格式在两者间传递。
+* **配置同步:** **`xiaozhi-server`**在启动或特定更新机制触发时,会主动通过HTTP请求从**`manager-api`**拉取其最新的操作配置。这确保了管理员在Web界面上所做的配置更改能够及时有效地应用到核心AI引擎的运行中。
+
+这种**前后端分离、核心服务与管理服务分离**的架构设计,使得 `xiaozhi-server`能够专注于高效的实时AI处理任务,而 `manager-api` 和 `manager-web` 则共同提供了一个功能强大且易于使用的管理和配置平台。各组件职责清晰,有利于独立开发、测试、部署和扩展。
+
+```
+xiaozhi-esp32-server
+ ├─ xiaozhi-server 8000 端口 Python语言开发 负责与esp32通信
+ ├─ manager-web 8001 端口 Node.js+Vue开发 负责提供控制台的web界面
+ ├─ manager-api 8002 端口 Java语言开发 负责提供控制台的api
+```
+
+---
+
+## 3. 核心组件深度剖析
+
+### 3.1. `xiaozhi-server` (核心AI引擎 - Python实现)
+
+`xiaozhi-server` 作为系统的智能核心,全权负责处理语音交互、对接各类AI服务以及管理与ESP32设备间的通信。其设计目标是实现高效、灵活且可扩展的语音AI处理能力。
+
+* **核心目标:**
+ * 为ESP32设备提供实时的语音指令处理服务。
+ * 深度集成各类AI服务,包括:自动语音识别 (ASR)、大型语言模型 (LLM) 进行自然语言理解 (NLU)、文本转语音 (TTS)、语音活动检测 (VAD)、意图识别 (Intent Recognition) 及对话记忆 (Memory)。
+ * 精细管理用户与设备间的对话流程及上下文状态。
+ * 基于用户指令,通过插件化机制执行自定义函数及控制物联网 (IoT) 设备。
+ * 支持通过 `manager-api`进行动态配置加载与更新。
+
+* **核心技术栈:**
+ * **Python 3:** 作为主要编程语言,Python以其丰富的AI/ML生态库和快速开发特性被选用。
+ * **Asyncio:** Python的异步编程框架,是`xiaozhi-server`高性能的关键。它被广泛用于高效处理来自大量ESP32设备的并发WebSocket连接,以及执行与外部AI服务API通信时的非阻塞I/O操作,确保服务器在高并发下的响应能力。
+ * **`websockets` 库:** 提供WebSocket服务器的具体实现,支持与ESP32客户端进行全双工实时通信。
+ * **HTTP客户端 (如 `aiohttp`, `httpx`):** 用于异步执行HTTP请求,主要目的是从`manager-api`获取配置信息,以及与云端AI服务的API进行交互。
+ * **YAML (通常通过 PyYAML 库):** 用于解析本地的 `config.yaml` 配置文件。
+ * **FFmpeg (外部依赖):** 在 `app.py` 启动时会进行检查 (`check_ffmpeg_installed()`)。FFmpeg通常用于音频处理和格式转换,例如,确保音频数据符合特定AI服务的要求或进行内部处理。
+
+* **关键实现细节:**
+
+ 1. **AI服务提供者模式 (Provider Pattern - `core/providers/`):**
+ * **设计思想:** 这是`xiaozhi-server`集成不同AI服务的核心设计模式,极大地增强了系统的灵活性和可扩展性。针对每一种AI服务类型(ASR, TTS, LLM, VAD, Intent, Memory, VLLM),都在其对应子目录下定义了一个抽象基类 (ABC, Abstract Base Class),例如 `core/providers/asr/base.py`。这个基类规定了该类型服务必须实现的通用接口方法(如ASR的 `async def transcribe(self, audio_chunk: bytes) -> str: pass`)。
+ * **具体实现:** 各种具体的AI服务提供商或本地模型的实现,则以独立的Python类形式存在(例如 `core/providers/asr/fun_local.py` 实现了本地FunASR的逻辑,`core/providers/llm/openai.py` 实现了与OpenAI GPT模型的对接)。这些具体类继承自相应的抽象基类,并实现其定义的接口。部分提供者还使用DTOs (Data Transfer Objects, 存在于各自的 `dto/` 目录) 来结构化与外部服务交换的数据。
+ * **优势:** 使得核心业务逻辑能够以统一的方式调用不同的AI服务,而无需关心其底层具体实现。用户可以通过配置文件轻松切换AI服务后端。添加对新AI服务的支持也变得相对简单,只需实现对应的Provider接口。
+ * **动态加载与初始化:** `core/utils/modules_initialize.py` 脚本扮演了工厂的角色。它在服务器启动时,或在接收到配置更新指令时,会根据配置文件中 `selected_module` 及各项服务的具体provider设置,动态地导入并实例化相应的Provider类。
+
+ 2. **WebSocket通信与连接处理 (`app.py`, `core/websocket_server.py`, `core/connection.py`):**
+ * **服务器启动与入口 (`app.py`):**
+ * `app.py` 作为主入口,负责初始化应用环境(如检查FFmpeg、加载配置、设置日志)。
+ * 它会生成或加载一个 `auth_key` (JWT密钥),用于保护特定的HTTP接口(如视觉分析接口 `/mcp/vision/explain`)。若配置中 `manager-api.secret` 为空,则会生成一个UUID作为 `auth_key`。
+ * 使用 `asyncio.create_task()` 并发启动 `WebSocketServer` (监听如 `ws://0.0.0.0:8000/xiaozhi/v1/`) 和 `SimpleHttpServer` (监听如 `http://0.0.0.0:8003/xiaozhi/ota/`)。
+ * 包含一个 `monitor_stdin()` 协程,用于在某些环境下保持应用存活或处理终端输入。
+ * **WebSocket服务器核心 (`core/websocket_server.py`):**
+ * `WebSocketServer` 类使用 `websockets` 库监听来自ESP32设备的连接请求。
+ * 对于每一个成功的WebSocket连接,它都会创建一个**独立的 `ConnectionHandler` 实例** (推测定义于 `core/connection.py`)。这种每个连接一个处理程序实例的设计模式,是实现多设备状态隔离和并发处理的关键,确保每个设备的对话流程和上下文信息互不干扰。
+ * 该服务器还提供一个 `_http_response` 方法,允许在同一端口上对非WebSocket升级的HTTP GET请求做出简单响应(例如返回 "Server is running"),便于进行健康检查。
+ * **动态配置更新:** `WebSocketServer` 包含一个 `update_config()` 异步方法。此方法使用 `config_lock` (一个 `asyncio.Lock`) 保证配置更新的原子性。它调用 `get_config_from_api()` (可能在 `config_loader.py` 中实现,通过 `manage_api_client.py` 与 `manager-api` 通信) 来获取新的配置。通过 `check_vad_update()` 和 `check_asr_update()` 等辅助函数判断是否需要重新初始化特定的AI模块,避免不必要的开销。更新后的配置会用于重新调用 `initialize_modules()`,从而实现AI服务提供者的热切换。
+
+ 3. **消息处理与对话流程控制 (`core/handle/` 和 `ConnectionHandler`):**
+ * `ConnectionHandler` (推测) 作为每个连接的控制中心,负责接收来自ESP32的消息,并根据消息类型或当前对话状态,将其分发给 `core/handle/` 目录下的相应处理模块。这种模块化的处理器设计使得 `ConnectionHandler` 逻辑更清晰,易于扩展。
+ * **主要处理模块及其职责:**
+ * `helloHandle.py`: 处理与ESP32初次连接时的握手协议、设备认证或初始化信息交换。
+ * `receiveAudioHandle.py`: 接收音频流数据,调用VAD Provider进行语音活动检测,并将有效的音频片段传递给ASR Provider进行识别。
+ * `textHandle.py` / `intentHandler.py`: 获取ASR识别出的文本后,与Intent Provider (可能利用LLM进行意图识别) 和LLM Provider交互,以理解用户意图并生成初步回复或决策。
+ * `functionHandler.py`: 当LLM的响应包含执行特定“函数调用”的指令时,此模块负责从插件注册表中查找并执行对应的插件函数。
+ * `sendAudioHandle.py`: 将LLM最终生成的文本回复交给TTS Provider合成语音,并将音频流通过WebSocket发送回ESP32。
+ * `abortHandle.py`: 处理来自ESP32的中断请求,例如停止当前的TTS播报。
+ * `iotHandle.py`, `mcpHandle.py`: 处理与IoT设备控制相关的特定指令或更复杂的模块通信协议 (MCP)。
+
+ 4. **插件化功能扩展系统 (`plugins_func/`):**
+ * **设计目的:** 提供一种标准化的方式来扩展语音助手的功能和“技能”,而无需修改核心代码。
+ * **实现机制:**
+ * 各个具体功能以独立的Python脚本形式存在于 `plugins_func/functions/` 目录中(例如 `get_weather.py`, `hass_set_state.py` 用于Home Assistant集成)。
+ * `loadplugins.py` 在服务器启动时负责扫描并加载这些插件模块。
+ * `register.py` (或插件模块内部的特定装饰器/函数) 可能用于定义每个插件函数的元数据,包括:
+ * **函数名称 (Function Name):** LLM调用时使用的标识符。
+ * **功能描述 (Description):** 供LLM理解此函数的作用。
+ * **参数模式 (Parameters Schema):** 通常是一个JSON Schema,详细定义了函数所需的参数、类型、是否必需以及描述。这是LLM能够正确生成函数调用参数的关键。
+ * **执行流程:** 当LLM在其思考过程中决定需要调用某个外部工具或函数来获取信息或执行操作时,它会依据预先提供的函数模式生成一个结构化的“函数调用”请求。`xiaozhi-server`中的`functionHandler.py`捕获此请求,从插件注册表中找到对应的Python函数并执行,然后将执行结果返回给LLM,LLM再基于此结果生成最终给用户的自然语言回复。
+
+ 5. **配置管理 (`config/`):**
+ * **加载机制:** `config_loader.py` (通过 `settings.py` 被调用) 负责从根目录的 `config.yaml` 文件加载基础配置。
+ * **远程配置与合并:** 通过 `manage_api_client.py` (使用如`aiohttp`的库与`manager-api`通信) 可以从`manager-api`服务拉取配置。远程配置通常会覆盖本地 `config.yaml` 中的同名设置,从而实现通过Web界面动态调整服务器行为。
+ * **日志系统:** `logger.py` 初始化应用日志系统(可能使用 `loguru` 或对标准 `logging` 模块进行封装,支持通过 `logger.bind(tag=TAG)` 添加标签,便于追踪和过滤)。
+ * **静态资源:** `config/assets/` 目录下存放了用于系统提示音的静态音频文件(如设备绑定提示音 `bind_code.wav`、错误提示音等)。
+
+ 6. **辅助HTTP服务 (`core/http_server.py`):**
+ * 与WebSocket服务并行运行一个简单的HTTP服务器,用于处理特定的HTTP请求。最主要的功能是为ESP32设备提供OTA (Over-The-Air) 固件更新的下载服务 (通过 `/xiaozhi/ota/` 端点)。此外,也可能承载其他如 `/mcp/vision/explain` (视觉分析) 等工具性HTTP接口。
+
+综上所述,`xiaozhi-server` 是一个采用现代Python异步编程模型构建的、高度模块化、配置驱动的AI应用服务器。其精心设计的Provider模式和插件架构赋予了它强大的适应性和扩展性,能够灵活接入不同的AI能力并支持日益增长的功能需求。
+
+---
+
+### 3.2. `manager-api` (管理后端 - Java Spring Boot实现)
+
+`manager-api` 组件是使用Java和Spring Boot框架构建的强大后端服务,作为整个`xiaozhi-esp32-server`生态系统的中央行政管理和配置中枢。
+
+* **核心目标:**
+ * 为`manager-web`(Vue.js前端)提供一套安全、稳定、符合RESTful规范的API接口,使得管理员能够便捷地管理用户、设备、系统配置及其他相关资源。
+ * 充当`xiaozhi-server`(Python核心AI引擎)的集中化配置数据提供者,允许`xiaozhi-server`实例在启动或运行时获取其最新的操作参数。
+ * 持久化存储关键数据,例如:用户账户信息、设备注册详情、AI服务提供商配置(包括API密钥、选定的服务模型等)、TTS音色参数,以及OTA固件版本信息等。
+
+* **核心技术栈:**
+ * **Java 21:** 项目采用的JDK版本,确保了对现代Java特性的支持。
+ * **Spring Boot 3:** 作为核心开发框架,极大地简化了独立、生产级别的Spring应用的创建和部署。它提供了自动配置、内嵌Web服务器(默认为Tomcat)、依赖管理等关键功能。
+ * **Spring MVC:** Spring框架中用于构建Web应用和RESTful API的模块。
+ * **MyBatis-Plus:** 一个对MyBatis进行功能增强的ORM(对象关系映射)框架。它简化了数据库操作,提供了强大的CRUD(增删改查)功能、条件构造器、代码生成器等,并能很好地与Spring Boot集成。
+ * **MySQL:** 作为主要的后端关系型数据库,用于存储所有需要持久化的管理数据和配置信息。
+ * **Druid (Alibaba Druid):** 一个功能强大的JDBC连接池实现,提供了丰富的监控功能和优秀的性能,用于高效管理数据库连接。
+ * **Redis (通过 Spring Data Redis):** 一个高性能的内存数据结构存储,常用于实现数据缓存(例如缓存热点配置数据、用户会话信息),以显著提升API的响应速度。
+ * **Apache Shiro:** 一个成熟且易用的Java安全框架,负责处理应用的认证(用户身份验证)和授权(API访问权限控制)需求。
+ * **Liquibase:** 一个用于跟踪、管理和应用数据库 schéma(模式)变更的开源工具。它允许开发者以数据库无关的方式定义和版本化数据库结构变更。
+ * **Knife4j:** 一个集成了Swagger并增强了UI的API文档生成工具,专为Java MVC框架(尤其是Spring Boot)设计。它能生成美观且易于交互的API文档界面(通常通过 `/xiaozhi/doc.html` 访问)。
+ * **Maven:** 用于项目的构建自动化和依赖项管理。
+ * **Lombok:** 一个Java库,通过注解自动生成构造函数、getter/setter、equals/hashCode、toString等样板代码,减少冗余。
+ * **HuTool / Google Guava:** 提供大量实用工具类,简化常见编程任务。
+ * **Aliyun Dysmsapi:** 阿里云短信服务SDK,用于集成发送短信功能(如验证码、通知)。
+
+* **关键实现细节:**
+
+ 1. **模块化项目结构 (`modules/` 包):**
+ * `manager-api` 的核心业务逻辑被清晰地划分到 `src/main/java/xiaozhi/modules/` 目录下的不同模块中。这种按功能领域划分模块的方式(例如 `sys` 负责系统管理,`agent` 负责智能体配置,`device` 负责设备管理,`config` 负责为`xiaozhi-server`提供配置,`security` 负责安全,`timbre` 负责音色管理,`ota` 负责固件升级)极大地提高了代码的可维护性和可扩展性。
+ * **各模块内部结构:** 每个业务模块通常遵循经典的三层架构或其变体:
+ * **Controller (控制层):** 位于 `xiaozhi.modules.[模块名].controller`。
+ * **Service (服务层):** 位于 `xiaozhi.modules.[模块名].service`。
+ * **DAO/Mapper (数据访问层):** 位于 `xiaozhi.modules.[模块名].dao`。
+ * **Entity (实体类):** 位于 `xiaozhi.modules.[模块名].entity`。
+ * **DTO (数据传输对象):** 位于 `xiaozhi.modules.[模块名].dto`。
+
+ 2. **分层架构实现:**
+ * **Controller层 (`@RestController`):** 这些类使用Spring MVC注解(如 `@GetMapping`, `@PostMapping` 等)来定义API的端点(endpoints)。它们负责接收HTTP请求,将请求体中的JSON数据反序列化为DTO对象,调用相应的Service层方法处理业务逻辑,最后将Service层的返回结果序列化为JSON并作为HTTP响应返回给客户端。
+ * **Service层 (`@Service`):** 这些类(通常是接口及其实现类的组合)封装了核心的业务规则和操作流程。它们可能会调用一个或多个DAO/Mapper对象来与数据库交互,并常常使用 `@Transactional` 注解来管理数据库事务的原子性。
+ * **Data Access (DAO/Mapper) 层 (MyBatis-Plus Mappers):** 这些是Java接口,继承自MyBatis-Plus提供的 `BaseMapper` 接口。MyBatis-Plus会为这些接口自动提供标准的CRUD方法。对于更复杂的数据库查询,开发者可以通过在Mapper接口中定义方法并使用注解(如 `@Select`, `@Update`)或编写对应的XML映射文件来实现。例如,`UserMapper.selectById(userId)` 会被MyBatis-Plus自动实现。
+ * **Entity层 (`@TableName`, `@TableId` 等MyBatis-Plus注解):** 这些POJO(Plain Old Java Objects)类直接映射到数据库中的表结构。Lombok的 `@Data` 注解常用于自动生成getter/setter等。
+ * **DTO层:** 用于在各层之间,特别是Controller层与Service层之间,以及API的请求/响应体中传递数据。使用DTO有助于解耦API接口的数据结构与数据库实体的数据结构,使API更稳定。
+
+ 3. **通用功能与配置 (`common/` 包):**
+ * `src/main/java/xiaozhi/common/` 包提供了一系列跨模块共享的通用组件和配置:
+ * **基类:** 如 `BaseDao`, `BaseEntity`, `BaseService`, `CrudService`,为各模块的相应组件提供通用的属性或方法。
+ * **全局配置:** 包括 `MybatisPlusConfig` (MyBatis-Plus的配置,如分页插件、数据权限插件等)、`RedisConfig` (Redis连接及序列化配置)、`SwaggerConfig` (Knife4j的配置)、`AsyncConfig` (异步任务执行器配置)。
+ * **自定义注解:** 例如 `@LogOperation` 用于通过AOP记录操作日志,`@DataFilter` 可能用于实现数据范围过滤。
+ * **AOP切面:** 如 `RedisAspect` 可能用于实现方法级别的缓存逻辑。
+ * **全局异常处理:** `RenExceptionHandler` (使用 `@ControllerAdvice` 注解) 捕获应用中抛出的特定或所有异常 (如自定义的 `RenException`),并返回统一格式的JSON错误响应给客户端。`ErrorCode` 定义了标准化的错误码。
+ * **工具类:** 提供了日期转换、JSON处理(Jackson)、IP地址获取、HTTP上下文操作、统一结果封装 (`Result` 类)等多种实用工具。
+ * **校验工具:** `ValidatorUtils` 和 `AssertUtils` 用于简化参数校验逻辑。
+ * **XSS防护:** `XssFilter` 等组件用于防止跨站脚本攻击。
+ * **MyBatis-Plus自动填充:** `FieldMetaObjectHandler` 用于在执行插入或更新数据库操作时,自动填充如 `createTime`, `updateTime` 等公共字段。
+
+ 4. **安全机制 (Apache Shiro):**
+ * Shiro的配置(通常在 `modules/security/config/` 或 `common/config/` 下)定义了如何进行用户认证和授权。
+ * **Realms (域):** 自定义的Shiro Realm类负责从数据库中查询用户信息(用户名、密码、盐值)进行身份验证,以及获取用户的角色和权限信息用于授权决策。
+ * **Filters (过滤器):** Shiro过滤器链被应用于保护API端点,确保只有经过认证且拥有足够权限的用户才能访问特定资源。
+ * **Session/Token Management:** Shiro管理用户会话。对于RESTful API,可能结合OAuth2或JWT等令牌机制实现无状态认证。
+
+ 5. **数据库版本控制 (Liquibase):**
+ * 数据库的表结构、索引、初始数据等变更,都通过Liquibase的 `changelog` 文件(通常是XML格式)进行定义和版本化管理。当应用启动时,Liquibase会自动检查并应用必要的数据库结构更新,确保开发、测试和生产环境数据库结构的一致性。
+
+ 6. **API文档:**
+ * 完整的API接口文档可通过以下地址访问: https://2662r3426b.vicp.fun/xiaozhi/doc.html
+ * 该文档使用Knife4j生成,提供了所有RESTful API端点的详细说明、请求/响应示例以及在线测试功能。
+
+`manager-api` 通过这些精心选择的技术和设计模式,构建了一个功能全面、结构清晰、安全可靠且易于维护和扩展的Java后端服务。其模块化的设计特别适合处理具有多种管理功能需求的复杂系统。
+
+---
+
+### 3.3. `manager-web` (Web管理前端 - Vue.js实现)
+
+`manager-web` 组件是一个采用 Vue.js 2 框架构建的单页应用 (SPA - Single Page Application)。它为系统管理员提供了一个功能丰富、交互友好的图形用户界面,用于全面管理和配置 `xiaozhi-esp32-server` 生态系统。
+
+* **核心目标:**
+ * 提供一个基于Web的集中式控制面板,供管理员进行系统操作与监控。
+ * 实现对 `xiaozhi-server` 中AI服务提供商(ASR、LLM、TTS等)及其相关API密钥或许可配置的便捷管理。
+ * 支持用户账户、角色及权限的精细化管理。
+ * 提供ESP32设备的注册、配置及状态查看功能。
+ * 允许管理员自定义TTS音色、管理OTA固件更新流程、调整系统级参数及字典数据等。
+ * 作为 `manager-api` 所暴露各项功能的图形化交互前端。
+
+* **核心技术栈:**
+ * **Vue.js 2:** 一个渐进式的JavaScript框架,用于构建用户界面。其核心特性包括声明式渲染、组件化系统、数据绑定等,非常适合构建复杂的SPA。
+ * **Vue CLI (`@vue/cli-service`):** Vue.js的官方命令行工具,用于项目的快速搭建、开发服务器的运行(支持热模块替换HMR)、以及生产环境构建打包(内部集成并配置了Webpack)。
+ * **Vue Router (`vue-router`):** Vue.js官方的路由管理器。它负责在SPA内部实现不同“页面”或视图组件之间的导航切换,而无需重新加载整个HTML页面,提供了流畅的用户体验。
+ * **Vuex (`vuex`):** Vue.js官方的状态管理模式和库。它充当了应用中所有组件的“中央数据存储”,用于管理全局共享状态(例如当前登录用户信息、设备列表、应用配置等),特别适用于大型复杂应用。
+ * **Element UI (`element-ui`):** 一个广受欢迎的基于Vue 2.0的桌面端UI组件库。它提供了大量预先设计和实现的组件(如表单、表格、对话框、导航菜单、按钮、提示等),帮助开发者快速构建出专业且一致的用户界面。
+ * **JavaScript (ES6+):** 前端逻辑实现的主要编程语言,利用其现代特性进行开发。
+ * **SCSS (Sassy CSS):** 一种CSS预处理器,它为CSS增加了变量、嵌套规则、混合(Mixin)、继承等高级特性,使得CSS代码更易于组织、维护和复用。
+ * **HTTP客户端 (Flyio 或 Axios 通过 `vue-axios`):** 用于在浏览器端向 `manager-api` 后端发起异步HTTP(AJAX)请求,以获取数据或提交操作。
+ * **Webpack:** 一个强大的模块打包工具(由Vue CLI在底层管理和配置)。它将项目中的各种资源(JavaScript文件、CSS、图片、字体等)视为模块,并将它们打包成浏览器可识别的静态文件。
+ * **Workbox (通过 `workbox-webpack-plugin`):** Google开发的一个库,用于简化Service Worker的编写和PWA(Progressive Web App - 渐进式Web应用)的实现。它可以帮助生成Service Worker脚本,实现资源缓存、离线访问等功能。
+ * **Opus库 (`opus-decoder`, `opus-recorder`):** 这些音频处理库表明前端可能具备一些直接在浏览器中处理Opus格式音频的能力,例如:用于测试麦克风输入、允许管理员录制自定义音频片段(可能用于TTS音色样本或语音指令测试),或播放在管理界面中预览的Opus编码音频。
+
+* **关键实现细节:**
+
+ 1. **单页应用 (SPA) 结构:**
+ * 整个前端应用加载一个主HTML文件 (`public/index.html`)。后续的所有页面切换和内容更新都在客户端由Vue Router动态完成,无需每次都从服务器请求新的HTML页面。这种模式能提供更快的页面加载速度和更流畅的交互体验。
+
+ 2. **组件化架构 (Component-Based Architecture):**
+ * 用户界面由一系列可复用的Vue组件 (`.vue` 单文件组件) 构成,形成一个组件树。这种方式提高了代码的模块化程度、可维护性和复用性。
+ * **`src/main.js`:** 应用的入口JS文件。它负责创建和初始化根Vue实例,注册全局插件(如Vue Router, Vuex, Element UI),并把根Vue实例挂载到 `public/index.html` 中的某个DOM元素上(通常是 `#app`)。
+ * **`src/App.vue`:** 应用的根组件。它通常定义了应用的基础布局结构(如包含导航栏、侧边栏、主内容区),并通过 ` ` 标签来显示当前路由匹配到的视图组件。
+ * **视图组件 (`src/views/`):** 这些组件代表了应用中的各个“页面”或主要功能区(例如 `Login.vue` 登录页, `DeviceManagement.vue` 设备管理页, `UserManagement.vue` 用户管理页, `ModelConfig.vue` 模型配置页)。它们通常由Vue Router直接映射。
+ * **可复用UI组件 (`src/components/`):** 包含了在不同视图之间共享的、更小粒度的UI组件(例如 `HeaderBar.vue` 顶部导航栏, `AddDeviceDialog.vue` 添加设备对话框, `AudioPlayer.vue` 音频播放器组件)。
+
+ 3. **客户端路由 (`src/router/index.js`):**
+ * Vue Router在此文件中进行配置,定义了应用的路由表。每个路由规则将一个特定的URL路径映射到一个视图组件。
+ * 常常包含**导航守卫 (Navigation Guards)**,例如 `beforeEach` 守卫,用于在路由跳转前执行逻辑,如检查用户是否已登录,如果未登录则重定向到登录页面,从而保护需要认证才能访问的页面。
+
+ 4. **状态管理 (`src/store/index.js`):**
+ * Vuex被用来构建一个集中的状态管理中心(Store)。这个Store包含了:
+ * **State:** 存储应用级别的共享数据(例如,当前登录用户的详细信息、从API获取的设备列表、系统配置等)。
+ * **Getters:** 类似于Vue组件中的计算属性,用于从State派生出一些状态值,方便组件使用。
+ * **Mutations:** **唯一**可以同步修改State中数据的方法。它们必须是同步函数。
+ * **Actions:** 用于处理异步操作(如API调用)或封装多个Mutation提交。Actions会调用API,获取数据后,通过 `commit` 一个或多个Mutation来更新State。
+ * 例如,用户登录时,一个名为 `login` 的Action可能会被调用,它会向后端API发送登录请求,成功后获取到用户信息和token,然后 `commit` 一个名为 `SET_USER_INFO` 的Mutation来更新State中的用户信息和token。
+
+ 5. **API通信 (`src/apis/`):**
+ * 与 `manager-api` 后端的所有HTTP通信逻辑被封装在 `src/apis/` 目录下,通常会按照后端API的模块进行组织(例如 `src/apis/module/agent.js`, `src/apis/module/device.js`)。
+ * 每个模块导出一系列函数,每个函数对应一个具体的API请求。这些函数内部使用配置好的HTTP客户端实例 (例如,在 `src/apis/api.js` 或 `src/apis/httpRequest.js` 中统一配置Axios或Flyio实例,可能包含设置请求基地址、请求/响应拦截器等)。
+ * **拦截器 (Interceptors):** HTTP客户端的请求拦截器常用于在每个请求发送前自动添加认证令牌(如JWT);响应拦截器则可用于全局处理API错误(如权限不足、服务器错误)或对响应数据进行预处理。
+
+ 6. **样式与资源 (`src/styles/`, `src/assets/`):**
+ * `Element UI` 提供了基础的组件样式。
+ * `src/styles/global.scss` 文件用于定义全局共享的SCSS样式、变量、混合(Mixin)等。
+ * Vue单文件组件内部的 `
+
+
+
+
📶
+
您当前处于离线模式
+
看起来您的网络连接有问题,无法连接到小智控制台服务器。
+
部分已缓存的内容和静态资源可能仍然可用,但功能可能受到限制。
+
重新尝试连接
+
+
+
+
+