前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

我把80年代按键电话改造成了Claude语音助手

技术2026年7月1日· 5 分钟阅读0 阅读

一个硬件控把老式FeTAp电话改装成与Claude对话的设备:ESP32采集音频,树莓派编排,ElevenLabs做语音管道。延迟从13秒优化到1秒,月成本仅6美元。关键是——电话和微信机器人共享同一记忆库。

Image 2

技术栈

每一块都有它的位置。这是一个双脑系统:电话里藏着一块微型控制器,树莓派负责编排。

  • FeTAp按键电话 — 本体。保留原有听筒、键盘、挂钩和铃。我只在挂钩开关上动了手脚,音频通过听筒走。
  • ESP32-A1S音频套件 — 电话内部的瘦客户端。它拾取麦克风音频,通过听筒播放AI的声音,监听挂钩开关来判断是否有人拿起或挂断。它不做任何AI处理——只通过WiFi把音频流式传输给树莓派。
  • 树莓派5 — 主机。24/7运行电话守护进程,桥接ESP32的音频到ElevenLabs,管理会话,处理记忆。同一个树莓派已经跑着我的微信助手。
  • ElevenLabs对话式AI — 语音管道。语音识别、轮次切换,以及我能找到的最好的德语TTS,全部在一个托管代理里。里面的语言模型是Claude。
  • Claude (Haiku 4.5) — 大脑。配置为代理的LLM。快速、便宜,闲聊绰绰有余。
  • Supabase — 记忆库。和微信机器人用同一个PostgreSQL数据库。事实、目标和历史,两个渠道共享。
  • Bun + TypeScript — 守护进程运行时。快速,无需构建步骤。运行音频桥接和通话后的记忆提取。

取舍:一部电话,多个大脑

这是我引以为傲的部分:电话并不硬连线到某一套AI。它设计成可切换的。几个环境变量决定电话用哪个语音引擎、哪个语言模型、哪个声音——每个组合在延迟、成本、能力和隐私点上落在不同的位置。没有“最佳”方案。只有你今天想要的取舍。

延迟的进化:从13秒到1秒

第一个能工作的版本要13秒才回答。你说句话,然后沉默,等到你放弃回答才到。根本没法用。

第一个大脑用本地CLI跑Claude——免费,因为有订阅,但每个轮次要启动一个完整进程,实时通话太慢。改成直接调API:降到了大约2秒,但变成按量计费。然后把整个管道搬进ElevenLabs的对话式AI,一切都在同一个伺服器:大约1.2秒,语言模型通过ElevenLabs的积分计费,不用另外付API钱。最后这一步同时解决了延迟和费用问题。但也带来了一个陷阱。

那个摧毁每段对话的Token上限

换用更便宜、更快的模型(Claude Haiku)后,Elliot变得话多——它开始喋喋不休而不保持简短。显然的修复:限制回复长度。所以我设了一个token上限。

它奏效了正好两轮。然后通话会无声地中断——我说话,没有回应,直到闲置超时挂断。每次通话都这样。

日志很残酷:我的语音明显到达了(音频诊断中到处是语音峰值),但ElevenLabs没有生成它的转录。第三轮直接消失了。

原因:当硬token上限截断模型中间一句话时,ElevenLabs的轮次切换状态机不能干净地关闭当前轮次。对话卡住,接下来你说的话直接丢在地上。我花了很多时间怀疑轮次检测模型,直到在日志里看到被截断的半截词语,才意识到上限才是真凶。

修复:彻底移除token上限。用正确的方式强制简短——在提示词里,最上面加一条硬规则:“始终用最多1–2个短句回答。”连续六轮干净对话,回复简短,没有丢掉任何内容。有时候粗杠杆(硬上限)会破坏系统,而软杠杆(指令)不会。

成本

电话跑在ElevenLabs Starter计划上:每月6美元,包含75分钟对话。一次典型的1.5分钟通话消耗大约560积分——语音转文字、语言模型和文字转语音合起来。Claude部分只占一小部分,因为Haiku很便宜。这个计划日常使用足够了;话多的人可以升级。

其他所有东西都已经付费或免费:Claude的通话后记忆提取用我已有订阅(0美元),Supabase用免费层(0美元,与微信机器人共享),树莓派电费大约每月0.3美元,ESP32板子几欧元一次性投入。所以:大约每月6美元,就能有一部古董电话,拿起来就能对话。对一个以前只是装饰的家具来说,不赖。

学到的教训

硬限制会以微妙的方式破坏有状态系统。Token上限不只是缩短回复——它破坏了对话的轮次状态。提示词里的软约束达到了同样的目标,但没造成破坏。当下游有状态保持时,宁可用指令代替硬截断。

管道集中比拼凑好。把语音、语言和声音放进一个托管代理,延迟从几秒降到大约一秒,而且简化了计费。代价是对每个阶段控制力降低——但对电话通话来说,延迟就是一切。

跨渠道记忆是杀手锏。电话和微信机器人共享同一个记忆,意味着AI感觉像是一个助手以两种方式触达,而不是两个独立的机器人。用语音告诉它一件事,它用文字时也知道。这种连续性是让它感觉活起来的关键。

下一步

  • 电话自己的麦克风。目前音频来自ESP板载麦克风,不是听筒真正的送话器。把原始的FeTAp麦克风接进去,才能真正对着听筒说话。
  • 通话中的网络搜索。目前Elliot不能实时查东西——问今晚有什么演唱会,它会礼貌地承认不会百度。给代理加一个搜索工具,就能让它通过电话回答真实世界的问题。
  • 铃。电话能接,但不能响。用ESP驱动原始铃,就能让助手给家里打电话:“会议10分钟后开始”,用一部80年代的按键电话。
标签:硬件改造Claude延迟优化树莓派

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

CERN关闭大型强子对撞机进行15亿美元升级
TOP1

CERN关闭大型强子对撞机进行15亿美元升级

塔塔电子遭勒索,iPhone 18 Pro 数据泄露
TOP2

塔塔电子遭勒索,iPhone 18 Pro 数据泄露

3

预览 GPT-5.6 Sol:新一代模型

3小时前
预览 GPT-5.6 Sol:新一代模型
4

MIT发现磁场增强的石墨烯超导态

2小时前
MIT发现磁场增强的石墨烯超导态
5

Anthropic 发布 Claude Sonnet 5,智能体能力显著提升

2小时前
Anthropic 发布 Claude Sonnet 5,智能体能力显著提升
6

一个姿态检测项目的踩坑实录

2小时前
7

OpenAI用流行病学方法修复18年C++漏洞

3小时前
OpenAI用流行病学方法修复18年C++漏洞
8

OpenAI发布GeneBench-Pro:评估AI科研判断力新基准

3小时前
OpenAI发布GeneBench-Pro:评估AI科研判断力新基准
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款