近期有一个需求,类似于数字人,用户用语音控制进行菜单跳转,甚至于进行分析。 当用户对着麦克风进行说话的时候,要解析出来用户想干什么。当然好多付费的接口可以实现,但基于互联网免费的思路,当然要查找一翻。 Whisper 是用于自动语音识别 (ASR) 和语音翻译的预训练模型。 Whisper 模型经过 68 万小时的标记数据训练,表现出强大的泛化能力,无需进行微调即可推广到许多数据集和领域。 写的很强大,HuggingFace上有搭建好的模型当然要试用一下了,效果还不错,中文的解析正确率也挺高的,下面是接口请求方式。
一、首先要有一个公网IP来进行服务端安装配置,为了简化部署,并且尽量少的侵入性,就用Docker安装服务端: services: wireguard: restart: always image: weejewel/wg-easy container_name: wireguard ports: - "51820:51820/udp" - "51821:51821/tcp" environment: - TZ=Asia/Shanghai - WG_HOST=0.0.0.0 - PASSWORD=123456 - WG_PERSISTENT_KEEPALIVE=25 - WG_DEFAULT_ADDRESS=10.0.8.x - WG_DEFAULT_DNS=114.114.114.114 - WG_ALLOWED_IPS=10.0.8.0/24 volumes: - ./wg-easy:/etc/wireguard cap_add: - NET_ADMIN - SYS_MODULE sysctls: - net.ipv4.ip_forward=1 - net.ipv4.conf.all.src_valid_mark=1 二、客户端安装: # root权限 sudo -i # 安装wireguard软件 apt install wireguard resolvconf -y # 开启IP转发 echo "net.ipv4.ip_forward = 1" >> /etc/sysctl.conf sysctl -p wg-quick up wg0