跳至主要内容

OpenAI 开源的Whisper体验



近期有一个需求,类似于数字人,用户用语音控制进行菜单跳转,甚至于进行分析。

当用户对着麦克风进行说话的时候,要解析出来用户想干什么。当然好多付费的接口可以实现,但基于互联网免费的思路,当然要查找一翻。

Whisper 是用于自动语音识别 (ASR) 和语音翻译的预训练模型。 Whisper 模型经过 68 万小时的标记数据训练,表现出强大的泛化能力,无需进行微调即可推广到许多数据集和领域。

写的很强大,HuggingFace上有搭建好的模型当然要试用一下了,效果还不错,中文的解析正确率也挺高的,下面是接口请求方式。







评论

此博客中的热门博文

Docker-Compose 安装 PolarDB

 version: '3.1' services:   polardb:     container_name: polardb     restart: always     image: polardb/polardb_pg_local_instance     ports:       - 5432:5432     networks:       - net_db     environment:       TZ: Asia/Shanghai     volumes:       - ./polardb:/var/polardb networks:   net_db:     external: true

Docker-Compose 安装 Portainer

 version: '3.1' services: portainer: image: portainer/portainer-ce:latest container_name: portainer hostname: portainer restart: always volumes: - "/var/run/docker.sock:/var/run/docker.sock" - "./portainer_data:/data" - "./portainer_cn:/public" environment: TZ: Asia/Shanghai LANG: en_US.UTF-8 ports: - "9001:9000" networks:      - net_db networks: net_db: external: true