当前位置: 首页 > 编程日记 > 正文

利用 Python 打造一个语音合成系统

9d05ff80be0f684f6d940ff6ca1f9c35.gif

作者 | thedaydreamer

来源丨CSDN博客

背景

一直对语音合成系统比较感兴趣,总想能给自己合成一点内容,比如说合成小说,把我下载的电子书播报给我听等等。

c0e70b7b4dcdb598d06837c83eaa76e3.png

语音合成系统

其实就是一个基于语音合成的工具,但是这个东西由于很多厂家都提供了API的形式,因此开发难度大大降低,只需要调用几个API即可实现属于自己的语音合成工具;麻雀虽小,五脏俱全。往大了说,这就是一个小型的语音合成系统。

933d716ad2f0dd3281b8d2a0639548a9.png

准备工作

首先我们电脑上需要安装

  1. Anaconda

  2. Python 3.7

  3. visual studio code

00433214c1b08b66ceea09f5591c072c.png

步骤

这里我们选用讯飞开放平台的WebAPI接口。

https://www.xfyun.cn/doc/tts/online_tts/API.html

首先我们到控制台创建一个应用

92bfb83d62af10e5c036a1adbe56edca.png

创建好了之后,点击该应用进入,有该应用的详细栏目。

点击左侧的语音合成,再到下一级在线语音合成(流式版)
d064f0808751a2983152b12b73775400.png

在右上侧,我们需要拿到3个东西:

  1. APPID

  2. APISecret

  3. APIKey

329a8ef638278c5cd3e1e5714b6be7f6.png

代码实现

好了接下来进行代码实现了,首先安装我们需要的两个库。

pip install websocket-client
pip install playsound

接下来我们定义一个类play,包含4个函数

class play:
def __init__(self): #初始化函数
def play_sound(self):#播放音频函数
def select_vcn(self,*arg):#选择下拉框设置发音人def xfyun_tts(self):#进行语音合成

在这里,大家需要填上刚才从讯飞开放平台控制台获取到的appid、appkey以及appsecret

def __init__(self):
self.APP_ID = 'xxx'   #请填上自己的appid
self.API_KEY = 'xxx'  #请填上自己的appkey
self.SECRET_KEY = 'xxx' #请填上自己的appsecretself.root=tk.Tk() #初始化窗口
self.root.title("语音合成系统") #窗口名称
self.root.geometry("600x550") #设置窗口大小
self.root.resizable(0,0)
#self.root.resizable(width=True,height=True)#设置窗口是否可变,宽不可变,高可变,默认为True
self.lb=tk.Label(self.root,text='请选择语音发音人')#标签
self.tt=tk.Text(self.root,width=77,height=30) #多行文本框
self.cb=ttk.Combobox(self.root, width=12)  #下拉列表框
#设置下拉列表框的内容   
self.cb['values']=("甜美女声-小燕","亲切男声-许久","知性女声-小萍", "可爱童声-许小宝","亲切女声-小婧")
self.cb.current(0)    #将当前选择状态置为0,也就是第一项
self.cb.bind("<<ComboboxSelected>>", self.select_vcn)
self.tk_tts_file=tk.Label(self.root,text='生成文件名')
self.b1=tk.Button(self.root, text='进行语音合成', width=10,height=1,command=self.xfyun_tts) #按钮
self.tk_play=tk.Button(self.root, text='播放', width=10,height=1,command=self.play_sound) #按钮
#各个组件的位置
self.tk_tts_file.place(x=30,y=500)
self.b1.place(x=300,y=500)
self.tk_play.place(x=400,y=500)
self.lb.place(x=30,y=30)
self.cb.place(x=154,y=30)self.tt.place(x=30,y=60)self.root.mainloop()

当选择了下拉列表,设置对应的发音人

def select_vcn(self,*arg):if self.cb.get()=='甜美女声-小燕':self.vcn="xiaoyan"        elif self.cb.get()=='亲切男声-许久':self.vcn="aisjiuxu"        elif self.cb.get()=='知性女声-小萍':self.vcn="aisxping"        elif self.cb.get()=='可爱童声-许小宝':self.vcn="aisbabyxu"        elif self.cb.get()=='亲切女声-小婧':self.vcn="aisjinger"        print(self.vcn)

接下来我们来魔改讯飞自带的Python demo为从而更加方便的来使用

# -*- coding:utf-8 -*-##   author: iflytek##  本demo测试时运行的环境为:Windows + Python3.7#  本demo测试成功运行时所安装的第三方库及其版本如下:#   cffi==1.12.3#   gevent==1.4.0#   greenlet==0.4.15#   pycparser==2.19#   six==1.12.0#   websocket==0.2.1#   websocket-client==0.56.0#   合成小语种需要传输小语种文本、使用小语种发音人vcn、tte=unicode以及修改文本编码方式#  错误码链接:https://www.xfyun.cn/document/error-code (code返回错误码时必看)# # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #import websocketimport datetimeimport hashlibimport base64import hmacimport jsonfrom urllib.parse import urlencodeimport timeimport sslfrom wsgiref.handlers import format_date_timefrom datetime import datetimefrom time import mktimeimport _thread as threadimport osimport waveSTATUS_FIRST_FRAME = 0  # 第一帧的标识STATUS_CONTINUE_FRAME = 1  # 中间帧标识STATUS_LAST_FRAME = 2  # 最后一帧的标识PCM_PATH = "./demo.pcm"class Ws_Param(object):# 初始化def __init__(self):passdef set_tts_params(self, text, vcn):if text != "":                self.Text = textif vcn != "":                self.vcn = vcn# 业务参数(business),更多个性化参数可在官网查看                self.BusinessArgs = {"bgs":1,"aue": "raw", "auf": "audio/L16;rate=16000", "vcn": self.vcn, "tte": "utf8"}#使用小语种须使用以下方式,此处的unicode指的是 utf16小端的编码方式,即"UTF-16LE"”#self.Data = {"status": 2, "text": str(base64.b64encode(self.Text.encode('utf-16')), "UTF8")}            self.Data = {"status": 2, "text": str(base64.b64encode(self.Text.encode('utf-8')), "UTF8")}def set_params(self, appid, apiSecret, apiKey):if appid != "":            self.APPID = appid# 公共参数(common)            self.CommonArgs = {"app_id": self.APPID}if apiKey != "":            self.APIKey = apiKeyif apiSecret != "":            self.APISecret = apiSecret# 生成urldef create_url(self):        url = 'wss://tts-api.xfyun.cn/v2/tts'# 生成RFC1123格式的时间戳        now = datetime.now()        date = format_date_time(mktime(now.timetuple()))# 拼接字符串        signature_origin = "host: " + "ws-api.xfyun.cn" + "\n"        signature_origin += "date: " + date + "\n"        signature_origin += "GET " + "/v2/tts " + "HTTP/1.1"# 进行hmac-sha256进行加密        signature_sha = hmac.new(self.APISecret.encode('utf-8'), signature_origin.encode('utf-8'),                                 digestmod=hashlib.sha256).digest()        signature_sha = base64.b64encode(signature_sha).decode(encoding='utf-8')        authorization_origin = "api_key=\"%s\", algorithm=\"%s\", headers=\"%s\", signature=\"%s\"" % (            self.APIKey, "hmac-sha256", "host date request-line", signature_sha)        authorization = base64.b64encode(authorization_origin.encode('utf-8')).decode(encoding='utf-8')# 将请求的鉴权参数组合为字典        v = {"authorization": authorization,"date": date,"host": "ws-api.xfyun.cn"        }        url = url + '?' + urlencode(v)return urldef on_message(ws, message):try:#print(message)try:            message =json.loads(message)except Exception as e:            print("111",e)        code = message["code"]        sid = message["sid"]        audio = message["data"]["audio"]        audio = base64.b64decode(audio)        status = message["data"]["status"]        print(code, sid, status)if status == 2:            print("ws is closed")            ws.close()if code != 0:            errMsg = message["message"]            print("sid:%s call error:%s code is:%s" % (sid, errMsg, code))else:with open(PCM_PATH, 'ab') as f:                f.write(audio)except Exception as e:        print("receive msg,but parse exception:", e)# 收到websocket错误的处理def on_error(ws, error):    print("### error:", error)# 收到websocket关闭的处理def on_close(ws):    print("### closed ###")# 收到websocket连接建立的处理def on_open(ws):def run(*args):        d = {"common": wsParam.CommonArgs,"business": wsParam.BusinessArgs,"data": wsParam.Data,             }        d = json.dumps(d)        print("------>开始发送文本数据")        ws.send(d)if os.path.exists(PCM_PATH):            os.remove(PCM_PATH)    thread.start_new_thread(run, ())def text2pcm(appid, apiSecret, apiKey, text, vcn, fname):    wsParam.set_params(appid, apiSecret, apiKey)    wsParam.set_tts_params(text, vcn)    websocket.enableTrace(False)    wsUrl = wsParam.create_url()    ws = websocket.WebSocketApp(wsUrl, on_message=on_message, on_error=on_error, on_close=on_close)    ws.on_open = on_open    ws.run_forever(sslopt={"cert_reqs": ssl.CERT_NONE})    pcm2wav(PCM_PATH, fname)def pcm2wav(fname, dstname):with open(fname, 'rb') as pcmfile:        pcmdata = pcmfile.read()        print(len(pcmdata))with wave.open(dstname, "wb") as wavfile:        wavfile.setparams((1, 2, 16000, 0, 'NONE', 'NONE'))        wavfile.writeframes(pcmdata)wsParam = Ws_Param()

最终一个语音合成系统就这样实现了。5848e23bf30db45a1f08025789bbda40.png

当前,各种云计算、云服务迅速发展,各大公司提供了丰富的资源,大大降低了人工智能开发的门槛,不需要懂语音合成的原理,竟然可以快速开发出一个语音合成工具出来!

f1087a97323b5b559bd58c2f01007cc6.gif

技术

用Python写了个使命召唤外挂

资讯

俄罗斯 Android 系统受限

技术

这个插件超赞!还能自动生成代码

技术

一行Python代码能干嘛?来看!

256c47258e5513e65b0d60a4820bb0a3.png

分享

c08394ede4abbef3c3663d1e0edf85b7.png

点收藏

8935c3ee843cf58d4bfc51d8fc78d1e2.png

点点赞

fecf39037ec45fd5d61204d2f187a61d.png

点在看

相关文章:

干货:排名前 16 的 Java 工具类!

2019独角兽企业重金招聘Python工程师标准>>> 干货&#xff1a;排名前 16 的 Java 工具类&#xff01; 在Java中&#xff0c;工具类定义了一组公共方法&#xff0c;这篇文章将介绍Java中使用最频繁及最通用的Java工具类。以下工具类、方法按使用流行度排名&#xf…

使用ecshop电子商务系统的100个小问题

总结100条关于操作ecshop电子商务系统的小问题。1:如何修改网站"欢迎光临本店"回答:languages\zh_cn\common.php文件中&#xff0c; $_LANG[welcome] 欢迎光临本店;将他修改成你需要的字样。2:如何修改首页"热门搜索关键字"回答:后台->系统设置->网…

MyCAT常用分片规则之分片枚举

MyCAT支持多种分片规则&#xff0c;下面测试的这种是分片枚举。适用场景&#xff0c;列值的个数是固定的&#xff0c;譬如省份&#xff0c;月份等。 在这里&#xff0c;需定义三个值&#xff0c;规则均是在rule.xml中定义。 1. tableRule 2. function 3. mapFile 首先&#xff…

手把手带你打造一款 签名设计 的GUI图形界面!

作者 | 黄伟呢来源丨数据分析与统计学之美1.概述 整体布局呢我们已经搭建起来&#xff0c;唯一没有实现的一个步骤就是&#xff0c;用户每输入一个名字&#xff0c;就会将个性签名一并显示在这个窗口界面中&#xff0c;今天我就带着大家一起完成这个需求。今天的文章可以看成是…

跨域资源共享 CORS

简介 CORS是一个W3C标准&#xff0c;全称是"跨域资源共享"&#xff08;Cross-origin resource sharing&#xff09;。它允许浏览器向跨源服务器&#xff0c;发出XMLHttpRequest请求&#xff0c;从而克服了AJAX只能同源使用的限制。 CORS需要浏览器和服务器同时支持。…

SMARTY核心

http://www.smarty.net/http://smarty.php.net/manual/en/1.配置define("ROOTPATH",dirname(__FILE__)."/../");require_once("smarty/Smarty.class.php");/*** Smarty Template Class Initializtion*/if( constant( "ENABLED_TPL" ) …

5G+XR:让视频增强技术在工业领域大有所为

据工业和信息化部统计显示&#xff0c;目前中国累计建成并开通5G基站142.5万个&#xff0c;基站总数今年有望突破200万个。自5G正式商用以来&#xff0c;凭借其高带宽、广连接、低延时等优势&#xff0c;5G应用的实践逐渐从最初的单一化业务触及至更广泛的行业应用场景中。其中…

IE的安全性设定增加“我的电脑”的安全性设定

HKEY_CURRE-NT_USER\Software\Microsoft\Windows\CurrentVersion\InternetSettings\Zones\0&#xff0c;在右边窗口中找到DWORD值“Flags”&#xff0c;默认键值为十六进制的21(十进制33)&#xff0c;双击“Flags”&#xff0c;在弹出的对话框中将它的键值改为“1”即可&#x…

F# 4.5提供Spans、Match!等特性

F# 4.5预览版现已发布&#xff0c;其中提供了一系列新特性&#xff0c;包括对.NET Core 2.1的新原生类型Span\u0026lt;T\u0026gt;的支持、新关键字Match!等。\\类型Span意在实现底层代码指针操作的安全性和可预测性&#xff0c;这可使得很多情况下不必再分配内存&#xff0c;进…

ecshop transport.js/run() error:undefined

在使用ECshop的AJAX(即&#xff1a;transport.js) IE有时候会出现&#xff1a;ReferenceError: process_request is not defined&#xff0c;FF则出现&#xff1a;transport.js/run() error:undefined&#xff0c;其实这完全和transport.js无关。那么问题出在哪里呢&#xff1f…

为什么你不应该自行更新 Drupal 网站?

&#xff08;译注&#xff1a;这篇文章主要还是针对于非专业人员及个人Drupal站长&#xff0c;对于专业的 Drupal 团队和公司而言 Drupal 的升级更新都有规范的操作流程&#xff0c;完全是家常便饭&#xff0c;不可能出现文中出现的这些情况。尽管如此&#xff0c;里面也还是有…

用友发布新一代企业智能商旅及费控服务平台

3月31日&#xff0c;“便捷商旅 智能费控—2022用友BIP|商旅及费控服务新品发布会”成功举行。作为新一代企业智能商旅及费控服务平台&#xff0c;用友BIP商旅及费控服务以“连接 高效 智能 合规”为核心价值理念&#xff0c;致力于让5000万报销人拥有极致的体验&#xff0c;让…

RNN,LSTM,GRU简单图解:

一篇经典的讲解RNN的&#xff0c;大部分网络图都来源于此&#xff1a;http://colah.github.io/posts/2015-08-Understanding-LSTMs/ 每一层每一时刻的输入输出&#xff1a;https://www.cnblogs.com/lovychen/p/9368390.html 带有权重标识的图&#xff1a;

ecshop模板smarty foreach详解 [ECshop]

{foreach},{foreachelse}{foreach} 用于像循环访问一个数字索引数组一样循环访问一个关联数组&#xff0c;与仅能访问数字索引数组的{section}不同&#xff0c;{foreach}的语法比 {section}的语法简单得多&#xff0c;但是作为一个折衷方案也仅能用于单个数组。每个{foreach}标…

自己动手,做一款抬头显示的「Todo Hud」

我用过好多款 TodoList 软件&#xff0c;但事情一多总还是丢三落四&#xff0c;原本计划好要做的事情总是安静地躺在某个角落&#xff0c;等我想起来要去扫一眼的时候&#xff0c;都已快「物是人非」。。。 要是能在桌面上实时显示 TodoList&#xff0c;那该多好&#xff01;但…

微软语音扩展全球语言支持,发布160个新声音

导语&#xff1a;全世界有数千种语言&#xff0c;最具语言天赋的人也只能说数十种&#xff0c;普通人能够学会两三种语言已属不易。然而&#xff0c;在科技日新月异的今天&#xff0c;具备自然语言对话能力的AI已经能够掌握上百种语言&#xff0c;扩展人类自身能力&#xff0c;…

P4269 [USACO18FEB]Snow Boots G

思维题。 以地板为序构造链表&#xff0c;再排序&#xff0c;然后删除走不过去的地面。 删除的时候顺便维护最大的跨度&#xff0c;以此判断可行性。 总的来说利用了答案的单调性。 #include <cstdio> #include <cstring> #include <iostream> #include <…

GPT-3:现实版的“贾维斯”?还是真「人工」智能?

整理 | 章雨铭 责编 | 屠敏出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;GPT-3&#xff08;Generative Pre-trained Transformer 3&#xff09;自2020年推出以来就备受热议&#xff0c;它是一种由OpenAI开发的AI工具。发布的两年来&#xff0c;外媒The Verg…

SVN更换修改用户名

如果装了TortoiseSVN&#xff1a; Settings -> Saved Data -> Authentication Data -> clear。即可清除保存的上个用户登录信息&#xff1b;当再次用到svn时&#xff0c;会提示输入用户名密码&#xff0c;输入新的用户名密码即可。 或者&#xff0c;手动删除下面目录下…

启用CORS实现Ajax跨域请求

2019独角兽企业重金招聘Python工程师标准>>> 应用场景&#xff1a;想从a.com请求b.com上的资源&#xff0c;由于同源策略不允许请求。 解决办法&#xff1a;在请求的php文件中加入 header("Access-Control-Allow-Origin: http://b.com"); 这种比较安全&am…

Python机器学习实践指南pdf (中文版带书签)、原书代码、数据集

Python机器学习实践指南 目 录 第1章Python机器学习的生态系统 1 1&#xff0e;1 数据科学/机器学习的工作 流程 2 1&#xff0e;1&#xff0e;1 获取 2 1&#xff0e;1&#xff0e;2 检查和探索 2 1&#xff0e;1&#xff0e;3 清理和准备 3 1&#xff0e;1&#xff0e;4 建模…

虚拟机安装CentOS以及SecureCRT设置【完美无错版】

一、CentOS简介CentOS是Linux的发行版之一&#xff0c;它安全、稳定、高效&#xff0c;是我最喜欢的Linux发行版之一。CentOS根据Red Hat Enterprise Linux开放源代码编译而成&#xff0c;与RedHat Linux并没有什么本质上的差别。但Red Hat Enterprise Linux是商业软件&#xf…

Python 实现机器学习前后端页面的交互

作者 | 俊欣来源丨关于数据分析与可视化对于机器学习爱好者而言&#xff0c;很多时候我们需要将建好的模型部署在线上&#xff0c;实现前后端的交互&#xff0c;今天小编就通过Flask以及Streamlit这两个框架实现机器学习模型的前后端交互。模型的建立首先是模型的建立&#xff…

webpack入门(二)what is webpack

webpack is a module bundler.webpack是一个模块打包工具&#xff0c;为了解决上篇一提到的各种模块加载或者转换的问题。 webpack takes modules with dependencies and generates static assets representing those modules. webpack以依赖模块和生成 静态的资源来代表这些模…

vSAN读者交流之1-要为不同时间的服务器选择合适的系统版本

近期在我的虚拟化群中&#xff0c;有两个问题比较典型&#xff1a;在比较老的服务器安装新的VMware ESXi 6.7或vCenter Server 6.7出错。在比较新的服务器安装比较旧的ESXi版本5.5出错。因为每个人的实验环境不同、条件不同&#xff0c;用不同的服务器做实验&#xff0c;或者为…

ecshop中ajax的调用原理

1:首先ecshop是如何定义ajax对象的。ecshop中的ajax对象是在js/transport.js文件中定义的。里面是ajax对象文件。声明了一个var Ajax Transport;对象和一个方法Ajax.call Transport.run;2:ecshop中ajax可以使用两种方式传递数据&#xff0e;一种是get方式&#xff0c;一种是p…

IOS7原生API进行二维码条形码的扫描

2019独角兽企业重金招聘Python工程师标准>>> //需要真机 #import "ViewController.h" #import <AVFoundation/AVFoundation.h>interface ViewController ()<AVCaptureMetadataOutputObjectsDelegate>//用于处理采集信息的代理 {AVCaptureSess…

元宇宙中可跨语种交流,Meta 发布新语音模型,支持128种语言无障碍对话

编译 | 禾木木 出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09; 语言交流是人类互动一种自然的方式&#xff0c;随着语音技术的发展&#xff0c;我们可以与设备以及未来的虚拟世界进行互动&#xff0c;由此虚拟体验将于我们的现实世界融为一体。 然而&#xff0c;…

sql server几种读写分离方案的比较

原文:sql server几种读写分离方案的比较在生产环境中我们经常会遇到这种情况&#xff1a; 前端的oltp业务很繁忙&#xff0c;但是需要对这些运营数据进行olap&#xff0c;为了不影响前端正常业务&#xff0c;所以需要将数据库进行读写分离。 这里我将几种可以用来进行读写分离的…

Jquery和javascript常用技巧

var objSel document.getElementById("selOp"); //这是获取值 alert("当前值: " objSel.value); //这是获取文本 alert("当前文本: " objSel.options(objSel.selectedIndex).text);…