从第一步开始教你用Python实现聊天机器人（基础篇）

科技 07-11 来源： AI中国

点击上方关注，All in AI中国

你能顺利在Python应用程序中实现语音识别吗？阅读本教程，了解使用开源Python库实现语音识别的简单方法。

你是否曾经想尝试一个语音识别项目，但发现它太吓人了?

我们来创建一些更复杂的东西，比如完整的音频聊天机器人或者语音助手，怎么样？

组合这类项目的框架代码实际上非常简单，这归功于那些我们可以依赖的开源库。结合这一点，让我们看看如何开始用Python创建一个基本的玩具语音识别应用程序。一旦我们掌握了基础知识，就可以更深入的使用它了。

丑话说在先，我们的Python玩具应用程序没有实际作用，但它会向我们介绍一些概念，这些概念对以后构建更复杂的事物非常有用。在某种程度上来说，如果我们正确地构建这个玩具，修改它来做更复杂的事情将会相对容易。

我们的应用程序在完成后能执行的操作：它会听我们说什么，然后鹦鹉学舌地把它传回给我们，仅此而已。这件事的意义是，我们将学会在应用程序中构建语音识别和音频回放。

导入需要的库

首先，导入几个我们需要的库（来自开源库）：

import os

import speech_recognition as sr

from pydub import AudioSegment
from pydub.playback import play
from gtts import gTTS as tts

注释：

speech_recognition SpeechRecognition · PyPI——用于执行语音识别的库，支持在线和离线的多个引擎和API。
pydub jiaaro/pydub @ GitHub——使用简单易用的高级接口操纵音频。
gTTS gTTS · PyPI ——用来连接谷歌翻译文本-语音API的Python库和CLI工具。

识别语音

接下来要做的事情——可能是语音识别应用程序最重要的事情，就是识别语音。

为此，我们首先需要从麦克风捕获传入的音频，然后执行语音识别。这都是通过speech recognition库来处理的。

这是捕捉语音的功能：

def capture():
 """Capture audio"""
 rec = sr.Recognizer()

 with sr.Microphone() as source:
 print('I\'M LISTENING...')
 audio = rec.listen(source, phrase_time_limit=5)

 try:
 text = rec.recognize_google(audio, language='en-US')
 return text

 except:
 speak('Sorry, I could not understand what you said.')
 return 0

就这样，语音捕获和识别，还觉得很可怕吗?

注意，一旦这个应用程序开始运行，它将以5秒的间隔进行监听，并逐个处理这5秒间隔。实用吗？不，一点也不。如果我们需要做一些更复杂的事情，可以把它进行调整，也许是听一个激活关键字，或者听我们说话的整个过程，不管长度等等。这仅仅是一个非常简单的开始。

回放语音

那么，我们捕捉到语音之后会做什么呢？我们需要处理它，具体该怎么做呢？

我们正在构建的应用程序将在很大程度上决定“process it”的含义。这次我们的处理将或多或少是一个占位符函数，以便将来做其他事情。目前我们的玩具应用程序将处理捕捉的语音，并将其自动回放给我们（输出到控制台）。

这是我们处理的一个简单函数：

def process_text(name, input):
 """Process what is said"""

 speak(name + ', you said: "' + input + '".')
 return

让应用程序说话

我们还想让这个应用程序说话，让我们编写一个函数，它使用谷歌文本-语音引擎来实现这个功能。

def speak(text):
 """Say something"""

 # Write output to console
 print(text)

 # Save audio file
 speech = tts(text=text, lang='en')
 speech_file = 'input.mp3'
 speech.save(speech_file)

 # Play audio file
 sound = AudioSegment.from_mp3(speech_file)
 play(sound)
 os.remove(speech_file)

首先，我们将传递给函数的内容打印到控制台；然后使用谷歌文本-语音的转换，从文本中创建一个音频文件；再将音频文件保存到磁盘；最后使用pydub库重新打开并播放文件。

这是最难处理的事情。现在我们只需要几行代码来驱动这个过程。

if __name__ == "__main__":

 # First get name
 speak('What is your name?')
 name = capture()
 speak('Hello, ' + name + '.')

 # Then just keep listening & responding
 while 1:
 speak('What do you have to say?')
 captured_text = capture().lower()

 if captured_text == 0:
 continue

 if 'quit' in str(captured_text):
 speak('OK, bye, ' + name + '.')
 break

 # Process captured text
 process_text(name, captured_text)

speak()和capture()函数都用于在提示时获取用户名，然后向他们打招呼。之后进入一个while循环，在捕获语音输入和执行一些非常基本的检查之间的循环，以确保捕获了一些内容，并且用户没有说“退出”来退出。捕获的文本被传递给process_text()函数，该函数响应刚才所说的内容，然后无限重复。

再一次申明：这里没有什么复杂的东西。

将上述所有代码保存到 voice_recognition_test.py 文件中。

现在来看看我们与极简语音识别应用程序的对话。用上面的代码运行它，查看结果如下(当然，同时想象我正在说话，并让别人重复我的话)：

$ python voice_recognition_test.py

What is your name?

I'M LISTENING...

Hello, Matthew.

What do you have to say?

I'M LISTENING...

Matthew, you said: "where are you from".

What do you have to say?

I'M LISTENING...