JP6084654B2 - Speech recognition apparatus, speech recognition system, terminal used in the speech recognition system, and method for generating a speaker identification model - Google Patents
Speech recognition apparatus, speech recognition system, terminal used in the speech recognition system, and method for generating a speaker identification model Download PDFInfo
- Publication number
- JP6084654B2 JP6084654B2 JP2015113949A JP2015113949A JP6084654B2 JP 6084654 B2 JP6084654 B2 JP 6084654B2 JP 2015113949 A JP2015113949 A JP 2015113949A JP 2015113949 A JP2015113949 A JP 2015113949A JP 6084654 B2 JP6084654 B2 JP 6084654B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- terminal
- unit
- voice
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 23
- 230000004044 response Effects 0.000 claims description 93
- 238000012545 processing Methods 0.000 claims description 39
- 238000004891 communication Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 244000205754 Colocasia esculenta Species 0.000 description 9
- 235000006481 Colocasia esculenta Nutrition 0.000 description 9
- 230000003993 interaction Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 241000282575 Gorilla Species 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241000282836 Camelus dromedarius Species 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 229910003460 diamond Inorganic materials 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Telephonic Communication Services (AREA)
Description
本開示は音声認識に関し、より特定的には、話者を識別する技術に関する。 The present disclosure relates to speech recognition, and more specifically to techniques for identifying a speaker.
音声認識において話者を識別する技術が知られている。たとえば、特開2010−217319号公報(特許文献1)は、「音声信号から話者の特定を行う話者特定装置において、話者特定のための精度向上を図る」ための技術を開示している([要約]参照)。特開平7−261781号公報(特許文献2)は、「話者認識精度が高い話者認識のための音素モデルを作成する学習方法」を開示している([要約]参照)。 A technique for identifying a speaker in speech recognition is known. For example, Japanese Patent Laid-Open No. 2010-217319 (Patent Document 1) discloses a technique for “increasing accuracy for speaker identification in a speaker identification device that identifies a speaker from an audio signal”. (See [Summary]). Japanese Patent Laid-Open No. 7-261781 (Patent Document 2) discloses a “learning method for creating a phoneme model for speaker recognition with high speaker recognition accuracy” (see [Summary]).
従来の音声に基づく話者識別では、話者を識別するためのモデルは予め与えられているものとし、より短いユーザ発話で効率よいモデルを構築することが目標とされている。そのため、短いながらも1分〜2分程度の発話を予めユーザに要求し、得られた音声データから話者識別のモデルの確立を行っている。 In conventional speaker identification based on speech, a model for identifying a speaker is given in advance, and the goal is to construct an efficient model with shorter user utterances. Therefore, although it is short, the user is requested in advance to speak for about 1 minute to 2 minutes, and a speaker identification model is established from the obtained voice data.
従来の技術は、ユーザに前処理としての発話を要求するものである。しかしながら、音声コミュニケーションにおける話者識別では、より自然な対話を行うために、ユーザの発話が学習のために用いられていることをユーザに感じさせることなく学習データを取得する必要がある。そのため、話者識別のモデルが構築されていない状態でユーザに負荷を強いることなく話者識別のモデルを構築するために必要な音声データを取得する必要がある。 The conventional technique requires the user to speak as preprocessing. However, in speaker identification in voice communication, it is necessary to acquire learning data without making the user feel that the user's speech is used for learning in order to perform a more natural conversation. Therefore, it is necessary to acquire voice data necessary for building a speaker identification model without imposing a load on the user in a state where the speaker identification model is not built.
本開示は、上述のような問題点を解決するためになされたものであって、ある局面における目的は、話者識別のモデルを構築するために必要な音声データを取得できる音声認識装置を提供することである。 The present disclosure has been made to solve the above-described problems, and an object in one aspect is to provide a speech recognition apparatus that can acquire speech data necessary for building a speaker identification model. It is to be.
他の局面における目的は、話者識別のモデルを構築するために必要な音声データを取得できる音声認識システムを提供することである。 An object in another aspect is to provide a speech recognition system capable of acquiring speech data necessary for building a speaker identification model.
他の局面における目的は、当該音声認識システムで使用される端末を提供することである。 An object in another aspect is to provide a terminal used in the voice recognition system.
さらに他の局面における目的は、話者識別のモデルを構築するために必要な話者識別モデルを生成するための方法を提供することである。 Still another object is to provide a method for generating a speaker identification model necessary to build a speaker identification model.
一実施の形態に従う音声認識装置は、話者を識別する情報を含む発話と、話者を識別する情報を含まない発話とをそれぞれ受け付けるための音声入力部と、音声認識処理を行うための音声認識部と、音声を出力するための音声出力部と、音声認識処理の結果に基づいて音声認識装置を制御するための制御部とを備える。制御部は、話者を識別する情報と、話者を識別する情報を含まない発話とを関連付けることにより、話者を識別するための話者識別モデルを生成する。 A speech recognition device according to an embodiment includes a speech input unit for receiving an utterance including information for identifying a speaker and an utterance not including information for identifying a speaker, and a speech for performing speech recognition processing A recognition unit, a voice output unit for outputting a voice, and a control unit for controlling the voice recognition device based on a result of the voice recognition process. The control unit generates a speaker identification model for identifying the speaker by associating the information for identifying the speaker with the utterance not including the information for identifying the speaker.
ある局面において、ユーザは、学習のための前処理を意識せずに、通常の音声対話を行うことのみで、学習に必要な音声データが収集され得る。 In a certain aspect, the user can collect voice data necessary for learning only by performing a normal voice dialogue without being aware of preprocessing for learning.
この発明の上記および他の目的、特徴、局面および利点は、添付の図面と関連して理解されるこの発明に関する次の詳細な説明から明らかとなるであろう。 The above and other objects, features, aspects and advantages of the present invention will become apparent from the following detailed description of the present invention taken in conjunction with the accompanying drawings.
以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the following description, the same parts are denoted by the same reference numerals. Their names and functions are also the same. Therefore, detailed description thereof will not be repeated.
<技術思想>
本開示によれば、ユーザが不定の場合に音声対話内容でユーザ名を問いかけてユーザを分類することにより話者識別のためのモデル構築に必要な音声データ(たとえば声紋情報)が収集される。例えば、「しりとり」や早口言葉等のゲームのような対話では、ゲーム相手(たとえば、端末、家電機器等)に対する複数回のユーザ発話が期待される。このような場合に、ゲーム相手となる装置は、予めユーザ名を問いかけてゲームをすることにより一連のユーザ発話を学習データとすることができる。または、ある未知のユーザが発話した後にユーザ名を問いかけることで一時刻前の未知のユーザ名を確定することができる。
<Technology>
According to the present disclosure, voice data (for example, voiceprint information) necessary for building a model for speaker identification is collected by asking a user name by voice conversation contents and classifying the user when the user is indefinite. For example, in a dialogue such as “Shiritori” or a quick phrase such as a game, a plurality of user utterances to a game partner (for example, a terminal, a home appliance, etc.) is expected. In such a case, the device as the game opponent can make a series of user utterances as learning data by asking the user name in advance and playing the game. Alternatively, an unknown user name one hour before can be determined by asking the user name after a certain unknown user speaks.
本実施の形態では、音声認識の一例として、たとえば形態素解析が用いられる。この解析手法によれば、固有名詞とそうでないものが切り分けられる。たとえば、音声認識システムは、名前の辞書をデータベースとして有し得る。音声認識は、形態素解析において辞書と抽出された固有名詞とをマッチングすることにより行なわれる。 In the present embodiment, for example, morphological analysis is used as an example of speech recognition. According to this analysis technique, proper nouns and those that are not are separated. For example, a speech recognition system may have a dictionary of names as a database. Speech recognition is performed by matching a dictionary with an extracted proper noun in morphological analysis.
<構成の概要>
(構成1)ある局面に従う音声認識装置は、話者を識別する情報を含む発話と、話者を識別する情報を含まない発話とをそれぞれ受け付けるためのマイクと、音声認識処理を行うためのプロセッサと、音声を出力するためのスピーカと、音声認識処理の結果に基づいて音声認識装置を制御するためのプロセッサとを備える。プロセッサは、話者を識別する情報と、話者を識別する情報を含まない発話とを関連付けることにより、話者を識別するための話者識別モデルを生成する。話者識別モデルは、たとえば、話者の識別ID(Identification)と、話者(音声認識装置のユーザ)の名前と、当該話者の発話から抽出された声紋情報等を含み得る。
<Outline of configuration>
(Configuration 1) A speech recognition apparatus according to an aspect includes a microphone for receiving an utterance including information for identifying a speaker and an utterance not including information for identifying a speaker, and a processor for performing speech recognition processing And a speaker for outputting voice and a processor for controlling the voice recognition device based on the result of the voice recognition processing. The processor generates a speaker identification model for identifying a speaker by associating information identifying the speaker with an utterance that does not include information identifying the speaker. The speaker identification model may include, for example, a speaker identification ID (Identification), the name of the speaker (user of the speech recognition apparatus), voiceprint information extracted from the speaker's utterance, and the like.
本実施の形態において、話者を識別する情報としては、たとえば、名前、あだ名、住民番号、政府機関から与えられた識別番号その他の情報であって、発話に含めることが可能な語句をいう。 In this embodiment, the information for identifying a speaker is, for example, a name, a nickname, a resident number, an identification number given by a government agency, or other information that can be included in an utterance.
(構成2)好ましくは、スピーカは、話者を識別する情報を尋ねる問い合せを出力する。話者を識別する情報と、話者を識別する情報を含まない発話とを関連付けることは、話者を識別する情報と、問い合わせの後に発せられた話者を識別する情報を含まない発話とを関連付けることを含む。 (Configuration 2) Preferably, the speaker outputs an inquiry asking for information for identifying a speaker. Associating information that identifies a speaker with an utterance that does not contain information that identifies the speaker means that information that identifies the speaker and utterance that does not contain information that identifies the speaker uttered after the inquiry. Including associating.
(構成3)好ましくは、スピーカは、話者を識別する情報を含まない発話の後に、話者を識別する情報を尋ねる問い合せを出力する。話者を識別する情報と、話者を識別する情報を含まない発話とを関連付けることは、問い合わせの前に発せられた発話と、問い合わせに応答する発話に含まれる話者を識別する情報とを関連付けることを含む。 (Configuration 3) Preferably, the speaker outputs an inquiry asking for information for identifying a speaker after an utterance not including information for identifying the speaker. Associating information that identifies a speaker with an utterance that does not include information that identifies the speaker is the process of associating the utterance before the inquiry with the information identifying the speaker included in the utterance that responds to the inquiry. Including associating.
(構成4)プロセッサは、スピーカから出力される発話に対する応答の内容に基づいて、スピーカから次に出力する発話の内容を決定するように構成されている。たとえば、音声認識装置は、複数の問い合わせを予め保持している。各問い合せの難易度は、階層的に異なる。ある局面において、難易度が中位である問い合わせの発話に対して、予め定められた一定時間内に応答が返ってこない場合、あるいは、応答が正しくない場合、プロセッサは、難易度が低い問い合わせ(しりとりの問題)を発話する。別の局面において、予め定められた一定時間内に早期に応答が返ってきた場合、プロセッサは、難易度が高い問い合わせ(しりとりの問題)を次の問い合わせとして発話する。 (Configuration 4) The processor is configured to determine the content of the next utterance to be output from the speaker based on the content of the response to the utterance output from the speaker. For example, the speech recognition apparatus holds a plurality of inquiries in advance. The difficulty level of each inquiry is hierarchically different. In a certain situation, if a response is not returned within a predetermined time for an utterance of a query with a medium difficulty level, or if the response is not correct, the processor issues a query with a low difficulty level ( Talk about the problem of shiritori). In another aspect, when a response is returned early within a predetermined time, the processor utters a query with a high degree of difficulty (a problem of shiritori) as the next query.
(構成5)当該音声認識装置は、生成された話者識別モデルを格納するためのメモリをさらに備える。プロセッサは、問い合わせに対する応答に基づいて、生成された話者識別モデルを更新するように構成されている。 (Configuration 5) The speech recognition apparatus further includes a memory for storing the generated speaker identification model. The processor is configured to update the generated speaker identification model based on the response to the query.
(構成6)別の局面に従うと、音声認識システムが提供される。音声認識システムは、端末と、当該端末と通信可能な装置とを備える。端末は、話者を識別する情報を含む発話と、話者を識別する情報を含まない発話とを受け付けるためのマイクと、音声を出力するためのスピーカと、マイクおよびスピーカに電気的に接続されて、当該装置と通信するための通信インターフェイスとを備える。装置は、端末と通信するための通信インターフェイスと、音声認識処理を行うためのプロセッサと、音声認識処理の結果に基づいて装置を制御するためのプロセッサとを備える。プロセッサは、話者を識別する情報と、話者を識別する情報を含まない発話とを関連付けることにより、話者を識別するための話者識別モデルを生成する。 (Configuration 6) According to another aspect, a speech recognition system is provided. The voice recognition system includes a terminal and a device capable of communicating with the terminal. The terminal is electrically connected to a microphone for receiving an utterance including information for identifying a speaker and an utterance not including information for identifying a speaker, a speaker for outputting sound, and the microphone and the speaker. And a communication interface for communicating with the device. The apparatus includes a communication interface for communicating with a terminal, a processor for performing voice recognition processing, and a processor for controlling the apparatus based on the result of the voice recognition processing. The processor generates a speaker identification model for identifying a speaker by associating information identifying the speaker with an utterance that does not include information identifying the speaker.
<技術思想の背景>
図1を参照して、本実施の形態に係る技術思想の背景について説明する。図1は、しりとりゲームが行われる場合におけるユーザ1と端末2とのやり取りを表わす図である。ユーザ1は、端末2に対して、メッセージ10を発する。端末2は、メッセージ10を認識すると、応答として、メッセージ11を発する。
<Background of technical thought>
The background of the technical idea according to the present embodiment will be described with reference to FIG. FIG. 1 is a diagram illustrating the exchange between the
ユーザ1は、端末2に対して、メッセージ12を発する。端末2は、メッセージ12を認識すると、メッセージ12に含まれる名前と予め規定されたメッセージとを用いて合成されたメッセージ13を発する。
予め定められた時間が経過すると、端末2は、メッセージ14を発する。ユーザ1は、メッセージ14を認識すると、予め規定された時間内に、応答として、メッセージ14に続く言葉を考える。ユーザ1が、端末2に対して、メッセージ15を発する。端末2は、メッセージ15を認識すると、予め準備された国語辞書を参照して、メッセージ15に続く言葉を考える。端末2は、予め規定された時間内に、メッセージ15に対する言葉としてメッセージ16を発する。このようにして、ユーザ1と端末2とは、しりとりゲームを続ける。
When a predetermined time elapses, the terminal 2 issues a
端末2の発話に対して、ユーザ1が予め規定された時間内に次の言葉を返せる場合は、同様にしりとりが続く。たとえば、ユーザ1が端末2に対してメッセージ17を発する。端末2は、メッセージ17を認識すると、メッセージ18を発する。
In the case where the
一方、ユーザ1が次の言葉を返せない場合がある。この場合、ユーザ1は沈黙を続けるか、分からない旨のメッセージ19を発することになる。端末2は、予め定められた一定の待ち時間内にユーザ1からの応答がないと判断した場合、あるいは、メッセージ19を認識した場合には、その内容について予め規定されていたメッセージ20を発する。
On the other hand, the
このような場合、端末2は、ユーザ1との間のメッセージのやり取りを通じて、ユーザ1が「たろう」であることを認識し、ユーザ情報として「たろう」を各データに関連付ける。
In such a case, the
図2〜図5を参照して本開示に係る音声認識システムの構成について説明する。
[端末]
図2は、本開示に係る第1の実施例に従う音声認識システムの構成の概要を表す図である。当該音声認識システムでは、ひとつの端末200が音声認識システムとして機能する。
The configuration of the speech recognition system according to the present disclosure will be described with reference to FIGS.
[Terminal]
FIG. 2 is a diagram illustrating an outline of the configuration of the speech recognition system according to the first embodiment of the present disclosure. In the voice recognition system, one
端末200は、制御部30と、音声入力部31と、音声出力部32と、話者識別部33と、話者識別学習部34と、ユーザ管理部35と、音声認識部36と、対話分析・生成部37とを備える。端末200は、たとえば、音声入出力機能と音声認識機能とを備える端末であればよい。当該端末は、たとえば、スマートフォン、テレビ、スタンドアロンで作動し得るお掃除ロボットその他の機器を含み得る。
The terminal 200 includes a
制御部30は、端末200の動作を制御する。音声入力部31は、音声の入力を受け付けて信号を制御部30に出力する。音声出力部32は、制御部30から出力された信号を音声に変換して、端末200の外部に音声を出力する。音声出力部32は、たとえばスピーカ、端子等を含む。話者識別部33は、制御部30から送られる信号に基づいて、端末200に対する発話を行なった話者を識別する。別の局面において、話者識別部33は、当該信号と端末200に保存されているデータとに基づいて話者を識別する。当該データは、たとえば、端末200のユーザとして予め登録された声紋情報等を含み得る。
The
話者識別学習部34は、話者識別部33により識別された話者の情報(ユーザID等)を用いて、話者毎のデータ(ユーザプロファイル)を作成する。ユーザ管理部35は、端末200のユーザ情報を保存する。ユーザ情報は、ユーザプロファイル等を含み得る。音声認識部36は、制御部30から送られる音声信号を用いて音声認識処理を実行する。たとえば、音声認識部36は、発話に含まれている文字を抽出する。
The speaker
対話分析・生成部37は、音声認識部36による認識の結果に基づいて端末200に対するメッセージを分析する。さらに、対話分析・生成部37は、分析の結果に応じて、当該発話に応じた応答を生成する。別の局面において、対話分析・生成部37は、端末200における設定に基づいて、端末200のユーザに対する働きかけのための発話を生成する。当該設定は、たとえば、端末200が、自己の近傍にユーザの存在を検知したこと、予め設定された時刻が到来したこと等を含み得る。
The dialog analysis /
[端末+サーバ]
図3は、本開示に係る第2の実施例に従う音声認識システムの構成の概要を表す図である。当該音声認識システムは、端末300と、サーバ350とを備える。端末300は、音声入力部31と、音声出力部32とを備える。端末300は、プロセッサ(図示しない)によって制御される。サーバ350は、制御部30と、話者識別部33と、話者識別学習部34と、ユーザ管理部35と、音声認識部36と、対話分析・生成部37とを備える。端末300は、たとえば、音声入出力機能と通信機能とを備える端末として実現される。そのような端末は、たとえば、携帯電話その他の情報通信端末、音声認識機能と通信機能とを備えるお掃除ロボットその他の機器等を含み得る。
[Terminal + server]
FIG. 3 is a diagram illustrating an outline of the configuration of the speech recognition system according to the second embodiment of the present disclosure. The voice recognition system includes a terminal 300 and a
端末300は、ユーザの発話を受け付けると、その発話に応じた音声信号を、通信インターフェイス(図示しない)を介してサーバ350に送信する。サーバ350は、その音声信号を受信すると、話者識別処理、音声認識処理、対話分析、応答生成等の処理を実行する。各処理は、図2に示される構成によって実現される処理と同様なので、詳細な説明は繰り返さない。
When terminal 300 accepts the user's utterance, terminal 300 transmits an audio signal corresponding to the utterance to
サーバ350は、生成された応答を通信インターフェイス(図示しない)を介して端末300に送信する。端末300がその応答を受信すると、音声出力部32は、その応答に応じた音声を出力する。
The
[端末+サーバ+話者識別サーバ]
図4は、本開示に係る第3の実施例に従う音声認識システムの構成の概要を表す図である。当該音声認識システムは、端末300と、サーバ400と、話者識別サーバ410とを備える。サーバ400は、制御部30と、ユーザ管理部35と、音声認識部36と、対話分析・生成部37とを備える。話者識別サーバ410は、話者識別部33と、話者識別学習部34とを備える。
[Terminal + server + speaker identification server]
FIG. 4 is a diagram illustrating an outline of the configuration of the speech recognition system according to the third embodiment of the present disclosure. The voice recognition system includes a terminal 300, a
サーバ400と話者識別サーバ410とは、公知の構成を有するコンピュータ装置によって実現される。当該コンピュータは、主たる構成要素として、プログラムを実行するCPU(Central Processing Unit)と、キーボードその他の入力装置と、RAM(Random Access Memory)と、ハードディスクと、光ディスク駆動装置と、モニタと、通信IF(Interface)とを備える。
コンピュータにおける処理は、各ハードウェアおよびCPUにより実行されるソフトウェアによって実現される。ある局面において、当該ソフトウェアは、ハードディスクに予め格納されている。別の局面において、当該ソフトウェアは、CD−ROMその他のコンピュータ読み取り可能な不揮発性のデータ記録媒体に格納されてプログラム製品として流通している。さらに別の局面において、当該ソフトウェアは、インターネットその他のネットワークに接続されている情報提供事業者によってダウンロード可能なプログラム製品として提供される場合もある。 Processing in the computer is realized by software executed by each hardware and CPU. In one aspect, the software is stored in advance on a hard disk. In another aspect, the software is stored in a CD-ROM or other computer-readable non-volatile data recording medium and distributed as a program product. In yet another aspect, the software may be provided as a program product that can be downloaded by an information provider connected to the Internet or other networks.
コンピュータのハードウェア構成は、一般的なものである。したがって、サーバ400と話者識別サーバ410のハードウェア構成の説明は繰り返さない。本実施の形態に係る技術思想を実現する本質的な部分は、当該コンピュータに格納されたプログラムであるともいえる。
The hardware configuration of a computer is general. Therefore, the description of the hardware configuration of
サーバ400は、端末300から送られた音声信号を受信すると、通信インターフェイスを介して、その音声信号を話者識別サーバ410に送信する。
When the
話者識別サーバ410は、話者を認識し、また、話者を登録するためのデータを生成する。話者識別サーバ410は、生成したデータをサーバ400に送信する。
The
[端末+サーバ+話者識別サーバ+音声認識サーバ]
図5は、本開示に係る第4の実施例に従う音声認識システムの構成の概要を表す図である。当該音声認識システムは、端末300と、サーバ500と、話者識別サーバ410と、音声認識サーバ520とを備える。サーバ500は、制御部30と、ユーザ管理部35と、対話分析・生成部37とを備える。音声認識サーバ520は、音声認識部36を備える。
[Terminal + server + speaker identification server + voice recognition server]
FIG. 5 is a diagram illustrating an outline of a configuration of a speech recognition system according to the fourth embodiment of the present disclosure. The voice recognition system includes a terminal 300, a
サーバ500は、端末300から音声信号を受信すると、その音声信号を話者識別サーバ410および音声認識サーバ520に送信する。音声認識サーバ520は、当該音声信号を用いて音声認識処理を実行し、認識の結果をサーバ500に送信する。
When
その他の動作は、前述の他の実施例に従う音声認識システムの構成における動作と同様である。したがって、他の動作の説明は繰り返さない。 Other operations are the same as those in the configuration of the speech recognition system according to the other embodiments described above. Therefore, description of other operations will not be repeated.
[機能構成]
図6は、本開示に係る音声認識システムを実現する機能の構成を表すブロック図である。音声認識システムは、端末モジュール600と、メインモジュール610と、話者識別モジュール620と、音声認識モジュール630とを備える。
[Function configuration]
FIG. 6 is a block diagram illustrating a configuration of functions that implement the speech recognition system according to the present disclosure. The voice recognition system includes a
端末モジュール600は、音声入力部31と音声出力部32とを備える。端末モジュール600は、ユーザの近傍にあって発話を受け付けて、音声データと端末IDとをメインモジュール610に送信する。別の局面において、端末モジュール600は、メインモジュール610から送られた合成音声データを受信し、合成音声データに基づく音声を音声出力部32から出力する。
The
メインモジュール610において、制御部30は、音声データと話者モデルリストとを話者識別モジュール620に送信する。話者識別モジュール620は、話者を識別すると、話者識別結果(たとえば、メッセージのID、話者が識別できたことを表すフラグ等)をメインモジュール610に送信する。
In the
制御部30は、端末IDまたは音声データをユーザ管理部35に送信する。ユーザ管理部35は、端末IDまたは音声データを保存する。
The
制御部30は、ユーザ管理部35から話者モデルリストを読み出す。
制御部30は、対話分析・生成部37との間で、たとえば、テキストデータのやり取りを行なう。
The
For example, the
制御部30は、音声データを音声認識モジュール630に送信する。音声認識モジュール630は、音声データを用いて音声認識処理を実行すると、その結果をテキストとして制御部30に送る。
The
図6に示される機能は、図2〜図5に示される構成のいずれかによって実現される。
[データ構造]
図7を参照して、本実施の形態に係る音声認識システムのデータ構造について説明する。図7は、音声認識システムにおいて保持されるデータの格納の一態様を概念的に表す図である。ある局面において、音声認識システムは、端末管理テーブルと、家庭管理テーブルと、ユーザ管理テーブルとを含む。
The function shown in FIG. 6 is realized by one of the configurations shown in FIGS.
[data structure]
With reference to FIG. 7, the data structure of the speech recognition system according to the present embodiment will be described. FIG. 7 is a diagram conceptually showing one mode of storing data held in the voice recognition system. In one aspect, the voice recognition system includes a terminal management table, a home management table, and a user management table.
(端末管理テーブル)
端末管理テーブルは、端末IDと、所属ユーザIDとを含む。端末IDは、音声認識システムにおいて登録された端末を識別する。ある局面において、端末IDは、音声認識システムの管理者(たとえば、制御部30を含むコンピュータの管理者)によって一意に付与される。別の局面において、端末IDは、当該端末のユーザが希望する任意の文字列(たとえば、英数字、記号など)によって構成される。この場合、端末IDの重複が生じないように、たとえば、制御部30は、ユーザによって入力されたIDが既に使用されているか否かをチェックし、使用済みの端末IDが入力された場合は、その旨を端末に通知する。所属ユーザIDは、当該端末の使用者として登録されたユーザを識別する。端末の使用者の数は特に限られない。
(Terminal management table)
The terminal management table includes a terminal ID and a belonging user ID. The terminal ID identifies a terminal registered in the voice recognition system. In one aspect, the terminal ID is uniquely assigned by a manager of the voice recognition system (for example, a manager of a computer including the control unit 30). In another aspect, the terminal ID is configured by an arbitrary character string (for example, alphanumeric characters or symbols) desired by the user of the terminal. In this case, for example, the
(家庭管理テーブル)
家庭管理テーブルは、家庭IDと、当該家庭に所属する端末の端末IDとを含む。家庭IDは、音声認識システムのサービスを利用するユーザのグループとして家庭を識別する。ユーザのグループの単位は家庭に限られない。複数のユーザが一つのグループに関連付けられるものであればよい。家庭IDには、1つ以上の端末の各端末IDが関連付けられている。家庭に関連付けられる端末の数は特に限られない。
(Home management table)
The home management table includes a home ID and a terminal ID of a terminal belonging to the home. The home ID identifies the home as a group of users who use the service of the voice recognition system. The unit of the user group is not limited to the home. What is necessary is just to be able to associate a some user with one group. The home ID is associated with each terminal ID of one or more terminals. The number of terminals associated with the home is not particularly limited.
(ユーザ管理テーブル)
ユーザ管理テーブルは、ユーザIDと、ユーザ名と、話者モデルデータと、音声データリストとを含む。
(User management table)
The user management table includes a user ID, a user name, speaker model data, and a voice data list.
ユーザIDは、端末を使用するユーザを識別する。ユーザ名は、当該ユーザIDが割り当てられたユーザを識別する。話者モデルデータは、当該ユーザを識別するためのデータである。話者モデルデータは、たとえば、声紋情報を含み得る。 The user ID identifies a user who uses the terminal. The user name identifies the user to whom the user ID is assigned. The speaker model data is data for identifying the user. The speaker model data may include voiceprint information, for example.
音声データリストは、当該ユーザを識別するための音声データを含む。当該音声データは、ユーザから端末に対する発話、端末の発話に対するユーザの応答、端末に表示された文字列のユーザによる発話等を含み得る。 The audio data list includes audio data for identifying the user. The voice data may include an utterance from the user to the terminal, a user response to the terminal utterance, an utterance by the user of a character string displayed on the terminal, and the like.
[話者モデルの生成]
図8を参照して、話者モデルの生成について説明する。図8は、ユーザ1と端末2との間の対話により話者モデル80が生成される状態を表す図である。なお、図1における状態と同様の状態の説明は繰り返さない。
[Generate speaker model]
The generation of a speaker model will be described with reference to FIG. FIG. 8 is a diagram illustrating a state in which the
ユーザ1と端末2との対話において、ユーザ1が未登録の場合には、端末2は、まず最初にユーザ名を聞いて、以降の一定区間(たとえば、ゲーム終了等)までをそのユーザの発話として音声データをデータベースに登録する。音声データは声紋情報を含み得る。
In the dialog between the
ユーザ発話毎に、話者識別学習部は、対象の音声DB(Database)からこれまでの音声データ全てを学習データとして話者識別の学習を行う。 For each user utterance, the speaker identification learning unit learns the speaker identification using all the speech data from the target speech DB (Database) as learning data.
IDが端末ごとに割り当てられる。端末とユーザ名とによってユーザを管理することにより他端末で同名のユーザがいるばあいでも対応可能となる。 An ID is assigned to each terminal. By managing the user by the terminal and the user name, it is possible to cope with a user having the same name at another terminal.
ユーザ1が自身の名前を発すると(メッセージ12)、端末2はメッセージ12を認識する。端末2は、メッセージ12からユーザ名(=たろう)を抽出すると、当該ユーザ名と端末2の端末IDとをユーザ管理部35に送信する。その後も、ユーザ1が発話すると、各メッセージ15,メッセージ17は、端末2を通してユーザ管理部35に蓄積される。
When the
話者識別学習部34は、ユーザ管理部35に保存されている端末IDとユーザ名とを読み出して、話者モデル80を生成する。話者モデル80は、当該ユーザ名と端末IDとを含む。したがって、以降は、端末2がユーザ1と対話することによりユーザ名が特定されると、当該ユーザに関連付けられた話者モデル80が利用可能となる。
The speaker
[制御構造]
図9〜図11を参照して、本実施の形態に係る音声認識システムの制御構造について説明する。図9から図11は、それぞれ、ユーザが発話の起点となる場合におけるシーケンスを表すフローチャートである。
[Control structure]
A control structure of the speech recognition system according to the present embodiment will be described with reference to FIGS. FIG. 9 to FIG. 11 are flowcharts showing sequences when the user is the starting point of the utterance.
ステップ910にて、ユーザによる話者識別学習用のシーケンスを開始するための発話が行なわれる。たとえば、ユーザは「しりとりしようよ」というメッセージ911を発する。音声入力部31は、メッセージ911を受け付けると、メッセージ911に応じた音声信号を制御部30に送信する。
In
ステップ915にて、制御部30は、当該音声信号を受信したことを検知すると、音声認識リクエストを音声認識部36に送信する。
In
ステップ920にて、制御部30は、当該音声信号を受信したことを検知すると、話者モデルリスト取得リクエストをユーザ管理部35に送信する。話者モデルリスト取得リクエストは、当該発話を与えたユーザに関連付けられている話者モデルリストにアクセスすることを要求する。
In
ステップ925にて、制御部30は、当該話者モデルリスト取得リクエストに応答して、話者モデルリストレスポンスを制御部30に送信する。話者モデルリストレスポンスは、当該ユーザに関連付けられている話者モデルリストの取得結果を含む。
In
ステップ930にて、制御部30は、話者識別部33に対して、話者識別リクエストを送信する。話者識別部33は、話者識別リクエストの受信を検知すると、ユーザ管理部35に保存されているデータを参照して、ステップ910にて発話を行なったユーザ(話者)の識別を試みる。
In
ステップ935にて、音声認識部36は、ステップ915における音声認識リクエストに応答して、音声認識レスポンスを制御部30に送信する。音声認識レスポンスは、音声認識が成功したか否かを含む。
In
ステップ940にて、話者識別部33は、話者識別失敗レスポンスを話者識別部33に送信する。すなわち、ユーザが音声認識システムに登録されていないため、話者識別部33は、当該発話を与えたユーザ(話者)を識別することができない。そこで、話者の識別が失敗したことを通知する話者識別失敗レスポンスが、話者識別部33から制御部30に送られる。
In
ステップ945にて、制御部30は、話者識別失敗レスポンスの受信に応答して、対話分析・生成リクエストを対話分析・生成部37に送信する。対話分析・生成リクエストは、音声識別結果および話者識別結果を含み得る。対話分析・生成部37は、対話分析・生成リクエストを受信すると、当該発話を与えたユーザの名前を取得するためのメッセージを生成する。たとえば、対話分析・生成部37は、音声認識システムにおいて予め準備されているテンプレートと、メッセージ911に含まれる用語「しりとり」とを用いて、メッセージ946(しりとりをはじめるよ。それじゃ、名前を教えてね。)を作成する。
In
ステップ950にて、対話分析・生成部37は、生成したメッセージ946を制御部30に送信する。制御部30は、当該メッセージの受信を検知すると、当該発話を与えた端末の端末IDと当該メッセージとを含む音声レスポンスを生成する。
In
ステップ955にて、制御部30は、音声出力部32に対して、当該音声レスポンスを送信する。音声出力部32は、当該音声レスポンスの信号を受信すると、当該信号に基づく音声を出力する。ユーザが当該音声を認識すると、その音声に対する発話を行なう。その発話は、音声入力部31によって受け付けられる。
In
ステップ960にて、音声入力部31は、受け付けたメッセージ961(名前登録発話)の内容を制御部30に送信する。メッセージ961は、たとえば「たろうだよ」のように、メッセージ946に対する回答(名前)を含む。制御部30は、メッセージ961の受信を検知すると、音声認識リクエストを生成する。
In
ステップ965にて、制御部30は、音声認識部36に対して音声認識リクエストを送信する。音声認識部36は、音声認識リクエストの受信を検知すると、メッセージ961の音声認識処理を実行する。
In
ステップ970にて、制御部30は、ユーザ管理部35に対して、話者モデルリスト取得リクエストを送信する。ユーザ管理部35は、話者モデルリクエストの受信を検知すると、話者モデルリストの取得を試みる。ユーザ管理部35は、取得を試みた結果を話者モデルリストレスポンスとして生成する。
In
ステップ975にて、ユーザ管理部35は、制御部30に対して、話者モデルリストレスポンスを送信する。
In
ステップ980にて、制御部30は、話者モデルリストレスポンスの受信に応答して、話者識別リクエストを話者識別部33に送信する。話者識別部33は、話者識別リクエストの受信を検知すると、話者の識別を開始し、識別結果を生成する。
In
図10を参照して、ステップ1010にて、音声認識部36は、話者識別リクエストに対する応答として、音声認識レスポンスを制御部30に送信する。当該音声認識レスポンスは、メッセージ961の内容を認識できた旨を含み得る。
Referring to FIG. 10, in
ステップ1015にて、話者識別部33は、話者識別失敗レスポンスを制御部30に送信する。すなわち、話者(たろう)は、音声認識システムにおいて登録されていない。そこで、話者識別部33は、話者を識別する試みが失敗したことを表すレスポンスを生成する。
In step 1015, the
ステップ1020にて、制御部30は、対話分析・生成リクエストを対話分析・生成部37に送信する。対話分析・生成部37は、対話分析・生成リクエストの受信に応答して、対話のためのメッセージ1031を生成する。メッセージ1031は、たとえば「たろうさんだね。それじゃはじめるよ。最初はりんご。」のように、発話の内容および話者を識別する情報を含むメッセージとして生成される。
In
ステップ1030にて、対話分析・生成部37は、メッセージ1031を制御部30に送信する。制御部30は、メッセージ1031の受信を検知すると、端末への発話に対して応答するため、メッセージ1031と端末IDとを含む音声レスポンスを生成する。
In
ステップ1035にて、制御部30は、当該音声レスポンスを端末に送信する。端末の音声出力部32は、音声レスポンスの信号を受信すると、当該信号に基づく音声を出力する。ユーザは、その音声を認識すると、次の応答を考えて、端末に発話する。音声入力部31は、その発話、たとえば「ゴリラ」を受け付ける。
In
その後、しりとりのための数回のやり取りが行なわれる(ステップ1040以降)。
ステップ1040にて、音声入力部31は、受け付けたメッセージ1041を制御部30に送信する。制御部30は、メッセージ1041の受信を検知すると、音声認識リクエストを生成する。
Thereafter, several exchanges for shiritori are performed (
In
ステップ1045にて、制御部30は、音声認識リクエストを音声認識部36に送信する。音声認識部36は、当該リクエストを受信すると、音声認識処理を開始する。
In
ステップ1050にて、制御部30は、話者音声保存・リスト取得リクエストをユーザ管理部35に送信する。ユーザ管理部35は、当該リクエストの受信を検知すると、話者(たろう)の識別IDと、話者(たろう)の名前とを、互いに関連付けることにより保存する。さらに、ユーザ管理部35は、話者音声の保存が成功したことを表す応答を生成する。
In
ステップ1055にて、ユーザ管理部35は、当該応答として、話者音声保存・リスト取得レスポンスを制御部30に送信する。
In
ステップ1060にて、制御部30は、話者識別モデル学習リクエストを話者識別学習部34に送信する。話者識別学習部34は、当該リクエストの受信を検知すると、話者識別モデルとして、当該発話を与えたユーザに音声を関連付けてモデルを生成し、適宜、更新する。
In
ステップ1065にて、音声認識部36は、音声認識リクエストに基づく処理の結果を音声認識レスポンスとして制御部30に送信する。
In
ステップ1070にて、話者識別学習部34は、話者識別モデル学習リクエストに対する応答して、話者識別学習レスポンスを制御部30に送信する。
In
ステップ1075にて、制御部30は、対話分析・生成リクエストを生成して、生成したリクエストを対話分析・生成部37に送信する。たとえば、制御部30は、話者の学習のために十分なデータがなく学習失敗であると判断した場合には、当該リクエストを生成する。対話分析・生成部37は、当該リクエストの受信を検知すると、さらに学習するためのメッセージ1081(たとえば、「ゴリラ・・・。それじゃぁ「ラクダ」)を生成する。
In
ステップ1080にて、対話分析・生成部37は、生成したメッセージ1081を制御部30に送信する。制御部30は、メッセージ1081を受信すると、端末IDとメッセージ1081とを含む音声レスポンスを生成する。
In
ステップ1085にて、制御部30は、生成した音声レスポンスを端末に送信する。端末は、音声レスポンスを受信すると、音声出力部32は、音声レスポンスに基づく音声を出力する。ユーザは、端末の音声出力部32から発せられた音声を認識すると、その次の応答を考える。予め定められた時間内にユーザが、当該次の応答を発すると、音声入力部31は、ユーザの発話を受け付けて、当該発話に応じた音声応答を生成する。
In
図11を参照して、ステップ1110にて、音声入力部31は、メッセージ1111(たとえば、「ダイヤモンド」)を制御部30に送信する。制御部30は、メッセージ1111の受信を検知すると、音声認識リクエストと、話者音声保存・リスト取得リクエストとを生成する。
Referring to FIG. 11, in
ステップ1115にて、制御部30は、音声認識リクエストを音声認識部36に送信する。音声認識部36は、当該リクエストの受信を検知すると、メッセージ1111の音声認識処理を開始する。
In
ステップ1120にて、制御部30は、メッセージ1111と話者音声保存・リスト取得リクエストとをユーザ管理部35に送信する。ユーザ管理部35は、当該リクエストの受信を検知すると、メッセージ1111の内容(音声データ)を、ユーザ(話者)の識別IDに関連付けて格納する。
In
ステップ1130にて、制御部30は、話者識別モデル学習リクエストを話者識別学習部34に送信する。話者識別学習部34は、当該リクエストの受信を検知すると、話者識別モデルを学習する。より具体的には、話者識別学習部34は、ユーザの識別IDと、メッセージ1111に含まれる音声情報(たとえば、声紋情報)とを関連付けて保存する。学習が完了すると、話者識別学習部34は、話者識別モデルの学習が完了したことを表すレスポンスを生成する。
In step 1130, the
ステップ1135にて、音声認識部36は、音声認識処理が終わったことに応答して、音声認識処理の結果を通知する音声認識レスポンスを生成し、当該レスポンスを制御部30に送信する。
In step 1135, in response to the completion of the voice recognition process, the
ステップ1140にて、話者識別学習部34は、生成したレスポンスと制御部30に送信する。制御部30は、音声認識部36からのレスポンスと話者識別学習部34からのレスポンスとを受信すると、学習に十分なデータが揃い、学習が完了したか否かを判断する。たとえば、予め定められた数以上の音声データがユーザの識別IDに関連付けられた場合には、制御部30は、学習に十分なデータが揃い学習が完了したと判断する。
In
制御部30は、音声認識部36からのレスポンスと話者識別学習部34からのレスポンスの受信の内容に基づいて、対話分析・生成リクエストを生成する。たとえば、制御部30は、各レスポンスの結果に基づいて、音声認識が成功し、かつ、学習に十分なデータが揃い学習が完了したと判断すると、当該リクエストを生成する。学習に十分なデータとは、たとえば、予め定められた一定時間内に音声データから抽出された情報量(一定のデータサイズを有する声紋情報の個数など)が学習に必要であると規定された情報量を超えているものをいう。
The
ステップ1145にて、制御部30は、生成したリクエストを対話分析・生成部37に送信する。対話分析・生成部37は、当該リクエストの受信を検知すると、メッセージ1111に対するメッセージ1151を生成する。
In
ステップ1150にて、対話分析・生成部37は、生成したメッセージ1151を制御部30に送信する。制御部30は、メッセージ1151の受信を検知すると、端末IDとメッセージ1151とを含む音声レスポンスを生成する。
In
ステップ1155にて、制御部30は、端末に音声レスポンスを生成する。端末は、音声レスポンスを受信すると、音声出力部32から音声を出力する。
In
<ユーザからの発話起点のシーケンス>
図12を参照して、他の局面について説明する。図12は、ユーザが音声認識システムに既知である場合におけるユーザ1と端末2とのやり取りのシーケンスを表す図である。なお、前述の動作と同じ動作には同じ番号を付してある。したがって、同じ動作の説明は、繰り返さない。
<Speaking sequence from user>
Another aspect will be described with reference to FIG. FIG. 12 is a diagram illustrating an exchange sequence between the
ユーザが既に登録されている場合には、話者モデルが適宜更新される。したがって、常に直近のユーザの音声データに基づいた話者識別が可能となる。 If the user is already registered, the speaker model is updated as appropriate. Therefore, speaker identification based on the latest user's voice data is always possible.
ユーザ1が端末2に対して、メッセージ10を発する。端末2は、メッセージ10を受け付けると、音声認識処理と話者識別処理とを実行する。端末2は、話者識別処理の結果に基づいて、メッセージ10の話者を識別できたと判断すると、その判断の結果に応じて、メッセージ1210を発する。メッセージ1210は、メッセージ10に対する応答と、メッセージ10の話者を確認するための問いかけとを含む。ユーザ1が、メッセージ1210に対するメッセージ1220を発すると、端末2は、メッセージ1220について音声認識処理と話者識別処理とを行なう。
端末2は、メッセージ1220の内容から、当該問いかけに対する回答が得られたと判断すると、端末2の端末IDとユーザ名(たろう)とを含むデータをユーザ管理部35に送信する。ユーザ管理部35は、当該データを蓄積する。さらに、端末2は、メッセージ1220に対するメッセージ1230を発する。
When the
その後、端末2は、ユーザ1からの発話を認識するたびに、端末IDとユーザ名とを含むデータをユーザ管理部35に送信する。ユーザ管理部35は、各データを保存する。
Thereafter, each time the
話者識別学習部34は、ユーザ管理部35から、端末IDとユーザ名とを参照して、蓄積されたデータから、当該ユーザに関連付けられたデータを読み出し、話者モデル80を作成する。
The speaker
図13および図14を参照して、ある局面に従う音声認識システムにおけるシーケンスについて説明する。図13および図14は、ユーザが既知である場合に行なわれる処理の流れを表すシーケンスチャートである。なお、前述の処理と同一の処理には同一のステップ番号を付してある。したがって、同一の処理の説明は繰り返さない。 With reference to FIG. 13 and FIG. 14, the sequence in the speech recognition system according to a certain aspect will be described. 13 and 14 are sequence charts showing the flow of processing performed when the user is known. The same steps as those described above are denoted by the same step numbers. Therefore, the description of the same process will not be repeated.
ステップ1340にて、話者識別部33は、話者識別が成功したことを通知するために、話者識別レスポンスを制御部30に送信する。制御部30は、当該レスポンスと、音声認識部36からのレスポンスとの受信を検知すると、対話分析・生成リクエストを生成する。当該リクエストは、音声識別結果と話者識別結果とを含む。
In
ステップ1345にて、制御部30は、対話分析・生成部37に対して、対話分析・生成リクエストを送信する。対話分析・生成部37は、当該リクエストの受信を検知すると、メッセージ911に応答するためのメッセージ1351を生成する。このとき、メッセージ1351は、メッセージ911に対する応答と、メッセージ911の発話者を確認するための問いかけとを含む。
In
ステップ1350にて、対話分析・生成部37は、生成したメッセージ1351を制御部30に送信する。制御部30がメッセージ1351と端末IDとを含む音声レスポンスを端末に送信すると、端末の音声出力部32は、音声を発話する。ユーザは、当該音声を認識して当該音声が正しいと判断すると、たとえば「そうだよ」とのメッセージ1361を発する(名前登録発話)。
In
ステップ1360にて、音声入力部31は、メッセージ1361の入力を受け付けると、その入力に応じた音声信号を制御部30に送信する。その後、制御部30は、音声認識リクエストを音声認識部36に送信する(ステップ965)。
In
図14を参照して、ステップ1410にて、話者識別部33は、話者識別リクエスト(ステップ980)に対する応答を話者認識レスポンスとして話者識別部33に送信する。ユーザが音声認識システムにとって既知である場合、話者認識レスポンスは、話者が識別されたことを表す。制御部30は、当該レスポンスの受信を検知すると、対話分析・生成リクエストを生成する。
Referring to FIG. 14, in
ステップ1420にて、制御部30は、生成した対話分析・生成リクエストを対話分析・生成部37に送信する。対話分析・生成部37は、当該リクエストの受信を検知すると、メッセージ1431を生成する。メッセージ1431は、これまでのやり取りの結果に基づいて、メッセージ1351に含まれる問いかけ{たろうさんかな?)が正しかったことを踏まえた内容(やっぱり!)を含む。
In
ステップ1430にて、対話分析・生成部37は、メッセージ1431を制御部30に送信する。制御部30は、メッセージ1431の受信を検知すると、端末IDとメッセージ1431とを含む音声レスポンスを生成する。
In
ステップ1440にて、制御部30は、端末に音声レスポンスを送信する。音声出力部32は、当該音声レスポンスに基づいて、メッセージ1431を音声で出力する。
In
その後、ステップ1040以降の処理が、前述の場合と同様に行なわれる。音声データが保存され、学習データ(たとえば、声紋情報等)は、対象ユーザの常に新しい音声データで更新される。なお、ユーザが既知の場合には、学習が完了しても、端末は、ユーザの名前を確認するための発話を行なわない。
Thereafter, the processing after
<端末が発話の起点となる場合>
図15〜図17を参照して、さらに別の局面について説明する。図15は、端末2からユーザ1に話しかけることが対話のトリガとなる場合を表す図である。
<When the terminal is the starting point of utterance>
Still another aspect will be described with reference to FIGS. FIG. 15 is a diagram illustrating a case in which talking to the
端末2からユーザに話しかけ、ユーザ発話及びユーザ名を聞き出すことによって得られた音声データをユーザ名と端末IDとに紐付けることにより、音声データを学習する。
The voice data is learned by associating the voice data obtained by talking to the user from the
端末2は、ユーザ1の存在を検知すると、ユーザ1に対して話しかける。ユーザ1の存在の検知は、たとえば、赤外線センサ、人感センサ等からの出力に基づいて行なわれる。端末2は、たとえば、メッセージ1510を発する。ユーザ1は、メッセージ1510を認識する。
When the
ユーザ1は、メッセージ1510に応答して、メッセージ1520を発する。端末2は、メッセージ1510を認識すると、音声認識処理と話者識別処理とを実行する。端末2は、各処理の結果に基づいて、ユーザ1に対する発話を切り換える。たとえば、話者が既知でないと判断すると、端末2は、メッセージ1530を生成し、音声でメッセージ1530を出力する。
In response to the
ユーザ1は、メッセージ1530に応答してメッセージ1540を端末2に向けて発する。端末2は、メッセージ1540について音声認識処理および話者識別処理を実行する。さらに、端末2は、端末2のユーザ名として認識された話者「たろう」と端末IDとを関連付け、これまで受け付けたユーザ1のメッセージ1520,1540を話者の音声データとしてユーザ管理部35に蓄積する。
In response to the
さらに、端末2は、メッセージ1540に対する応答としてメッセージ1550を生成し、音声でメッセージ1550を出力する。
Further, the
ユーザ管理部35には、ユーザ「たろう」に関連付けられた音声データと、音声データから取得された識別情報(たとえば声紋情報)とが蓄積される。
The
図16および図17を参照して、ある局面における音声認識システムの動作について説明する。図16および図17は、音声認識システムで行われる処理の一部を表すシーケンスチャートである。 With reference to FIG. 16 and FIG. 17, operation | movement of the speech recognition system in a certain situation is demonstrated. 16 and 17 are sequence charts showing a part of processing performed in the speech recognition system.
ステップ1610にて、制御部30は、予め定められた条件が成立したことを検知すると、対話生成リクエストを対話分析・生成部37に送信する。当該条件は、たとえば、音声認識システムの範囲内でユーザの存在が検知されたこと、予め指定された時刻が到来したこと等である。対話生成リクエストは、たとえば、検出されたユーザに対して話しかけるためのメッセージ1510の生成要求を含む。対話分析・生成部37は、当該リクエストの受信を検知すると、予め準備されたテンプレートに基づいて、メッセージ1510を生成する。
In
ステップ1615にて、対話分析・生成部37は、当該リクエストに応答して生成したメッセージ1510を制御部30に送信する。制御部30は、メッセージ1510の受信を検知すると、メッセージ1510と端末IDとを含む音声発話リクエストを端末に送信する。端末の音声入力部31は、当該リクエストを受信すると、メッセージ1510を音声で出力する。ユーザは、メッセージ1510を認識すると、メッセージ1510に対する応答として、メッセージ1520を発する。
In
ステップ1625にて、音声入力部31は、メッセージ1520を音声信号として制御部30に送信する。その後、ステップ915からステップ1345まで、前述の処理と同様の処理が実行される。
In
ステップ1350にて、対話分析・生成部37は、メッセージ1530を制御部30に送信する。メッセージ1530に基づく音声が出力されると、ユーザは、メッセージ1540を発する。メッセージ1540は、制御部30から音声認識部36に送られ、音声認識処理が実行される(ステップ1045)。
In
図17を参照して、ステップ1050からステップ1070までの処理が、同様に実行される。その後、制御部30は、学習に十分なデータがなく、学習が失敗したと判断すると、ステップ1740の処理が実行される。より具体的には、ステップ1741にて、制御部30は、対話分析・生成リクエストを対話分析・生成部37に送信する。対話分析・生成部37は、当該リクエストの受信を検知すると、当該リクエストに応じたメッセージ1550を生成する。
Referring to FIG. 17, the processing from
ステップ1742にて、対話分析・生成部37は、メッセージ1550を制御部30に送信する。制御部30は、メッセージ1550の受信を検知すると、端末IDとメッセージ1550とを含む音声レスポンスを生成する。
In
一方、制御部30は、学習に十分なデータが揃い楽手が完了したと判断すると、ステップ1750の処理を実行する。より詳しくは、ステップ1751にて、制御部30は、対話分析・生成リクエストを対話分析・生成部37に送信する。対話分析・生成部37は、当該リクエストの受信を検知すると、当該リクエストに応答するためのメッセージ1560を生成する。
On the other hand, if the
ステップ1752にて、対話分析・生成部37は、メッセージ1560を制御部30に送信する。制御部30は、メッセージ1560の受信を検知すると、端末IDとメッセージ1560とを含む音声レスポンスを生成する。
In
ステップ1760にて、制御部30は、当該音声レスポンスを端末に送信する。音声出力部32は、音声レスポンスを受信すると、メッセージ1560を音声で出力する。
In
<他の局面>
さらに他の局面について説明する。他の局面において、以下の構成が用いられてもよい。
<Other aspects>
Still another aspect will be described. In other aspects, the following configurations may be used.
(1)音声認識と音声認証とが並列に行なわれる。したがって、ユーザの発話内容の認識と当該ユーザの認証とが同時に行なわれる。 (1) Voice recognition and voice authentication are performed in parallel. Therefore, recognition of the user's utterance content and authentication of the user are performed simultaneously.
(2)ユーザ毎に、対話内容のログに基づいて各ユーザの興味ある話題が推定され、推定された話題に基づく対話が生成される。 (2) For each user, a topic of interest of each user is estimated based on the log of the conversation content, and a dialog based on the estimated topic is generated.
(3)対話数やその頻度に基づいて、ロボット(音声対話装置、あるいは音声対話システム)の発話内容が変化する。 (3) Based on the number of conversations and their frequency, the utterance content of the robot (voice dialogue apparatus or voice dialogue system) changes.
これらの要素の結果、ユーザは、ロボット(音声対話システム)に親しみを持つことができる。 As a result of these factors, the user can become familiar with the robot (voice interaction system).
たとえば、構成(1)により、当該技術思想が適用される音声対話システムは、カメラや無線タグ等の機器からの情報を使用することなく、ユーザを特定し(音声認証)、また、当該ユーザの発言内容の取得(音声認識)が可能になる。 For example, with the configuration (1), the voice interactive system to which the technical idea is applied specifies a user (voice authentication) without using information from a device such as a camera or a wireless tag, and the user's Acquisition of speech contents (voice recognition) becomes possible.
次に、構成(2)により、ユーザの日々の会話が音声対話システムに記憶され、必要に応じて分析される。音声対話システムは、分析結果に基づいて、各ユーザが興味ある話題(スポーツ、芸能ニュースなど)を他の情報提供装置から取得し、対話しているユーザに応じた話題を当該ユーザに提供することができる。 Next, according to the configuration (2), the daily conversation of the user is stored in the voice dialogue system and analyzed as necessary. Based on the analysis result, the voice dialogue system acquires a topic (sports, entertainment news, etc.) that each user is interested in from another information providing device, and provides the user with a topic according to the user who is interacting. Can do.
さらに、構成(3)により、音声対話システムとユーザとの対話が長期にかつ定期的に行われることにより、対話内容に応じて、音声対話システムからの発話の表現(言葉づかい、語調等)が変化し得る。その結果、ユーザが音声対話システム(あるいは、音声対話システムに含まれるロボットのような音声入出力端末)に対して親近感を持ち得る。これらの各構成は、適宜組み合され得る。 Furthermore, with the configuration (3), the dialogue between the voice dialogue system and the user is performed for a long time and periodically, so that the expression of the utterance from the voice dialogue system (wording, tone, etc.) changes according to the dialogue contents. Can do. As a result, the user can be familiar with the voice interaction system (or a voice input / output terminal such as a robot included in the voice interaction system). Each of these configurations can be combined as appropriate.
<まとめ>
以上のようにして、本実施の形態に係る音声認識システムによれば、ユーザは学習のための前処理を意識せずに、通常の音声対話を行うことにより、学習に必要な音声データをシステムに与えることができる。したがって、当該システムにより提供される機能を容易に利用することができる。
<Summary>
As described above, according to the voice recognition system according to the present embodiment, the user performs normal voice conversation without being conscious of the preprocessing for learning, thereby obtaining the voice data necessary for learning. Can be given to. Therefore, the function provided by the system can be easily used.
さらに他の局面において、ユーザが意識することなくユーザ認証され、当該ユーザに応じた話題が出力されるので、ユーザは音声認識システムにより提供されるサービスや機能に親近感を持ち得る。 In yet another aspect, user authentication is performed without the user's awareness and a topic corresponding to the user is output, so that the user can be familiar with the services and functions provided by the voice recognition system.
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。 The embodiment disclosed this time should be considered as illustrative in all points and not restrictive. The scope of the present invention is defined by the terms of the claims, rather than the description above, and is intended to include any modifications within the scope and meaning equivalent to the terms of the claims.
30 制御部、31 音声入力部、32 音声出力部、33 話者識別部、34 話者識別学習部、35 ユーザ管理部、36 音声認識部、37 生成部、80 話者モデル、350,400,500 サーバ、410 話者識別サーバ、520 音声認識サーバ、600 端末モジュール、610 メインモジュール、620 話者識別モジュール、630 音声認識モジュール。 30 control unit, 31 voice input unit, 32 voice output unit, 33 speaker identification unit, 34 speaker identification learning unit, 35 user management unit, 36 voice recognition unit, 37 generation unit, 80 speaker model, 350, 400, 500 server, 410 speaker identification server, 520 speech recognition server, 600 terminal module, 610 main module, 620 speaker identification module, 630 speech recognition module.
Claims (8)
話者を識別する情報を含む発話と、話者を識別する情報を含まない発話とをそれぞれ受け付けるための音声入力部と、
音声認識処理を行うための音声認識部と、
音声を出力するための音声出力部と、
前記音声認識処理の結果に基づいて前記音声認識装置を制御するための制御部とを備え、
前記音声出力部は、話者とゲームを行うことにより得られる話者を識別する情報を含まない発話の後に、話者を識別する情報を尋ねる問い合わせを出力し、
前記制御部は、前記問い合わせの前に発せられた前記話者を識別する情報を含まない発話と、前記問い合わせに応答する発話に含まれる話者を識別する情報とを関連付けることにより、話者を識別するための話者識別モデルを生成する、音声認識装置。 A speech recognition device,
An audio input unit for receiving an utterance including information for identifying a speaker and an utterance not including information for identifying a speaker;
A speech recognition unit for performing speech recognition processing;
An audio output unit for outputting audio;
A control unit for controlling the voice recognition device based on the result of the voice recognition processing,
The voice output unit outputs an inquiry asking for information for identifying a speaker after an utterance that does not include information for identifying a speaker obtained by playing a game with a speaker.
The control unit associates an utterance that does not include information identifying the speaker issued before the inquiry with information that identifies the speaker included in the utterance responding to the inquiry, thereby identifying the speaker. A speech recognition device that generates a speaker identification model for identification.
前記制御部は、前記音声入力部が受け付ける前記ゲームのための発話の内容に基づいて、前記音声出力部から次に出力される前記ゲームのための発話の内容を、前記記憶装置に記憶される複数の問い合わせの中から決定するように構成されている、請求項1〜3のいずれかに記載の音声認識装置。Based on the content of the utterance for the game received by the voice input unit, the control unit stores the content of the utterance for the game to be output next from the voice output unit in the storage device. The speech recognition device according to claim 1, wherein the speech recognition device is configured to determine from a plurality of inquiries.
前記制御部は、
前記問い合わせに対する応答に基づいて、前記生成された話者識別モデルを更新するように構成されている、請求項1〜4のいずれかに記載の音声認識装置。 A storage unit for storing the generated speaker identification model;
The controller is
The speech recognition device according to claim 1, wherein the speech recognition device is configured to update the generated speaker identification model based on a response to the inquiry.
端末と、
前記端末と通信可能な装置とを備え、
前記端末は、
話者を識別する情報を含む発話と、話者を識別する情報を含まない発話とを受け付けるための音声入力部と、
音声を出力するための音声出力部と、
前記音声入力部および前記音声出力部に電気的に接続されて、前記装置と通信するための通信部とを備え、
前記音声出力部は、話者とゲームを行うことにより得られる話者を識別する情報を含まない発話の後に、話者を識別する情報を尋ねる問い合わせを出力するように構成され、
前記装置は、
前記端末と通信するための通信部と、
音声認識処理を行うための音声認識処理部と、
前記音声認識処理の結果に基づいて前記装置を制御するための制御部とを備え、
前記制御部は、前記問い合わせの前に発せられた前記話者を識別する情報を含まない発話と、前記問い合わせに応答する発話に含まれる話者を識別する情報とを関連付けることにより、話者を識別するための話者識別モデルを生成する、音声認識システム。 A speech recognition system,
A terminal,
A device capable of communicating with the terminal,
The terminal
A voice input unit for receiving an utterance including information for identifying a speaker and an utterance not including information for identifying a speaker;
An audio output unit for outputting audio;
A communication unit that is electrically connected to the audio input unit and the audio output unit and communicates with the device;
The voice output unit is configured to output an inquiry asking for information for identifying a speaker after an utterance that does not include information for identifying a speaker obtained by playing a game with a speaker.
The device is
A communication unit for communicating with the terminal;
A speech recognition processing unit for performing speech recognition processing;
A control unit for controlling the device based on the result of the voice recognition processing,
The control unit associates an utterance that does not include information identifying the speaker issued before the inquiry with information that identifies the speaker included in the utterance responding to the inquiry, thereby identifying the speaker. A speech recognition system that generates a speaker identification model for identification.
ゲームを行うことにより話者を識別する情報を含まない発話を受け付けるステップと、
話者を識別する情報を尋ねる問い合わせを出力するステップと、
前記問い合わせに応答する発話を受け付けるステップと、
音声認識処理を行うステップと、
前記音声認識処理の結果に基づいて、前記問い合わせの前に発せられた前記話者を識別する情報を含まない発話と、前記問い合わせに応答する発話に含まれる話者を識別する情報とを関連付けることにより、話者を識別するための話者識別モデルを生成するステップとを含む、方法。 A method for generating a speaker identification model, comprising:
Accepting an utterance that does not include information identifying the speaker by playing a game ;
Outputting a query asking for information identifying the speaker;
Receiving an utterance in response to the inquiry;
Performing speech recognition processing;
Associating an utterance not including information identifying the speaker issued before the inquiry and information identifying a speaker included in the utterance responding to the inquiry based on the result of the voice recognition processing. Accordingly, and generating a speaker identification models for identifying the speaker, the method.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015113949A JP6084654B2 (en) | 2015-06-04 | 2015-06-04 | Speech recognition apparatus, speech recognition system, terminal used in the speech recognition system, and method for generating a speaker identification model |
PCT/JP2016/065500 WO2016194740A1 (en) | 2015-06-04 | 2016-05-25 | Speech recognition device, speech recognition system, terminal used in said speech recognition system, and method for generating speaker identification model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015113949A JP6084654B2 (en) | 2015-06-04 | 2015-06-04 | Speech recognition apparatus, speech recognition system, terminal used in the speech recognition system, and method for generating a speaker identification model |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017003611A JP2017003611A (en) | 2017-01-05 |
JP6084654B2 true JP6084654B2 (en) | 2017-02-22 |
Family
ID=57440499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015113949A Expired - Fee Related JP6084654B2 (en) | 2015-06-04 | 2015-06-04 | Speech recognition apparatus, speech recognition system, terminal used in the speech recognition system, and method for generating a speaker identification model |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6084654B2 (en) |
WO (1) | WO2016194740A1 (en) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101883301B1 (en) * | 2017-01-11 | 2018-07-30 | (주)파워보이스 | Method for Providing Personalized Voice Recognition Service Using Artificial Intellignent Speaker Recognizing Method, and Service Providing Server Used Therein |
JP7026105B2 (en) * | 2017-03-24 | 2022-02-25 | 株式会社日立国際電気 | Service provision system |
JP6633250B2 (en) * | 2017-06-15 | 2020-01-22 | 株式会社Caiメディア | Interactive robot, interactive system, and interactive program |
JP6791825B2 (en) * | 2017-09-26 | 2020-11-25 | 株式会社日立製作所 | Information processing device, dialogue processing method and dialogue system |
JP7143591B2 (en) * | 2018-01-17 | 2022-09-29 | トヨタ自動車株式会社 | speaker estimation device |
US11992930B2 (en) | 2018-03-20 | 2024-05-28 | Sony Corporation | Information processing apparatus and information processing method, and robot apparatus |
KR20200000604A (en) | 2018-06-25 | 2020-01-03 | 현대자동차주식회사 | Dialogue system and dialogue processing method |
JP7187212B2 (en) * | 2018-08-20 | 2022-12-12 | ヤフー株式会社 | Information processing device, information processing method and information processing program |
JP7078740B2 (en) * | 2018-09-12 | 2022-05-31 | マクセル株式会社 | Information processing equipment, user authentication network system and user authentication method |
JP7280999B2 (en) * | 2018-09-12 | 2023-05-24 | マクセル株式会社 | Information processing equipment |
JP7110057B2 (en) * | 2018-10-12 | 2022-08-01 | 浩之 三浦 | speech recognition system |
CN109243468B (en) * | 2018-11-14 | 2022-07-12 | 出门问问创新科技有限公司 | Voice recognition method and device, electronic equipment and storage medium |
JP7252883B2 (en) * | 2019-11-21 | 2023-04-05 | Kddi株式会社 | GAME MANAGEMENT DEVICE, GAME MANAGEMENT METHOD AND PROGRAM |
KR20220095973A (en) * | 2020-12-30 | 2022-07-07 | 삼성전자주식회사 | Method for responding to voice input and electronic device supporting the same |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3529049B2 (en) * | 2002-03-06 | 2004-05-24 | ソニー株式会社 | Learning device, learning method, and robot device |
JP2004101901A (en) * | 2002-09-10 | 2004-04-02 | Matsushita Electric Works Ltd | Speech interaction system and speech interaction program |
JP2004184788A (en) * | 2002-12-05 | 2004-07-02 | Casio Comput Co Ltd | Voice interaction system and program |
-
2015
- 2015-06-04 JP JP2015113949A patent/JP6084654B2/en not_active Expired - Fee Related
-
2016
- 2016-05-25 WO PCT/JP2016/065500 patent/WO2016194740A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2016194740A1 (en) | 2016-12-08 |
JP2017003611A (en) | 2017-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6084654B2 (en) | Speech recognition apparatus, speech recognition system, terminal used in the speech recognition system, and method for generating a speaker identification model | |
US11875820B1 (en) | Context driven device arbitration | |
JP6949149B2 (en) | Spoken privilege management for voice assistant systems | |
US10832686B2 (en) | Method and apparatus for pushing information | |
US10891952B2 (en) | Speech recognition | |
US9633657B2 (en) | Systems and methods for supporting hearing impaired users | |
EP2717258B1 (en) | Phrase spotting systems and methods | |
US10192550B2 (en) | Conversational software agent | |
JP5706384B2 (en) | Speech recognition apparatus, speech recognition system, speech recognition method, and speech recognition program | |
WO2011048826A1 (en) | Speech translation system, control apparatus and control method | |
US10140988B2 (en) | Speech recognition | |
KR20110066357A (en) | Dialog system and conversational method thereof | |
US20170256259A1 (en) | Speech Recognition | |
JP2018054866A (en) | Voice interactive apparatus and voice interactive method | |
WO2018230345A1 (en) | Dialogue robot, dialogue system, and dialogue program | |
WO2018043138A1 (en) | Information processing device, information processing method, and program | |
JP6696803B2 (en) | Audio processing device and audio processing method | |
US20220161131A1 (en) | Systems and devices for controlling network applications | |
US20210166685A1 (en) | Speech processing apparatus and speech processing method | |
JP2018021953A (en) | Voice interactive device and voice interactive method | |
JP2020077272A (en) | Conversation system and conversation program | |
US11914923B1 (en) | Computer system-based pausing and resuming of natural language conversations | |
CN112435669B (en) | Robot multi-wheel dialogue voice interaction method, system and terminal equipment | |
JP2019074865A (en) | Conversation collection device, conversation collection system, and conversation collection method | |
WO2019070254A1 (en) | Natural speech data generation systems and methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170125 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6084654 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |