JP5589631B2 - Voice processing apparatus, voice processing method, and telephone apparatus - Google Patents
Voice processing apparatus, voice processing method, and telephone apparatus Download PDFInfo
- Publication number
- JP5589631B2 JP5589631B2 JP2010160346A JP2010160346A JP5589631B2 JP 5589631 B2 JP5589631 B2 JP 5589631B2 JP 2010160346 A JP2010160346 A JP 2010160346A JP 2010160346 A JP2010160346 A JP 2010160346A JP 5589631 B2 JP5589631 B2 JP 5589631B2
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- correction amount
- far
- band
- noise component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 title claims description 133
- 238000003672 processing method Methods 0.000 title claims description 7
- 238000012937 correction Methods 0.000 claims description 493
- 230000005236 sound signal Effects 0.000 claims description 292
- 238000001228 spectrum Methods 0.000 description 59
- 230000000694 effects Effects 0.000 description 37
- 238000010586 diagram Methods 0.000 description 21
- 238000000034 method Methods 0.000 description 17
- 239000000284 extract Substances 0.000 description 15
- 230000000873 masking effect Effects 0.000 description 10
- 238000007781 pre-processing Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000007423 decrease Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
Description
本発明は、音声信号を処理する音声処理装置、音声処理方法および電話装置に関する。 The present invention relates to a voice processing device, a voice processing method, and a telephone device that process a voice signal.
たとえば携帯電話やVoIP(Voice over Internet Protocol)においては、音声信号が狭帯域化(たとえば300[Hz]〜3400[Hz])されて伝送されるため、受話音声が劣化する(たとえば籠もり感の発生)。これに対して、従来、狭帯域音声信号の周波数成分を拡張帯域にコピーすることで擬似的に広帯域化する技術が知られている。たとえば、入力信号の成分を高域に複写することで高域信号を生成し、入力信号を全波整流することで低域信号を得る方法が示されている(たとえば、下記特許文献1参照。)。
For example, in a mobile phone or VoIP (Voice over Internet Protocol), a voice signal is transmitted after being narrowed (for example, 300 [Hz] to 3400 [Hz]), so that the received voice is deteriorated (for example, a feeling of murmur) Occurrence). On the other hand, there is conventionally known a technique for pseudo-widening by copying a frequency component of a narrowband audio signal to an extension band. For example, a method of generating a high frequency signal by copying a component of an input signal to a high frequency and obtaining a low frequency signal by full-wave rectifying the input signal is disclosed (for example, see
しかしながら、上述した従来技術では、受信された音声信号に含まれる騒音や再生側の騒音によっては、帯域拡張の効果を十分に得られなかったり、帯域拡張の副作用によってさらに音質が劣化したりすることがある。このため、上述した従来技術では、再生される音声の品質を十分に向上させることができないという問題がある。 However, in the above-described prior art, depending on the noise included in the received audio signal and the noise on the reproduction side, the effect of the band expansion cannot be sufficiently obtained, or the sound quality is further deteriorated due to the side effect of the band expansion. There is. For this reason, the above-described conventional technique has a problem that the quality of reproduced audio cannot be sufficiently improved.
開示の音声処理装置、音声処理方法および電話装置は、上述した問題点を解消するものであり、再生される音声の品質を向上させることを目的とする。 The disclosed voice processing apparatus, voice processing method, and telephone apparatus are intended to solve the above-described problems and to improve the quality of reproduced voice.
上述した課題を解決し、目的を達成するため、開示技術は、狭帯域化された入力信号から複数の周波数帯域に変換された音声信号を取得し、取得された音声信号の狭帯域成分に基づいて、前記音声信号の帯域を拡張する拡張帯域成分を生成し、前記拡張帯域成分のパワーを、取得された音声信号に含まれる騒音成分に基づいて定まる補正量によって補正し、補正された前記拡張帯域成分と取得された音声信号の狭帯域成分とに基づいて、帯域を拡張された音声信号を出力する。 In order to solve the above-described problems and achieve the object, the disclosed technology acquires an audio signal converted into a plurality of frequency bands from a narrowband input signal, and is based on the narrowband component of the acquired audio signal. Generating an extension band component that extends a band of the audio signal, correcting the power of the extension band component by a correction amount determined based on a noise component included in the acquired audio signal, and correcting the extension Based on the band component and the narrow band component of the acquired audio signal, an audio signal whose band is extended is output.
開示の音声処理装置、音声処理方法および電話装置によれば、再生される音声の品質を向上させることができるという効果を奏する。 According to the disclosed voice processing device, voice processing method, and telephone device, it is possible to improve the quality of reproduced voice.
以下に添付図面を参照して、開示技術の好適な実施の形態を詳細に説明する。 Hereinafter, preferred embodiments of the disclosed technology will be described in detail with reference to the accompanying drawings.
(実施の形態1)
(音声処理装置の構成)
図1は、実施の形態1にかかる音声処理装置を示すブロック図である。図1に示すように、実施の形態1にかかる音声処理装置10は、遠端音声取得部11と、擬似帯域拡張部12と、近端音声取得部13と、補正量算出部14と、補正部15と、出力部16と、AGC17と、を備えている。
(Embodiment 1)
(Configuration of speech processing device)
FIG. 1 is a block diagram of the speech processing apparatus according to the first embodiment. As shown in FIG. 1, the
遠端音声取得部11および近端音声取得部13のそれぞれは、狭帯域化された入力信号から複数の周波数帯域に変換された音声信号を取得する音声信号取得手段である。また、遠端音声取得部11および近端音声取得部13のそれぞれは、たとえばFFT(Fast Fourier Transform:高速フーリエ変換)部によって実現することができる。また、遠端音声取得部11および近端音声取得部13のそれぞれは、たとえば20[msec]単位で音声信号を取得する。
Each of the far-end
遠端音声取得部11は、遠端音声信号(第一音声信号)を取得する第一取得手段である。遠端音声信号は、ネットワークを介して受信された音声信号である。たとえば、遠端音声取得部11は、音声処理装置10の前段に設けられた受信回路から遠端音声信号を取得する。遠端音声取得部11は、取得した遠端音声信号を擬似帯域拡張部12へ出力する。
The far-end
擬似帯域拡張部12は、遠端音声取得部11から出力された遠端音声信号(狭帯域成分)に基づき生成した拡張帯域成分により、遠端音声取得部11から出力された遠端音声信号の帯域を擬似的に拡張する拡張手段である。帯域の擬似的な拡張については後述する。擬似帯域拡張部12は、帯域を拡張した遠端音声信号を補正部15へ出力する。
The
近端音声取得部13は、近端音声信号(第二音声信号)を取得する第二取得手段である。近端音声信号は、音声処理装置10によって処理された遠端音声信号を再生する再生機器の周辺の音声を示す音声信号である。たとえば、近端音声取得部13は、遠端音声信号を再生する再生機器の周辺に設けられたマイクから近端音声信号を取得する。近端音声信号は、たとえば狭帯域化された信号である。近端音声取得部13は、取得した近端音声信号を補正量算出部14へ出力する。
The near-end
補正量算出部14は、近端音声取得部13から出力された近端音声信号に含まれる騒音成分(以下、近端騒音成分と称する)に基づく補正量を算出する算出手段である。たとえば、補正量算出部14は、近端音声信号から近端騒音成分を抽出する。近端騒音成分の抽出には、種々の方法を用いることができる。たとえば、補正量算出部14は、雑音予測手段によって雑音の周波数領域の信号を得る方法によって近端音声信号から近端騒音成分を抽出する(たとえば、特許2830276号参照)。たとえば、近端音声信号に含まれる無音区間を抽出し、抽出した無音区間から雑音成分を予測することができる。
The correction
補正量算出部14は、抽出した近端騒音成分の大きさに基づく補正量を算出する。たとえば、補正量算出部14は、抽出した近端騒音成分が大きいほど大きな補正量を算出する。補正量算出部14は、算出した補正量を補正部15へ出力する。
The correction
補正部15は、擬似帯域拡張部12から出力された遠端音声信号の拡張帯域成分のパワーを、補正量算出部14から出力された補正量によって補正する補正手段である。補正部15は、拡張帯域成分のパワーを補正した遠端音声信号を出力部16へ出力する。
The
出力部16は、補正部15から出力された遠端音声信号を時間帯域に変換して再生機器へ出力する出力手段である。出力部16は、たとえばIFFT(Inverse Fast Fourier Transform:逆高速フーリエ変換)部によって実現することができる。これにより、擬似的に帯域が拡張された遠端音声信号が再生機器によって再生される。
The
また、遠端音声取得部11と擬似帯域拡張部12の間にはAGC17(Automatic Gain Control)が設けられていてもよい。AGC17は、遠端音声取得部11から擬似帯域拡張部12へ出力される遠端音声信号の利得一定制御を行う。また、AGC17は、補正部15と出力部16の間や、遠端音声取得部11の前段や、出力部16の後段などに設けられていてもよい。また、音声処理装置10において、AGC17を省いた構成としてもよい。
Further, an AGC 17 (Automatic Gain Control) may be provided between the far-end
(遠端音声信号の例)
図2は、遠端音声取得部によって取得される遠端音声信号の一例を示す図である。図2において、横軸は周波数を示し、縦軸はパワーを示す。帯域成分21は、遠端音声取得部11によって取得される遠端音声信号の一例を示している。帯域成分21の帯域は、たとえば300[Hz]〜3400[Hz]である。また、ネットワークを介して受信された遠端音声信号は、元の音声信号よりも帯域が狭くなる。ここでは、たとえば元の音声信号には含まれていた3400[Hz]より高い帯域22が帯域成分21に含まれていない。
(Example of far-end audio signal)
FIG. 2 is a diagram illustrating an example of a far-end voice signal acquired by the far-end voice acquisition unit. In FIG. 2, the horizontal axis indicates the frequency, and the vertical axis indicates the power. The
図3は、擬似帯域拡張部によって帯域を拡張された遠端音声信号の一例を示す図である。図3において、横軸は周波数を示し、縦軸はパワーを示す。また、図3において、図2に示した部分と同様の部分については同一の符号を付して説明を省略する。 FIG. 3 is a diagram illustrating an example of a far-end audio signal whose band is expanded by the pseudo-band extending unit. In FIG. 3, the horizontal axis represents frequency, and the vertical axis represents power. Also, in FIG. 3, the same parts as those shown in FIG.
擬似帯域拡張部12は、たとえば、帯域成分21を帯域22に複製することによって帯域22の高周波側に拡張帯域成分31を生成する。また、擬似帯域拡張部12は、たとえば、遠端音声信号を波形処理(たとえば全波整流)によって歪ませることによって帯域22の低周波側に拡張帯域成分32を生成する。そして、擬似帯域拡張部12は、帯域成分21および拡張帯域成分31,32を、帯域を拡張した遠端音声信号として出力する。
The pseudo
(音声処理装置の動作)
図4は、音声処理装置の動作の一例を示すフローチャートである。図4に示すように、まず、遠端音声取得部11が、遠端音声信号を取得する(ステップS41)。つぎに、擬似帯域拡張部12が、ステップS41によって取得された遠端音声信号の帯域を擬似的に拡張する(ステップS42)。つぎに、補正量算出部14が、遠端音声信号の拡張帯域成分の補正量を算出する(ステップS43)。
(Operation of the audio processor)
FIG. 4 is a flowchart illustrating an example of the operation of the speech processing apparatus. As shown in FIG. 4, first, the far-end
つぎに、補正部15が、ステップS42によって帯域を拡張された遠端音声信号の拡張帯域成分のパワーを、ステップS43によって算出された補正量によって補正する(ステップS44)。つぎに、出力部16が、ステップS44によって補正された遠端音声信号を再生機器へ出力し(ステップS45)、一連の動作を終了する。
Next, the
(補正量の算出)
図5は、実施の形態1にかかる補正量の算出動作の一例を示すフローチャートである。補正量算出部14は、たとえば以下の各ステップによって補正量を算出する。まず、近端音声信号から近端騒音成分を抽出する(ステップS51)。つぎに、ステップS51によって抽出された近端騒音成分の大きさに基づく補正量を算出し(ステップS52)、一連の算出動作を終了する。
(Calculation of correction amount)
FIG. 5 is a flowchart illustrating an example of a correction amount calculation operation according to the first embodiment. The correction
図6は、近端騒音成分と補正量との関係を示すグラフである。図6において、横軸は近端騒音成分の大きさを示し、縦軸は補正量算出部14によって算出される補正量を示している。横軸のNminは、近端騒音成分の最小値(たとえば−50[dB])である。横軸のNmaxは、近端騒音成分の最大値(たとえば50[dB])である。縦軸のAminは、補正量の最小値(たとえば0.0)である。縦軸のAmaxは、補正量の最大値(たとえば2.0)である。
FIG. 6 is a graph showing the relationship between the near-end noise component and the correction amount. In FIG. 6, the horizontal axis indicates the magnitude of the near-end noise component, and the vertical axis indicates the correction amount calculated by the correction
ここで、遠端音声取得部11および近端音声取得部13によって取得される音声信号の各周波数に対応するインデックスをiとする。遠端音声取得部11および近端音声取得部13におけるFFTの周波数の分割数をFNとすると、iは0〜FN−1の範囲の値となる。たとえば、遠端音声取得部11および近端音声取得部13が0〜8[kHz]の帯域を31.25[Hz]の帯域で分割する場合は、FNは256となる。
Here, i is an index corresponding to each frequency of the audio signal acquired by the far-end
拡張帯域成分の周波数のインデックスをi=FB〜FEとする。FBは、拡張帯域成分の周波数のインデックスの最小値である。FEは、拡張帯域成分の周波数のインデックスの最小値である(FE=FN−1)。補正量算出部14は、周波数i=FB〜FEの補正量については、たとえば下記(1)式によって補正量Aiを算出する。Niは、周波数iの近端騒音成分の大きさである。
Let the frequency index of the extended band component be i = FB to FE. FB is the minimum value of the frequency index of the extension band component. FE is the minimum value of the frequency index of the extension band component (FE = FN−1). The correction
上記(1)式によって補正量を算出することで、近端騒音成分と補正量との関係は図6の関係60に示すようになる。このように、補正量算出部14は、近端騒音成分が大きいほど大きな補正量を算出する。また、補正量算出部14は、遠端音声信号の狭帯域成分の周波数i(0〜FB−1)の補正量についてはAi=1.0とする。
By calculating the correction amount by the above equation (1), the relationship between the near-end noise component and the correction amount becomes as shown by the
遠端音声信号を再生する再生機器の周辺の騒音が大きい場合は、拡張帯域成分のマスキング量が大きくなり、遠端音声信号の帯域拡張の効果をユーザが感知しにくくなる。これに対して、近端騒音成分が大きいほど拡張帯域成分のパワーを大きくする補正量を算出することで、近端騒音が大きい場合に拡張帯域成分のパワーを大きくし、帯域拡張による効果をユーザが感知しやすくすることができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。 When the noise around the playback device that reproduces the far-end audio signal is large, the masking amount of the extension band component becomes large, and it becomes difficult for the user to sense the effect of the band extension of the far-end voice signal. In contrast, by calculating a correction amount that increases the power of the extended band component as the near-end noise component increases, the power of the extended band component is increased when the near-end noise is high, and the effect of the band expansion can be obtained. Can be easily detected. For this reason, the quality of the sound reproduced based on the far-end audio signal can be improved.
(拡張帯域成分の補正)
補正部15は、たとえば下記(2)式によって遠端音声信号の拡張帯域成分のパワーを補正する。Siは、擬似帯域拡張部12から出力された遠端音声信号における周波数iのパワースペクトルである。Si’は、補正部15による補正後の帯域拡張における周波数iのパワースペクトルである。
(Correction of extended band component)
The correcting
Si’=Ai×Si …(2) Si ′ = Ai × Si (2)
ここで、遠端音声信号の狭帯域成分の周波数i(0〜FB−1)についてはAi=1.0となっているため、周波数i(0〜FB−1)についてはSi’はSiと同じになり補正されない。これにより、拡張帯域成分(i=FB〜FE)のパワーを補正した遠端音声信号を得ることができる。このように、補正部15は、たとえば、周波数iごとに、拡張帯域成分のパワーに補正量を乗算することによって遠端音声信号の拡張帯域成分のパワーを補正する。
Here, since the frequency i (0 to FB-1) of the narrowband component of the far-end audio signal is Ai = 1.0, Si 'is Si and the frequency i (0 to FB-1). It becomes the same and is not corrected. Thereby, it is possible to obtain a far-end audio signal in which the power of the extension band component (i = FB to FE) is corrected. As described above, the
(音声処理装置の適用例)
図7は、音声処理装置を適用した携帯電話装置の一例を示すブロック図である。図7に示すように、携帯電話装置70は、受信回路71と、復号回路72と、音声処理装置10と、受話器73と、送話器74と、前処理回路75と、符号化回路76と、送信回路77と、を備えている。
(Application example of voice processing device)
FIG. 7 is a block diagram illustrating an example of a mobile phone device to which the voice processing device is applied. As shown in FIG. 7, the
受信回路71は、たとえば基地局から無線送信された音声信号を受信する。受信回路71は、受信した音声信号を復号回路72へ出力する。復号回路72は、受信回路71から出力された音声信号を復号する。復号回路72によって行われる復号には、たとえばFEC(Forward Error Correction)などが含まれる。復号回路72は、復号した音声信号を音声処理装置10へ出力する。復号回路72から音声処理装置10へ出力される音声信号は、ネットワークを介して受信された遠端音声信号である。
For example, the receiving circuit 71 receives an audio signal wirelessly transmitted from a base station. The receiving circuit 71 outputs the received audio signal to the
音声処理装置10は、復号回路72から出力された遠端音声信号の帯域を擬似的に拡張して受話器73へ出力する。たとえば、音声処理装置10の遠端音声取得部11は、復号回路72から出力された遠端音声信号を取得する。音声処理装置10の出力部16は、帯域が拡張された遠端音声信号を受話器73へ出力する。
The
なお、図示しないが、たとえば、音声処理装置10と受話器73との間にはアナログ変換器が設けられており、音声処理装置10から受話器73へ出力されるデジタルの遠端音声信号はアナログ信号に変換される。受話器73は、音声処理装置10の出力部16から出力された遠端音声信号を受話音として再生する再生機器である。
Although not shown, for example, an analog converter is provided between the
送話器74は、送話音を音声信号に変換して前処理回路75へ出力する。前処理回路75は、送話器74から出力された音声信号をサンプリングすることによってデジタル信号に変換する。前処理回路75は、デジタル信号に変換した音声信号を音声処理装置10および符号化回路76へ出力する。
The transmitter 74 converts the transmitted sound into an audio signal and outputs it to the
前処理回路75から出力される音声信号は、遠端音声信号を再生する再生機器(受話器73)の周辺の音声を示す近端音声信号である。音声処理装置10の近端音声取得部13は、前処理回路75から出力された近端音声信号を取得する。符号化回路76は、前処理回路75から出力された音声信号を符号化する。符号化回路76は、符号化した音声信号を送信回路77へ出力する。送信回路77は、符号化回路76から出力された音声信号を、たとえば基地局へ無線送信する。
The audio signal output from the
なお、ここでは携帯電話装置70に音声処理装置10を適用する構成について説明したが、音声処理装置10の適用先は携帯電話装置70に限らない。たとえば、音声処理装置10は、固定の電話装置などに適用することもできる。また、音声処理装置10は、音声信号の送信機能を持たない音声信号の受信装置などに適用することもできる。また、前処理回路75から出力された音声信号を近端音声信号として音声処理装置10が取得する構成について説明したが、受話器73の付近にマイクなどを別途設けて得た音声信号を近端音声信号として音声処理装置10が取得する構成としてもよい。
In addition, although the structure which applies the
図8は、携帯電話装置を適用した通信システムの一例を示す図である。図8に示すように、通信システム80は、携帯電話装置81,82と、基地局83,84と、ネットワーク85と、を含んでいる。携帯電話装置81,82のそれぞれには、たとえば図7に示した携帯電話装置70を適用することができる。携帯電話装置81は、基地局83との間で無線通信を行う。携帯電話装置82は、基地局84との間で無線通信を行う。
FIG. 8 is a diagram illustrating an example of a communication system to which the mobile phone device is applied. As shown in FIG. 8, the
基地局83,84は、ネットワーク85を介して互いに有線の通信を行う。たとえば、携帯電話装置82は、携帯電話装置81から基地局83、ネットワーク85および基地局84を介して送信された音声信号を遠端音声信号として受信する。また、携帯電話装置82は、携帯電話装置82の周辺の音声を示す音声信号を近端音声信号として取得する。
The
このように、実施の形態1にかかる音声処理装置10によれば、近端音声信号に含まれる騒音成分に基づく補正量によって遠端音声信号の拡張帯域成分のパワーを補正することで、帯域拡張の効果と副作用のバランスを調整することができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。また、拡張帯域成分の複数の周波数について補正量を算出することで、複数の周波数について適切な補正を行い、遠端音声信号に基づいて再生される音声の質をさらに向上させることができる。
As described above, according to the
(実施の形態2)
(音声処理装置の構成)
図9は、実施の形態2にかかる音声処理装置を示すブロック図である。図9において、図1に示した構成と同様の構成については同一の符号を付して説明を省略する。図9に示すように、実施の形態2にかかる音声処理装置10は、遠端音声取得部11と、擬似帯域拡張部12と、補正量算出部14と、補正部15と、出力部16と、を備えている。また、実施の形態2においては、図1に示した近端音声取得部13を省いてもよい。
(Embodiment 2)
(Configuration of speech processing device)
FIG. 9 is a block diagram of the speech processing apparatus according to the second embodiment. In FIG. 9, the same components as those shown in FIG. As illustrated in FIG. 9, the
遠端音声取得部11は、取得した遠端音声信号を擬似帯域拡張部12および補正量算出部14へ出力する。補正量算出部14は、遠端音声取得部11から出力された遠端音声信号に含まれる騒音成分(以下、遠端騒音成分と称する)に基づく補正量を算出する。たとえば、補正量算出部14は、遠端音声信号から遠端騒音成分を抽出する。遠端騒音成分の抽出には、種々の方法を用いることができる。
The far-end
たとえば、補正量算出部14は、雑音予測手段によって雑音の周波数領域の信号を得る方法によって遠端音声信号から遠端騒音成分を抽出する(たとえば、特許2830276号参照)。たとえば、近端音声信号に含まれる無音区間を抽出し、抽出した無音区間から雑音成分を予測することができる。補正量算出部14は、抽出した遠端騒音成分の大きさに基づく補正量を算出する。たとえば、補正量算出部14は、抽出した遠端騒音成分が大きいほど小さな補正量を算出する。
For example, the correction
また、図9に示す音声処理装置10を、図1に示した音声処理装置10のように、利得一定制御を行うAGC17を設けた構成としてもよい。
Moreover, the
(遠端音声信号の例,音声処理装置の動作)
実施の形態2にかかる遠端音声取得部11によって取得される遠端音声信号の例については実施の形態1と同様である(たとえば図2参照)。また、実施の形態2にかかる擬似帯域拡張部12によって帯域を拡張された遠端音声信号の例については実施の形態1と同様である(たとえば図3参照)。また、実施の形態2にかかる音声処理装置10の動作の例については実施の形態1と同様である(たとえば図4参照)。
(Example of far-end audio signal, operation of audio processor)
An example of the far-end audio signal acquired by the far-end
(補正量の算出)
図10は、実施の形態2にかかる補正量の算出動作の一例を示すフローチャートである。補正量算出部14は、たとえば以下の各ステップによって補正量を算出する。まず、遠端音声信号から遠端騒音成分を抽出する(ステップS101)。つぎに、ステップS101によって抽出された遠端騒音成分の大きさに基づく補正量を算出し(ステップS102)、一連の算出動作を終了する。
(Calculation of correction amount)
FIG. 10 is a flowchart illustrating an example of a correction amount calculation operation according to the second embodiment. The correction
図11は、遠端騒音成分と補正量との関係を示すグラフである。図6において、横軸は遠端騒音成分の大きさを示し、縦軸は補正量算出部14によって算出される補正量を示している。横軸のNfminは、遠端騒音成分の最小値(たとえば−50[dB])である。横軸のNfmaxは、遠端騒音成分の最大値(たとえば50[dB])である。
FIG. 11 is a graph showing the relationship between the far-end noise component and the correction amount. In FIG. 6, the horizontal axis indicates the magnitude of the far-end noise component, and the vertical axis indicates the correction amount calculated by the correction
補正量算出部14は、周波数i=FB〜FEの補正量については、たとえば下記(3)式によって周波数iの補正量Aiを算出する。Nfiは、周波数iにおける遠端騒音成分の大きさである。kは、擬似帯域拡張部12において周波数iの成分を生成するために使用した周波数のインデックスである。擬似帯域拡張部12において全波整流などの方法で帯域拡張し、周波数iの成分を生成するために使用した周波数のインデックスが決まらない場合は、k=i−mとする。mは、擬似帯域拡張部12へ入力された遠端音声信号の最大周波数に相当するインデックスである。
The correction
また、上記(3)式によって補正量を算出することで、遠端騒音成分と補正量との関係は図11の関係110に示すようになる。このように、補正量算出部14は、遠端騒音成分が大きいほど小さな補正量を算出する。また、補正量算出部14は、遠端音声信号の狭帯域成分の周波数i(0〜FB−1)の補正量についてはAi=1.0とする。
Further, by calculating the correction amount by the above equation (3), the relationship between the far-end noise component and the correction amount becomes as shown by the
遠端音声信号の帯域拡張を行うと遠端音声信号に含まれる遠端騒音成分も拡張されるため、遠端音声信号に含まれる遠端騒音成分が大きい場合は音質の劣化が大きくなる。これに対して、遠端騒音成分が大きいほど拡張帯域成分のパワーを小さくする補正量を算出することで、遠端騒音成分が大きい場合に拡張帯域成分のパワーを小さくし、音質の劣化を抑えることができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。 When the band extension of the far-end voice signal is performed, the far-end noise component included in the far-end voice signal is also expanded. Therefore, when the far-end noise component contained in the far-end voice signal is large, the sound quality is greatly deteriorated. On the other hand, by calculating a correction amount that decreases the power of the extended band component as the far-end noise component increases, the power of the extended band component is reduced when the far-end noise component is large, thereby suppressing deterioration in sound quality. be able to. For this reason, the quality of the sound reproduced based on the far-end audio signal can be improved.
(拡張帯域成分の補正,音声処理装置の適用例)
実施の形態2にかかる補正部15による拡張帯域成分の補正については実施の形態1と同様である(たとえば上記(2)式参照)。また、実施の形態2にかかる音声処理装置10の適用例については実施の形態1と同様である(たとえば図7,図8参照)。
(Extended band component correction, application example of speech processing equipment)
The correction of the extension band component by the
このように、実施の形態2にかかる音声処理装置10によれば、遠端音声信号に含まれる騒音成分に基づく補正量によって遠端音声信号の拡張帯域成分のパワーを補正することで、帯域拡張の効果と副作用のバランスを調整することができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。また、拡張帯域成分の複数の周波数について補正量を算出することで、複数の周波数について適切な補正を行い、遠端音声信号に基づいて再生される音声の質をさらに向上させることができる。
As described above, according to the
(実施の形態3)
(音声処理装置の構成)
図12は、実施の形態3にかかる音声処理装置を示すブロック図である。図12において、図1に示した構成と同様の構成については同一の符号を付して説明を省略する。図12に示すように、実施の形態3にかかる音声処理装置10における遠端音声取得部11は、取得した遠端音声信号を擬似帯域拡張部12および補正量算出部14へ出力する。
(Embodiment 3)
(Configuration of speech processing device)
FIG. 12 is a block diagram of the speech processing apparatus according to the third embodiment. In FIG. 12, the same components as those shown in FIG. As illustrated in FIG. 12, the far-end
補正量算出部14は、遠端音声取得部11から出力された遠端音声信号に含まれる遠端騒音成分に対する、近端音声取得部13から出力された近端音声信号に含まれる近端騒音成分の比率に基づく補正量を算出する。たとえば、補正量算出部14は、遠端音声信号から遠端騒音成分を抽出する。また、補正量算出部14は、近端音声信号から近端騒音成分を抽出する。そして、補正量算出部14は、抽出した遠端騒音成分に対する、抽出した近端騒音成分の比率を算出し、算出した比率に基づく補正量を算出する。たとえば、補正量算出部14は、算出した比率が高いほど大きな補正量を算出する。
The correction
また、図12に示す音声処理装置10を、図1に示した音声処理装置10のように、利得一定制御を行うAGC17を設けた構成としてもよい。
Moreover, the
(遠端音声信号の例,音声処理装置の動作)
実施の形態3にかかる遠端音声取得部11によって取得される遠端音声信号の例については実施の形態1と同様である(たとえば図2参照)。また、実施の形態3にかかる擬似帯域拡張部12によって帯域を拡張された遠端音声信号の例については実施の形態1と同様である(たとえば図3参照)。また、実施の形態3にかかる音声処理装置10の動作の例については実施の形態1と同様である(たとえば図4参照)。
(Example of far-end audio signal, operation of audio processor)
An example of the far-end voice signal acquired by the far-end
(補正量の算出)
図13は、実施の形態3にかかる補正量の算出動作の一例を示すフローチャートである。補正量算出部14は、たとえば以下の各ステップによって補正量を算出する。まず、遠端音声信号から遠端騒音成分を抽出する(ステップS131)。つぎに、近端音声信号から近端騒音成分を抽出する(ステップS132)。つぎに、ステップS131によって抽出された遠端騒音成分に対する、ステップS132によって抽出された近端騒音成分の比率を算出する(ステップS133)。つぎに、ステップS133によって算出された比率に基づく補正量を算出し(ステップS134)、一連の算出動作を終了する。
(Calculation of correction amount)
FIG. 13 is a flowchart illustrating an example of a correction amount calculation operation according to the third embodiment. The correction
図14は、遠端騒音成分に対する近端騒音成分の比率と補正量との関係を示すグラフである。図14において、横軸は遠端騒音成分に対する近端騒音成分の比率(NNR)を示し、縦軸は補正量算出部14によって算出される補正量を示している。横軸のNNRminは、遠端騒音成分に対する近端騒音成分の比率の最小値(たとえば−50[dB])である。横軸のNNRmaxは、遠端騒音成分に対する近端騒音成分の比率の最大値(たとえば50[dB])である。
FIG. 14 is a graph showing the relationship between the ratio of the near-end noise component to the far-end noise component and the correction amount. In FIG. 14, the horizontal axis indicates the ratio (NNR) of the near-end noise component to the far-end noise component, and the vertical axis indicates the correction amount calculated by the correction
補正量算出部14は、周波数i=FB〜FEの補正量については、たとえば下記(4)式によって周波数iの補正量Aiを算出する。NNRiは、周波数iにおける遠端騒音成分に対する近端騒音成分の比率であり、NNRi=Ni−Nfkである。
The correction
また、上記(4)式によって補正量を算出することで、遠端騒音成分に対する近端騒音成分の比率と補正量との関係は図14の関係140に示すようになる。このように、補正量算出部14は、遠端騒音成分に対する近端騒音成分の比率が高いほど大きな補正量を算出する。また、補正量算出部14は、遠端音声信号の狭帯域成分の周波数i(0〜FB−1)の補正量についてはAi=1.0とする。
Further, by calculating the correction amount by the above equation (4), the relationship between the ratio of the near-end noise component to the far-end noise component and the correction amount is as shown by a
遠端音声信号を再生する再生機器の周辺の騒音が大きい場合は、拡張帯域成分のマスキング量が大きくなり、遠端音声信号の帯域拡張の効果をユーザが感知しにくくなる。一方、遠端音声信号に含まれる遠端騒音成分が大きい場合は、遠端音声信号の帯域拡張によって遠端騒音成分も拡張されるため、音質の劣化が大きくなる。 When the noise around the playback device that reproduces the far-end audio signal is large, the masking amount of the extension band component becomes large, and it becomes difficult for the user to sense the effect of the band extension of the far-end voice signal. On the other hand, when the far-end noise component included in the far-end voice signal is large, the far-end noise component is also expanded by the band extension of the far-end voice signal, so that the sound quality is greatly deteriorated.
これに対して、遠端騒音成分に対する近端騒音成分の比率が高いほど拡張帯域成分のパワーを大きくする補正量を算出することで、帯域拡張による効果をユーザが感知しやすく、かつ音質の劣化を抑えることができるように拡張帯域成分を補正することができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。 In contrast, by calculating a correction amount that increases the power of the extended band component as the ratio of the near-end noise component to the far-end noise component increases, it is easier for the user to perceive the effect of the band expansion and the sound quality deteriorates. It is possible to correct the extension band component so as to be suppressed. For this reason, the quality of the sound reproduced based on the far-end audio signal can be improved.
(拡張帯域成分の補正,音声処理装置の適用例)
実施の形態3にかかる補正部15による拡張帯域成分の補正については実施の形態1と同様である(たとえば上記(2)式参照)。また、実施の形態3にかかる音声処理装置10の適用例については実施の形態1と同様である(たとえば図7,図8参照)。
(Extended band component correction, application example of speech processing equipment)
The correction of the extension band component by the
このように、実施の形態3にかかる音声処理装置10によれば、遠端騒音成分に対する近端騒音成分の比率に基づく補正量によって遠端音声信号の拡張帯域成分のパワーを補正することで、帯域拡張の効果と副作用のバランスを調整することができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。また、拡張帯域成分の複数の周波数について補正量を算出することで、複数の周波数について適切な補正を行い、遠端音声信号に基づいて再生される音声の質をさらに向上させることができる。
Thus, according to the
(実施の形態4)
(音声処理装置の構成)
実施の形態4にかかる音声処理装置10の構成については、実施の形態3と同様である(たとえば図12参照)。ただし、補正量算出部14は、近端音声取得部13から出力された近端音声信号に含まれる近端騒音成分に対する、遠端音声取得部11から出力された遠端音声信号に含まれる音声成分の比率に基づく補正量を算出する。遠端音声信号に含まれる音声成分は、遠端音声信号に含まれる成分のうちの遠端音声成分を除いた成分である。たとえば、補正量算出部14は、近端音声信号から近端騒音成分を抽出する。また、補正量算出部14は、遠端音声信号から音声成分を抽出する。
(Embodiment 4)
(Configuration of speech processing device)
The configuration of the
遠端音声信号からの音声成分の抽出には、種々の方法を用いることができる(たとえば、特開2005−165021号公報参照)。補正量算出部14は、抽出した近端騒音成分に対する音声成分の比率を算出し、算出した比率に基づく補正量を算出する。たとえば、補正量算出部14は、算出した比率が高いほど大きな補正量を算出する。
Various methods can be used to extract a voice component from the far-end voice signal (see, for example, Japanese Patent Laid-Open No. 2005-165021). The correction
(遠端音声信号の例,音声処理装置の動作)
実施の形態4にかかる遠端音声取得部11によって取得される遠端音声信号の例については実施の形態1と同様である(たとえば図2参照)。また、実施の形態4にかかる擬似帯域拡張部12によって帯域を拡張された遠端音声信号の例については実施の形態1と同様である(たとえば図3参照)。また、実施の形態4にかかる音声処理装置10の動作の例については実施の形態1と同様である(たとえば図4参照)。
(Example of far-end audio signal, operation of audio processor)
An example of the far-end voice signal acquired by the far-end
(補正量の算出)
図15は、実施の形態4にかかる補正量の算出動作の一例を示すフローチャートである。補正量算出部14は、たとえば以下の各ステップによって補正量を算出する。まず、近端音声信号から近端騒音成分を抽出する(ステップS151)。つぎに、遠端音声信号から音声成分を抽出する(ステップS152)。つぎに、ステップS151によって抽出された近端騒音成分に対する、ステップS152によって抽出された音声成分の比率を算出する(ステップS153)。つぎに、ステップS153によって算出された比率に基づく補正量を算出し(ステップS154)、一連の算出動作を終了する。
(Calculation of correction amount)
FIG. 15 is a flowchart illustrating an example of a correction amount calculation operation according to the fourth embodiment. The correction
図16は、近端騒音成分に対する音声成分の比率と補正量との関係を示すグラフである。図16において、横軸は近端騒音成分に対する音声成分の比率(VfNnR)を示し、縦軸は補正量算出部14によって算出される補正量を示している。横軸のVfNnRminは、近端騒音成分に対する音声成分の比率の最小値(たとえば−50[dB])である。横軸のVfNnRmaxは、近端騒音成分に対する音声成分の比率の最大値(たとえば50[dB])である。
FIG. 16 is a graph showing the relationship between the ratio of the speech component to the near-end noise component and the correction amount. In FIG. 16, the horizontal axis represents the ratio (VfNnR) of the speech component to the near-end noise component, and the vertical axis represents the correction amount calculated by the correction
補正量算出部14は、周波数i=FB〜FEの補正量については、たとえば下記(5)式によって周波数iの補正量Aiを算出する。VfNnRiは、周波数iにおける近端騒音成分に対する音声成分の比率であり、VfNnRi=Vfk−Nniである。Vfkは周波数kにおける音声成分の大きさである。Nniは周波数iにおける近端騒音成分の大きさである。
The correction
また、上記(5)式によって補正量を算出することで、近端騒音成分に対する音声成分の比率と補正量との関係は図16の関係160に示すようになる。このように、補正量算出部14は、近端騒音成分に対する音声成分の比率が高いほど小さい補正量を算出する。また、補正量算出部14は、遠端音声信号の狭帯域成分の周波数i(0〜FB−1)の補正量についてはAi=1.0とする。
Further, by calculating the correction amount by the above equation (5), the relationship between the ratio of the speech component to the near-end noise component and the correction amount is as shown by the
遠端音声信号を再生する再生機器の周辺の騒音(近端騒音成分)が大きいほど、拡張帯域成分のマスキング量が大きくなり、遠端音声信号の帯域拡張の効果をユーザが感知しにくくなる。一方、遠端音声信号が小さいほど、小さなパワーの拡張帯域成分が生成されるため、遠端音声信号の帯域拡張による音質の向上効果が小さくなる。 The greater the noise around the playback device that reproduces the far-end audio signal (the near-end noise component), the greater the amount of masking of the extension band component, and the more difficult it is for the user to perceive the effect of band extension of the far-end audio signal. On the other hand, the smaller the far-end audio signal is, the smaller the extension band component of the power is generated. Therefore, the sound quality improvement effect due to the band extension of the far-end audio signal is reduced.
そのため、近端騒音成分に対する音声成分の比率が高いほど、拡張帯域成分のマスキング量による影響が、遠端音声信号の帯域拡張による音質の向上効果の影響よりも大きくなる。換言すると、近端騒音成分に対する音声成分の比率が低いほど、遠端音声信号の帯域拡張による音質の向上効果の影響が、拡張帯域成分のマスキング量による影響よりも大きくなる。 Therefore, the higher the ratio of the voice component to the near-end noise component, the greater the influence of the masking amount of the extension band component than the influence of the sound quality improvement effect by the band extension of the far-end voice signal. In other words, the lower the ratio of the voice component to the near-end noise component, the greater the influence of the sound quality improvement effect due to the band extension of the far-end voice signal than the influence due to the masking amount of the extension band component.
補正量算出部14は、近端騒音成分に対する音声成分の比率が高いほど拡張帯域成分のパワーを小さくする補正量を算出する。これにより、帯域拡張による効果をユーザが感知しやすく、かつ遠端音声信号の帯域拡張による音質の向上効果が大きくなるように拡張帯域成分のパワーを補正することができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。
The correction
(拡張帯域成分の補正,音声処理装置の適用例)
実施の形態4にかかる補正部15による拡張帯域成分の補正については実施の形態1と同様である(たとえば上記(2)式参照)。また、実施の形態4にかかる音声処理装置10の適用例については実施の形態1と同様である(たとえば図7,図8参照)。
(Extended band component correction, application example of speech processing equipment)
The correction of the extension band component by the
このように、実施の形態4にかかる音声処理装置10によれば、近端騒音成分に対する音声成分の比率に基づく補正量によって遠端音声信号の拡張帯域成分のパワーを補正することで、帯域拡張の効果と副作用のバランスを調整することができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。また、拡張帯域成分の複数の周波数について補正量を算出することで、複数の周波数について適切な補正を行い、遠端音声信号に基づいて再生される音声の質をさらに向上させることができる。
As described above, according to the
(実施の形態5)
(音声処理装置の構成)
図17は、実施の形態5にかかる音声処理装置を示すブロック図である。図17において、図1に示した構成と同様の構成については同一の符号を付して説明を省略する。図17に示すように、実施の形態5にかかる音声処理装置10における擬似帯域拡張部12は、帯域を拡張した遠端音声信号を補正部15および補正量算出部14へ出力する。
(Embodiment 5)
(Configuration of speech processing device)
FIG. 17 is a block diagram of the speech processing apparatus according to the fifth embodiment. In FIG. 17, the same components as those shown in FIG. As illustrated in FIG. 17, the
補正量算出部14は、近端音声取得部13から出力された近端音声信号に含まれる近端騒音成分に対する、擬似帯域拡張部12から出力された遠端音声信号の比率に基づく補正量を算出する。たとえば、補正量算出部14は、近端音声信号から近端騒音成分を抽出する。そして、補正量算出部14は、抽出した近端騒音成分に対する遠端音声信号の比率を算出し、算出した比率に基づく補正量を算出する。たとえば、補正量算出部14は、算出した比率が高いほど小さな補正量を算出する。
The correction
また、図17に示す音声処理装置10を、図1に示した音声処理装置10のように、利得一定制御を行うAGC17を設けた構成としてもよい。
Moreover, the
(遠端音声信号の例,音声処理装置の動作)
実施の形態5にかかる遠端音声取得部11によって取得される遠端音声信号の例については実施の形態1と同様である(たとえば図2参照)。また、実施の形態5にかかる擬似帯域拡張部12によって帯域を拡張された遠端音声信号の例については実施の形態1と同様である(たとえば図3参照)。また、実施の形態5にかかる音声処理装置10の動作の例については実施の形態1と同様である(たとえば図4参照)。
(Example of far-end audio signal, operation of audio processor)
An example of the far-end voice signal acquired by the far-end
(補正量の算出)
図18は、実施の形態5にかかる補正量の算出動作の一例を示すフローチャートである。補正量算出部14は、たとえば以下の各ステップによって補正量を算出する。まず、近端音声信号から近端騒音成分を抽出する(ステップS181)。つぎに、ステップS181によって抽出された近端騒音成分に対する、擬似帯域拡張部12の帯域拡張後の遠端音声信号の比率を算出する(ステップS182)。つぎに、ステップS182によって算出された比率に基づく補正量を算出し(ステップS183)、一連の算出動作を終了する。
(Calculation of correction amount)
FIG. 18 is a flowchart illustrating an example of a correction amount calculation operation according to the fifth embodiment. The correction
図19は、近端騒音成分に対する帯域拡張後の遠端音声信号の比率と補正量との関係を示すグラフである。図19において、横軸は近端騒音成分に対する帯域拡張後の遠端音声信号の比率(PNnR)を示し、縦軸は補正量算出部14によって算出される補正量を示している。横軸のPNnRminは、近端騒音成分に対する帯域拡張後の遠端音声信号の比率の最小値(たとえば−50[dB])である。横軸のPNnRmaxは、近端騒音成分に対する帯域拡張後の遠端音声信号の比率の最大値(たとえば50[dB])である。
FIG. 19 is a graph showing the relationship between the ratio of the far-end audio signal after band expansion to the near-end noise component and the correction amount. In FIG. 19, the horizontal axis represents the ratio (PNnR) of the far-end speech signal after band expansion to the near-end noise component, and the vertical axis represents the correction amount calculated by the correction
補正量算出部14は、周波数i=FB〜FEの補正量については、たとえば下記(6)式によって周波数iの補正量Aiを算出する。PNnRiは、周波数iにおける近端騒音成分に対する帯域拡張後の遠端音声信号の比率であり、PNnRi=Pi−Nniである。Piは、擬似帯域拡張部12によって帯域を拡張された遠端音声信号の周波数iにおける大きさである。
The correction
また、上記(6)式によって補正量を算出することで、近端騒音成分に対する帯域拡張後の遠端音声信号の比率と補正量との関係は図19の関係190に示すようになる。このように、補正量算出部14は、近端騒音成分に対する帯域拡張後の遠端音声信号の比率が高いほど小さな補正量を算出する。また、補正量算出部14は、遠端音声信号の狭帯域成分の周波数i(0〜FB−1)の補正量についてはAi=1.0とする。
Further, by calculating the correction amount by the above equation (6), the relationship between the ratio of the far-end speech signal after band expansion to the near-end noise component and the correction amount becomes as shown by the
遠端音声信号を再生する再生機器の周辺の騒音(近端騒音成分)が大きいほど、拡張帯域成分のマスキング量が大きくなり、遠端音声信号の帯域拡張の効果をユーザが感知しにくくなる。一方、帯域拡張後の遠端音声信号が小さいほど、遠端音声信号の帯域拡張による音質の向上効果が小さくなる。 The greater the noise around the playback device that reproduces the far-end audio signal (the near-end noise component), the greater the amount of masking of the extension band component, and the more difficult it is for the user to perceive the effect of band extension of the far-end audio signal. On the other hand, the smaller the far-end audio signal after band extension, the smaller the sound quality improvement effect due to the band extension of the far-end audio signal.
これに対して、補正量算出部14は、近端騒音成分に対する帯域拡張後の遠端音声信号の比率が高いほど拡張帯域成分のパワーを小さくする補正量を算出する。これにより、帯域拡張による効果をユーザが感知しやすく、かつ遠端音声信号の帯域拡張による音質の向上効果が大きくなるように拡張帯域成分のパワーを補正することができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。
On the other hand, the correction
(拡張帯域成分の補正,音声処理装置の適用例)
実施の形態5にかかる補正部15による拡張帯域成分の補正については実施の形態1と同様である(たとえば上記(2)式参照)。また、実施の形態5にかかる音声処理装置10の適用例については実施の形態1と同様である(たとえば図7,図8参照)。
(Extended band component correction, application example of speech processing equipment)
The correction of the extension band component by the
このように、実施の形態5にかかる音声処理装置10によれば、近端騒音成分に対する帯域拡張後の遠端音声信号の比率に基づく補正量によって拡張帯域成分のパワーを補正することで、帯域拡張の効果と副作用のバランスを調整することができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。また、拡張帯域成分の複数の周波数について補正量を算出することで、複数の周波数について適切な補正を行い、遠端音声信号に基づいて再生される音声の質をさらに向上させることができる。
Thus, according to the
(実施の形態6)
(音声処理装置の構成)
実施の形態6にかかる音声処理装置10の構成については、実施の形態1と同様である(たとえば図1参照)。ただし、補正量算出部14は、近端音声取得部13から出力された近端音声信号に含まれる近端騒音成分の定常性に基づく補正量を算出する。たとえば、補正量算出部14は、近端音声信号から近端騒音成分を抽出し、抽出した近端騒音成分の定常性を算出する。補正量算出部14は、算出した定常性に基づく補正量を算出する。たとえば、補正量算出部14は、算出した定常性が高いほど小さな補正量を算出する。
(Embodiment 6)
(Configuration of speech processing device)
The configuration of the
(遠端音声信号の例,音声処理装置の動作)
実施の形態6にかかる遠端音声取得部11によって取得される遠端音声信号の例については実施の形態1と同様である(たとえば図2参照)。また、実施の形態6にかかる擬似帯域拡張部12によって帯域を拡張された遠端音声信号の例については実施の形態1と同様である(たとえば図3参照)。また、実施の形態6にかかる音声処理装置10の動作の例については実施の形態1と同様である(たとえば図4参照)。
(Example of far-end audio signal, operation of audio processor)
An example of the far-end audio signal acquired by the far-end
(補正量の算出)
図20は、実施の形態6にかかる補正量の算出動作の一例を示すフローチャートである。補正量算出部14は、たとえば以下の各ステップによって補正量を算出する。まず、近端音声信号から近端騒音成分を抽出する(ステップS201)。つぎに、ステップS201によって算出された近端騒音成分の定常性を算出する(ステップS202)。つぎに、ステップS202によって算出された定常性に基づく補正量を算出し(ステップS203)、一連の算出動作を終了する。
(Calculation of correction amount)
FIG. 20 is a flowchart illustrating an example of a correction amount calculation operation according to the sixth embodiment. The correction
図21は、近端騒音成分の定常性と補正量との関係を示すグラフである。図21において、横軸は近端騒音成分の定常性を示し、縦軸は補正量算出部14によって算出される補正量を示している。横軸のTnminは、近端騒音成分の定常性の最小値(たとえば0.0)である。横軸のTnmaxは、近端騒音成分の定常性の最大値(たとえば1.0)である。補正量算出部14は、周波数i=FB〜FEの補正量については、たとえば下記(7)式によって周波数iの補正量Aiを算出する。Tniは、周波数iにおける近端騒音成分の定常性である。
FIG. 21 is a graph showing the relationship between the continuity of the near-end noise component and the correction amount. In FIG. 21, the horizontal axis indicates the continuity of the near-end noise component, and the vertical axis indicates the correction amount calculated by the correction
また、上記(7)式によって補正量を算出することで、近端騒音成分の定常性と補正量との関係は図21の関係210に示すようになる。このように、補正量算出部14は、近端騒音成分の定常性が高いほど小さい補正量を算出する。また、補正量算出部14は、遠端音声信号の狭帯域成分の周波数i(0〜FB−1)の補正量についてはAi=1.0とする。
Further, by calculating the correction amount by the above equation (7), the relationship between the continuity of the near-end noise component and the correction amount becomes as shown by the
一般に、定常性が高い音声ほどユーザが感知しにくい音声となる。たとえば、遠端音声信号を再生する再生機器の周辺の騒音(近端騒音成分)の定常性が高いほど、ユーザは周辺の騒音を感知しにくくなり、その結果として拡張帯域成分のマスキング量が小さくなる。一方、遠端音声信号を再生する再生機器の周辺の騒音(近端騒音成分)の定常性が低いほど、ユーザは周辺の騒音を感知しやすくなり、その結果として拡張帯域成分のマスキング量が大きくなる。 In general, the higher the stationary sound, the harder the user to perceive. For example, the higher the continuity of the ambient noise (near-end noise component) of the playback device that plays back the far-end audio signal, the less likely the user is to detect the ambient noise, resulting in a smaller masking amount of the extended band component. Become. On the other hand, the lower the stationarity of the ambient noise (near-end noise component) of the playback device that plays back the far-end audio signal, the easier it is for the user to detect the ambient noise, and as a result, the masking amount of the extended band component increases. Become.
これに対して、補正量算出部14は、近端騒音成分の定常性が高いほど拡張帯域成分のパワーを小さくする補正量を算出する。これにより、拡張帯域成分をユーザが感知しやすくなる場合に拡張帯域成分のパワーを小さくし、音質の劣化を抑えることができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。
On the other hand, the correction
(定常性の算出)
図22は、フレーム間のパワースペクトルの差と定常性との関係を示すグラフである。図22において、横軸は近端騒音成分のフレーム間のパワースペクトルの差(ΔX)を示し、縦軸は補正量算出部14によって算出される定常性を示している。横軸のΔXminは、近端騒音成分のフレーム間のパワースペクトルの差の最小値(たとえば−0.1)である。横軸のΔXmaxは、近端騒音成分のフレーム間のパワースペクトルの差の最大値(たとえば0.3)である。縦軸のTminは、定常性の最小値である。縦軸のTmaxは、定常性の最大値である。
(Calculation of stationarity)
FIG. 22 is a graph showing the relationship between the difference in power spectrum between frames and the stationarity. In FIG. 22, the horizontal axis indicates the power spectrum difference (ΔX) between frames of the near-end noise component, and the vertical axis indicates the continuity calculated by the correction
補正量算出部14は、周波数i=0〜FN/2−1について、たとえば下記(8)式によって現フレームの周波数iにおけるパワースペクトルXiを算出する。SPi_REは、現フレームの信号の複素スペクトルの実部である。SPi_imは、現フレームの信号の複素スペクトルの虚部である。
The correction
Xi=SPi_RE×SPi_RE+SPi_im×SPi_im …(8) Xi = SPi_RE * SPi_RE + SPi_im * SPi_im (8)
また、補正量算出部14は、算出したパワースペクトルXiに基づいて、周波数i=0〜FN/2−1について、たとえば下記(9)式によって平均パワースペクトルEiを算出する。Ei_prevは、前フレームの平均パワースペクトルである。coefは、更新係数である(0<coef<1)。
Further, the correction
Ei=coef×Xi+(1−coef)×Ei_prev …(9) Ei = coef × Xi + (1−coef) × Ei_prev (9)
また、補正量算出部14は、算出したパワースペクトルXiおよび平均パワースペクトルEiに基づいて、周波数i=0〜FN/2−1について、たとえば下記(10)式によって差ΔXiを算出する。差ΔXiは、平均パワースペクトルEiで正規化した、前フレームとのパワースペクトルの周波数iにおける差である。Xi_prevは、前フレームの周波数iにおけるパワースペクトルである。
Further, the correction
ΔXi=(Xi−Xi_prev)/Ei …(10) ΔXi = (Xi−Xi_prev) / Ei (10)
また、補正量算出部14は、算出した差ΔXiに基づいて、周波数i=0〜FN/2−1について、たとえば下記(11)式によって周波数iにおける定常性Tiを算出する。Tiは、近端騒音成分の周波数iにおける定常性である。Tminは、近端騒音成分の定常性の最小値(たとえば0.0)である。Tmaxは、近端騒音成分の定常性の最大値(たとえば1.0)である。
Further, the correction
上記(11)式によって定常性Tiを算出することで、フレーム間のパワースペクトルの差ΔXiと定常性Tiとの関係は図22の関係220に示すようになる。このように、フレーム間のパワースペクトルの差ΔXiが大きいほど定常性Tiが低くなる。
By calculating the stationarity Ti by the above equation (11), the relationship between the power spectrum difference ΔXi between frames and the stationarity Ti becomes as shown by the
(拡張帯域成分の補正,音声処理装置の適用例)
実施の形態6にかかる補正部15による拡張帯域成分の補正については実施の形態1と同様である(たとえば上記(2)式参照)。また、実施の形態6にかかる音声処理装置10の適用例については実施の形態1と同様である(たとえば図7,図8参照)。
(Extended band component correction, application example of speech processing equipment)
The correction of the extension band component by the
このように、実施の形態6にかかる音声処理装置10によれば、近端騒音成分の定常性に基づく補正量によって遠端音声信号の拡張帯域成分のパワーを補正することで、帯域拡張の効果と副作用のバランスを調整することができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。また、拡張帯域成分の複数の周波数について補正量を算出することで、複数の周波数について適切な補正を行い、遠端音声信号に基づいて再生される音声の質をさらに向上させることができる。
As described above, according to the
(実施の形態7)
(音声処理装置の構成)
実施の形態7にかかる音声処理装置10の構成については、実施の形態2と同様である(たとえば図9参照)。ただし、補正量算出部14は、遠端音声取得部11から出力された遠端音声信号に含まれる遠端騒音成分の定常性に基づく補正量を算出する。たとえば、補正量算出部14は、遠端音声信号から遠端騒音成分を抽出し、抽出した遠端騒音成分の定常性を算出する。補正量算出部14は、算出した定常性に基づく補正量を算出する。たとえば、補正量算出部14は、算出した定常性が高いほど小さな補正量を算出する。
(Embodiment 7)
(Configuration of speech processing device)
The configuration of the
(遠端音声信号の例,音声処理装置の動作)
実施の形態7にかかる遠端音声取得部11によって取得される遠端音声信号の例については実施の形態1と同様である(たとえば図2参照)。また、実施の形態7にかかる擬似帯域拡張部12によって帯域を拡張された遠端音声信号の例については実施の形態1と同様である(たとえば図3参照)。また、実施の形態7にかかる音声処理装置10の動作の例については実施の形態1と同様である(たとえば図4参照)。
(Example of far-end audio signal, operation of audio processor)
An example of the far-end voice signal acquired by the far-end
(補正量の算出)
図23は、実施の形態7にかかる補正量の算出動作の一例を示すフローチャートである。補正量算出部14は、たとえば以下の各ステップによって補正量を算出する。まず、遠端音声信号から遠端騒音成分を抽出する(ステップS231)。つぎに、ステップS231によって算出された遠端騒音成分の定常性を算出する(ステップS232)。つぎに、ステップS232によって算出された定常性に基づく補正量を算出し(ステップS233)、一連の算出動作を終了する。
(Calculation of correction amount)
FIG. 23 is a flowchart illustrating an example of a correction amount calculation operation according to the seventh embodiment. The correction
図24は、遠端騒音成分の定常性と補正量との関係を示すグラフである。図24において、横軸は遠端騒音成分の定常性を示し、縦軸は補正量算出部14によって算出される補正量を示している。横軸のTfminは、遠端騒音成分の定常性の最小値(たとえば−50[dB])である。横軸のTfmaxは、遠端騒音成分の定常性の最大値(たとえば50[dB])である。補正量算出部14は、周波数i=FB〜FEの補正量については、たとえば下記(12)式によって周波数iの補正量Aiを算出する。
FIG. 24 is a graph showing the relationship between the continuity of the far-end noise component and the correction amount. In FIG. 24, the horizontal axis indicates the continuity of the far-end noise component, and the vertical axis indicates the correction amount calculated by the correction
また、上記(12)式によって補正量を算出することで、遠端騒音成分の定常性と補正量との関係は図24の関係240に示すようになる。このように、補正量算出部14は、遠端騒音成分の定常性が高いほど小さい補正量を算出する。また、補正量算出部14は、遠端音声信号の狭帯域成分の周波数i(0〜FB−1)の補正量についてはAi=1.0とする。
Further, by calculating the correction amount by the above equation (12), the relationship between the continuity of the far-end noise component and the correction amount becomes as shown by the
一般に、定常性が高い音声ほどユーザが感知しにくい音声となる。たとえば、遠端騒音成分の定常性が高いほど、ユーザは遠端騒音成分を感知しにくくなり、その結果として拡張帯域成分のマスキング量が小さくなる。一方、遠端騒音成分の定常性が低いほど、ユーザは遠端騒音成分を感知しやすくなり、その結果として拡張帯域成分のマスキング量が大きくなる。 In general, the higher the stationary sound, the harder the user to perceive. For example, the higher the continuity of the far-end noise component, the more difficult it is for the user to sense the far-end noise component, and as a result, the masking amount of the extended band component becomes smaller. On the other hand, the lower the continuity of the far-end noise component, the easier it is for the user to sense the far-end noise component, and as a result, the masking amount of the extended band component increases.
これに対して、補正量算出部14は、遠端騒音成分の定常性が高いほど拡張帯域成分のパワーを小さくする補正量を算出する。これにより、拡張帯域成分をユーザが感知しやすくなる場合に拡張帯域成分のパワーを小さくし、音質の劣化を抑えることができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。
In contrast, the correction
(定常性の算出,拡張帯域成分の補正,音声処理装置の適用例)
実施の形態7にかかる補正部15による遠端騒音成分の定常性の算出については、実施の形態6における近端騒音成分の定常性の算出と同様である(たとえば上記(8)式〜(11)式および図22参照)。また、実施の形態7にかかる補正部15による拡張帯域成分の補正については実施の形態1と同様である(たとえば上記(2)式参照)。また、実施の形態7にかかる音声処理装置10の適用例については実施の形態1と同様である(たとえば図7,図8参照)。
(Calculation of stationarity, correction of extended band components, application example of speech processing equipment)
The calculation of the continuity of the far-end noise component by the
このように、実施の形態7にかかる音声処理装置10によれば、遠端騒音成分の定常性に基づく補正量によって遠端音声信号の拡張帯域成分のパワーを補正することで、帯域拡張の効果と副作用のバランスを調整することができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。また、拡張帯域成分の複数の周波数について補正量を算出することで、複数の周波数について適切な補正を行い、遠端音声信号に基づいて再生される音声の質をさらに向上させることができる。
As described above, according to the
(実施の形態8)
(音声処理装置の構成)
実施の形態8にかかる音声処理装置10の構成については、実施の形態3と同様である(たとえば図12参照)。ただし、補正量算出部14は、遠端音声取得部11から出力された遠端音声信号に含まれる遠端騒音成分と、近端音声取得部13から出力された近端音声信号に含まれる近端騒音成分と、の類似性に基づく補正量を算出する。
(Embodiment 8)
(Configuration of speech processing device)
The configuration of the
たとえば、補正量算出部14は、遠端音声信号から遠端騒音成分を抽出するとともに、近端音声信号から近端騒音成分を抽出し、抽出した遠端騒音成分と近端騒音成分との類似性を算出する。補正量算出部14は、算出した類似性に基づく補正量を算出する。たとえば、補正量算出部14は、算出した類似性が高いほど大きな補正量を算出する。
For example, the correction
(遠端音声信号の例,音声処理装置の動作)
実施の形態8にかかる遠端音声取得部11によって取得される遠端音声信号の例については実施の形態1と同様である(たとえば図2参照)。また、実施の形態8にかかる擬似帯域拡張部12によって帯域を拡張された遠端音声信号の例については実施の形態1と同様である(たとえば図3参照)。また、実施の形態8にかかる音声処理装置10の動作の例については実施の形態1と同様である(たとえば図4参照)。
(Example of far-end audio signal, operation of audio processor)
An example of the far-end audio signal acquired by the far-end
(補正量の算出)
図25は、実施の形態8にかかる補正量の算出動作の一例を示すフローチャートである。補正量算出部14は、たとえば以下の各ステップによって補正量を算出する。まず、近端音声信号から近端騒音成分を抽出する(ステップS251)。つぎに、遠端音声信号から遠端騒音成分を抽出する(ステップS252)。つぎに、ステップS251によって算出された近端騒音成分と、ステップS252によって算出された遠端騒音成分と、の類似性を算出する(ステップS253)。つぎに、ステップS253によって算出された類似性に基づく補正量を算出し(ステップS254)、一連の算出動作を終了する。
(Calculation of correction amount)
FIG. 25 is a flowchart illustrating an example of a correction amount calculation operation according to the eighth embodiment. The correction
図26は、近端騒音成分および遠端騒音成分の類似性と補正量との関係を示すグラフである。図26において、横軸は近端騒音成分と遠端騒音成分との類似性を示し、縦軸は補正量算出部14によって算出される補正量を示している。横軸のSminは、近端騒音成分と遠端騒音成分との類似性の最小値(たとえば0.0)である。横軸のSmaxは、近端騒音成分と遠端騒音成分との類似性の最大値(たとえば1.0)である。補正量算出部14は、周波数i=FB〜FEの補正量については、たとえば下記(13)式によって周波数iの補正量Aiを算出する。
FIG. 26 is a graph showing the relationship between the similarity between the near-end noise component and the far-end noise component and the correction amount. In FIG. 26, the horizontal axis indicates the similarity between the near-end noise component and the far-end noise component, and the vertical axis indicates the correction amount calculated by the correction
また、上記(13)式によって補正量を算出することで、近端騒音成分および遠端騒音成分の類似性と補正量との関係は図26の関係260に示すようになる。このように、補正量算出部14は、近端騒音成分と遠端騒音成分との類似性が高いほど大きな補正量を算出する。また、補正量算出部14は、遠端音声信号の狭帯域成分の周波数i(0〜FB−1)の補正量についてはAi=1.0とする。
Further, by calculating the correction amount by the above equation (13), the relationship between the similarity between the near-end noise component and the far-end noise component and the correction amount is as shown by a
一般に、類似性が高い各音声ほどユーザが聞き分けにくい各音声となる。たとえば、近端騒音成分と遠端騒音成分との類似性が高いほど、近端騒音成分と遠端音声信号の拡張帯域成分との類似性も高くなるため、ユーザが拡張帯域成分を感知しにくくなる。一方、近端騒音成分と遠端騒音成分との類似性が低いほど、近端騒音成分と遠端音声信号の拡張帯域成分との類似性も低くなるため、ユーザが拡張帯域成分を感知しやすくなる。 In general, the voices having higher similarity are voices that are more difficult for the user to distinguish. For example, the higher the similarity between the near-end noise component and the far-end noise component, the higher the similarity between the near-end noise component and the extended band component of the far-end audio signal, so that the user is less likely to detect the extended band component. Become. On the other hand, the lower the similarity between the near-end noise component and the far-end noise component, the lower the similarity between the near-end noise component and the extended band component of the far-end speech signal, so that the user can easily detect the extended band component. Become.
これに対して、補正量算出部14は、近端騒音成分と遠端騒音成分との類似性が高いほど拡張帯域成分のパワーを大きくする補正量を算出する。これにより、遠端音声信号の拡張帯域成分をユーザが感知しにくくなる場合に拡張帯域成分のパワーを大きくし、帯域拡張による効果をユーザが感知しやすくすることができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。
On the other hand, the correction
(類似性の算出)
図27は、各騒音成分のパワースペクトル差と類似性との関係を示すグラフである。図27において、横軸は近端騒音成分と遠端騒音成分とのパワースペクトル差を示し、縦軸は補正量算出部14によって算出される類似性を示している。横軸のDminは、近端騒音成分と遠端騒音成分とのパワースペクトル差の最小値(たとえば0.0)である。横軸のDmaxは、近端騒音成分と遠端騒音成分とのパワースペクトル差の最大値(たとえば1.0)である。縦軸のSminは、類似性の最小値(たとえば0.0)である。縦軸のSmaxは、類似性の最大値(たとえば1.0)である。
(Similarity calculation)
FIG. 27 is a graph showing the relationship between the power spectrum difference and similarity of each noise component. In FIG. 27, the horizontal axis indicates the power spectrum difference between the near-end noise component and the far-end noise component, and the vertical axis indicates the similarity calculated by the correction
補正量算出部14は、周波数i=0〜FN/2−1について、たとえば下記(14)式によって現フレームの周波数iにおける近端騒音成分の正規化パワースペクトルXNiを算出する。SPNi_reは、近端騒音成分の周波数iにおける複素スペクトルの実部である。SPNi_imは、近端騒音成分の周波数iにおける複素スペクトルの虚部である。sは、開始インデックス(たとえば300[Hz]に対応するインデックス)である。eは、終了インデックス(たとえば3400[Hz]に対応するインデックス)である。
The correction
また、補正量算出部14は、周波数i=0〜FN/2−1について、たとえば下記(15)式によって現フレームの周波数iにおける遠端騒音成分の正規化パワースペクトルXFiを算出する。SPFi_reは、遠端騒音成分の周波数iにおける複素スペクトルの実部である。SPFi_imは、遠端騒音成分の周波数iにおける複素スペクトルの虚部である。sは、開始インデックス(たとえば300[Hz]に対応するインデックス)である。eは、終了インデックス(たとえば3400[Hz]に対応するインデックス)である。
Further, the correction
また、補正量算出部14は、算出した正規化パワースペクトルXNiおよび正規化パワースペクトルXFiに基づいて、周波数i=0〜FN/2−1について、たとえば下記(16)式によってパワースペクトル差Dを算出する。パワースペクトル差Dは、近端騒音成分と遠端騒音成分のパワースペクトル差である。
In addition, the correction
また、補正量算出部14は、算出したパワースペクトル差Dに基づいて、たとえば下記(17)式によって近端騒音成分と遠端騒音成分との類似性Sを算出する。
Further, the correction
上記(17)式によって類似性Sを算出することで、各騒音成分のパワースペクトル差と類似性との関係は図27の関係270に示すようになる。このように、各騒音成分のパワースペクトル差が大きいほど類似性が低くなる。 By calculating the similarity S using the above equation (17), the relationship between the power spectrum difference of each noise component and the similarity is as shown by a relationship 270 in FIG. Thus, the similarity decreases as the power spectrum difference of each noise component increases.
(拡張帯域成分の補正,音声処理装置の適用例)
実施の形態8にかかる補正部15による拡張帯域成分の補正については実施の形態1と同様である(たとえば上記(2)式参照)。また、実施の形態8にかかる音声処理装置10の適用例については実施の形態1と同様である(たとえば図7,図8参照)。
(Extended band component correction, application example of speech processing equipment)
The correction of the extension band component by the
このように、実施の形態8にかかる音声処理装置10によれば、近端騒音成分と遠端騒音成分との類似性に基づく補正量によって遠端音声信号の拡張帯域成分のパワーを補正することで、帯域拡張の効果と副作用のバランスを調整することができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。また、拡張帯域成分の複数の周波数について補正量を算出することで、複数の周波数について適切な補正を行い、遠端音声信号に基づいて再生される音声の質をさらに向上させることができる。
Thus, according to the
(実施の形態9)
実施の形態9にかかる音声処理装置10は、上述した各実施の形態にかかる各方法で複数の補正量を算出し、算出した複数の補正量を用いて拡張帯域成分のパワーを補正する。たとえば、音声処理装置10は、実施の形態1〜8にかかる各方法のうちの少なくとも2つの方法で算出した補正量をそれぞれ重み付けして加算し、加算した補正量によって拡張帯域成分のパワーを補正する。
(Embodiment 9)
The
各補正量の重み付け係数は、各補正量の重要度などに応じてあらかじめ設定しておく。ここでは、一例として、実施の形態1にかかる方法で算出した補正量と、実施の形態2にかかる方法で算出した補正量と、をそれぞれ重み付けして加算し、加算した補正量によって拡張帯域成分のパワーを補正する場合について説明する。 The weighting coefficient for each correction amount is set in advance according to the importance of each correction amount. Here, as an example, the correction amount calculated by the method according to the first embodiment and the correction amount calculated by the method according to the second embodiment are respectively weighted and added, and the extension band component is determined by the added correction amount. The case of correcting the power of will be described.
(音声処理装置の構成)
実施の形態9にかかる音声処理装置10の構成については、実施の形態3と同様である(たとえば図12参照)。ただし、補正量算出部14は、遠端音声取得部11から出力された遠端音声信号に含まれる遠端騒音成分に基づく補正量と、近端音声取得部13から出力された近端音声信号に含まれる近端騒音成分に基づく補正量と、をそれぞれ重み付けして加算する。近端音声取得部13は、加算した補正量を補正量算出部14へ出力する。
(Configuration of speech processing device)
The configuration of the
たとえば、補正量算出部14は、近端音声信号から近端騒音成分を抽出し、抽出した近端騒音成分に基づく補正量を算出する(たとえば実施の形態1参照)。また、補正量算出部14は、遠端音声信号から遠端騒音成分を抽出し、抽出した遠端騒音成分に基づく補正量を算出する(たとえば実施の形態2参照)。また、補正量算出部14は、算出した各補正量にそれぞれ重み付け係数を乗算する。そして、補正量算出部14は、重み付け係数を乗算した各補正量を加算し、加算した補正量を補正量算出部14へ出力する。
For example, the correction
(遠端音声信号の例,音声処理装置の動作)
実施の形態9にかかる遠端音声取得部11によって取得される遠端音声信号の例については実施の形態1と同様である(たとえば図2参照)。また、実施の形態9にかかる擬似帯域拡張部12によって帯域を拡張された遠端音声信号の例については実施の形態1と同様である(たとえば図3参照)。また、実施の形態9にかかる音声処理装置10の動作の例については実施の形態1と同様である(たとえば図4参照)。
(Example of far-end audio signal, operation of audio processor)
An example of the far-end audio signal acquired by the far-end
(補正量の算出)
図28は、実施の形態9にかかる補正量の算出動作の一例を示すフローチャートである。補正量算出部14は、たとえば以下の各ステップによって補正量を算出する。まず、近端騒音成分に基づく補正量を算出する(ステップS281)。つぎに、遠端騒音成分に基づく補正量を算出する(ステップS282)。つぎに、ステップS281,S282によって算出された各補正量に重み付け係数を乗算する(ステップS283)。つぎに、ステップS283によって乗算された各補正量を加算し(ステップS284)、一連の算出動作を終了する。
(Calculation of correction amount)
FIG. 28 is a flowchart illustrating an example of a correction amount calculation operation according to the ninth embodiment. The correction
(拡張帯域成分の補正,音声処理装置の適用例)
実施の形態9にかかる補正部15による拡張帯域成分の補正については実施の形態1と同様である(たとえば上記(2)式参照)。また、実施の形態9にかかる音声処理装置10の適用例については実施の形態1と同様である(たとえば図7,図8参照)。
(Extended band component correction, application example of speech processing equipment)
The correction of the extension band component by the
このように、実施の形態9にかかる音声処理装置10によれば、複数の方法で補正量を算出し、算出した各補正量を用いて拡張帯域成分のパワーを補正することで、帯域拡張の効果と副作用のバランスをより柔軟に調整することができる。このため、遠端音声信号に基づいて再生される音声の質をさらに向上させることができる。
As described above, according to the
(実施の形態10)
実施の形態10にかかる音声処理装置10の補正量算出部14は、上述した各実施の形態にかかる各方法のいずれかによって複数の補正量を算出する。そして、補正量算出部14は、拡張帯域成分と狭帯域成分との境界付近の所定幅の帯域成分について当該帯域における周波数ごとに定まる補正量を補正部15へ出力する。ここでは実施の形態10にかかる音声処理装置10による補正量の算出について説明するが、音声処理装置10の他の処理等については上述した各実施の形態と同様である。
(Embodiment 10)
The correction
(補正量の算出)
実施の形態10にかかる音声処理装置10の補正量算出部14は、拡張帯域成分と狭帯域成分との境界付近の所定幅の帯域成分について当該帯域における周波数ごとに定まる補正量を補正部15へ出力する。たとえば、補正量算出部14は、算出した補正量Aiのうちの、拡張帯域成分と狭帯域成分との境界付近の所定幅の帯域成分を、当該帯域の両側の周波数における補正量Aiに基づいて補間することで平滑化する。
(Calculation of correction amount)
The correction
これにより、補正部15によって拡張帯域成分の補正を行っても、遠端音声信号における拡張帯域成分と狭帯域成分との境界付近に急激なパワー勾配ができることを回避し、遠端音声信号に基づいて再生される音声の質をさらに向上させることができる。
As a result, even if correction of the extension band component is performed by the
図29は、拡張帯域成分と狭帯域成分との境界付近の補間を示す図である。図29において、横軸は周波数帯域のインデックスを示し、縦軸は補正量Aiを示している。境界帯域291は、拡張帯域成分と狭帯域成分との境界付近の所定幅の帯域成分を示している。たとえば、境界帯域291は、拡張帯域成分と狭帯域成分との境界の周波数(たとえば周波数FB)を含み所定の幅を有するように設定される。
FIG. 29 is a diagram illustrating interpolation near the boundary between the extended band component and the narrow band component. In FIG. 29, the horizontal axis indicates the frequency band index, and the vertical axis indicates the correction amount Ai. A
帯域292は、境界帯域291より低周波側の帯域を示している。帯域293は、境界帯域291より高周波側の帯域を示している。周波数F1は、境界帯域291と帯域292との境界の周波数である。周波数F2は、境界帯域291と帯域293との境界の周波数である。補正量AF1は、周波数F1について補正量算出部14が算出した補正量である。補正量AF2は、周波数F2について補正量算出部14が算出した補正量である。
A
補正量算出部14は、たとえば、算出した補正量AF1および補正量AF2に基づいて、境界帯域291の各補正量Aiを補間する。たとえば、補正量算出部14は、下記(18)式によって境界帯域291の補間後の各補正量Ai’を算出する。
For example, the correction
関係290は、境界帯域291における周波数iと補正量Aiの関係を示している。このように、補正量算出部14は、算出した補正量AF1および補正量AF2に基づいて、境界帯域291の各補正量Aiを線形に補間することができる。これにより、境界帯域291において急激なパワー勾配ができることを回避することができる。
A
また、補正量算出部14は、帯域292および帯域293の補間後の各補正量Ai’については、補間前の各補正量Aiと同じ値とする。補正量算出部14は、補間後の補正量Ai’を補正部15へ出力する。補正部15は、補正量算出部14から出力された補正量Ai’に基づいて、遠端音声信号の拡張帯域成分のパワーを補正する。
Further, the correction
なお、補正量算出部14は、周波数F1と周波数F2との間の周波数における補正量Aiを算出しないようにしてもよい。この場合も、補正量算出部14は、境界帯域291の補正量Ai’を、補正量AF1および補正量AF2に基づいて補間することによって得ることができる。
The correction
このように、実施の形態10にかかる音声処理装置10は、拡張帯域成分と狭帯域成分との境界付近の所定幅の帯域成分について当該帯域における周波数ごとに定まる補正量により補正された音声信号を出力する。これにより、拡張帯域成分の補正を行っても、拡張帯域成分と狭帯域成分との境界付近に急激なパワー勾配ができることを回避し、遠端音声信号に基づいて再生される音声の質をさらに向上させることができる。
As described above, the
(遠端音声信号のパワースペクトルの例)
つぎに、上述した各実施の形態にかかる音声処理装置10の補正部15による補正の前後における遠端音声信号のパワースペクトルの例を示す。ここでは、一例として、図9に示した音声処理装置10における遠端音声信号のパワースペクトルを示す。
(Example of power spectrum of far-end audio signal)
Next, an example of the power spectrum of the far-end audio signal before and after correction by the
図30〜図33は、遠端音声信号のパワースペクトルの例を示す図である。図30〜図33において、横軸は周波数を示し、縦軸はパワーを示している。パワースペクトル300は、遠端音声信号のパワースペクトルである。狭帯域成分301は遠端音声信号の狭帯域成分(たとえばi=0〜FB−1)である。拡張帯域成分302は遠端音声信号の拡張帯域成分(たとえばi=FB〜FE)である。
30 to 33 are diagrams illustrating examples of the power spectrum of the far-end audio signal. 30 to 33, the horizontal axis indicates the frequency, and the vertical axis indicates the power. The
図30に示すパワースペクトル300は、遠端音声信号に含まれる騒音成分が比較的大きい場合における、補正部15による補正前の遠端音声信号のパワースペクトルである。図31に示すパワースペクトル300は、図30と同様に遠端音声信号に含まれる騒音成分が比較的大きい場合における、補正部15による補正後の遠端音声信号のパワースペクトルである。図30および図31に示すように、この場合は、パワースペクトル300のうちの拡張帯域成分302のパワーを低下させるように補正が行われる。
A
図32に示すパワースペクトル300は、遠端音声信号に含まれる騒音成分が比較的小さい場合における、補正部15による補正前の遠端音声信号のパワースペクトルである。図33に示すパワースペクトル300は、図32と同様に遠端音声信号に含まれる騒音成分が比較的小さい場合における、補正部15による補正後の遠端音声信号のパワースペクトルである。図32および図33に示すように、この場合は、パワースペクトル300のうちの拡張帯域成分302のパワーをほぼ維持するように補正が行われる。
A
(音声処理装置の変形例)
つぎに、上述した各実施の形態にかかる音声処理装置10の変形例について説明する。ここでは図1に示した音声処理装置10の変形例について説明するが、上述した他の音声処理装置10についても同様の変形が可能である。
(Variation of audio processing device)
Next, a modified example of the
図34は、音声処理装置の変形例1を示すブロック図である。図34において、図1に示した構成と同様の構成については同一の符号を付して説明を省略する。図34に示すように、音声処理装置10において、遠端音声信号の狭帯域成分については、補正部15を経由させずに出力部16から出力するようにしてもよい。
FIG. 34 is a block diagram illustrating a first modification of the sound processing device. 34, the same components as those illustrated in FIG. 1 are denoted by the same reference numerals and description thereof is omitted. As shown in FIG. 34, in the
たとえば、擬似帯域拡張部12は、生成した拡張帯域成分を補正部15へ出力するとともに、遠端音声信号の狭帯域成分を出力部16へ出力してもよい。補正部15は、擬似帯域拡張部12から出力された拡張帯域成分を補正して出力部16へ出力する。出力部16は、補正部15から出力された拡張帯域成分と、擬似帯域拡張部12から出力された狭帯域成分と、に基づいて、帯域を拡張された遠端音声信号を出力する。
For example, the pseudo
また、図示しないが、遠端音声取得部11から擬似帯域拡張部12へ出力される遠端音声信号の狭帯域成分を分岐し、分岐した各狭帯域成分をそれぞれ擬似帯域拡張部12および出力部16へ出力してもよい。そして、擬似帯域拡張部12は、生成した拡張帯域成分を補正部15へ出力する。補正部15は、擬似帯域拡張部12から出力された拡張帯域成分を補正して出力部16へ出力する。出力部16は、補正部15から出力された拡張帯域成分と、遠端音声取得部11から出力された狭帯域成分と、に基づいて、帯域を拡張された遠端音声信号を出力する。
Although not shown, the narrowband component of the far-end speech signal output from the far-end
図35は、音声処理装置の変形例2を示すブロック図である。図35において、図1に示した構成と同様の構成については同一の符号を付して説明を省略する。図35に示すように、音声処理装置10は、補正量算出部14に代えて補正量参照部351を備えていてもよい。補正量参照部351は、近端音声取得部13から出力された近端音声信号に含まれる近端騒音成分に基づく補正量を、対応テーブルを参照して導出する。
FIG. 35 is a block diagram showing a second modification of the sound processing device. 35, the same components as those illustrated in FIG. 1 are denoted by the same reference numerals, and description thereof is omitted. As shown in FIG. 35, the
たとえば音声処理装置10のメモリには、近端騒音成分の大きさと補正量とを対応付けた対応テーブルが記憶されている。補正量参照部351は、周波数ごとに、近端音声取得部13から出力された近端音声信号に含まれる近端騒音成分の大きさに対応する補正量を対応テーブルから導出する。補正量参照部351は、導出した補正量を補正部15へ出力する。
For example, the memory of the
図36は、対応テーブルの一例を示す図である。図35に示した音声処理装置10のメモリには、たとえば図36に示す対応テーブル360が記憶されている。対応テーブル360においては、近端騒音成分の大きさNiと、補正量Aiと、が対応付けられている。対応テーブル360の各値は、たとえば図6に示した関係60を離散化したものである。
FIG. 36 is a diagram illustrating an example of the correspondence table. For example, a correspondence table 360 shown in FIG. 36 is stored in the memory of the
補正量参照部351は、周波数i=FB〜FEの補正量については、近端騒音成分の大きさNiに対応する補正量Aiを対応テーブル360から導出する。また、補正量参照部351は、遠端音声信号の狭帯域成分の周波数i(0〜FB−1)の補正量についてはAi=1.0とする。このように、音声処理装置10は、上述した各式によって補正量Aiを算出する構成に限らず、テーブル参照により補正量Aiを導出する構成としてもよい。
The correction
なお、対応テーブル360において補正量Aiと対応付けられる項目は、上述した実施の形態ごとに異なる。たとえば、図9に示した音声処理装置10においては、対応テーブル360において、周波数iにおける遠端騒音成分の大きさNfiと、補正量Aiと、を対応付けておく。また、図12に示した音声処理装置10においては、対応テーブル360において、周波数iにおける遠端騒音成分に対する近端騒音成分の比率NNRiと、補正量Aiと、を対応付けておく。
Note that items associated with the correction amount Ai in the correspondence table 360 differ for each of the above-described embodiments. For example, in the
以上説明したように、開示の音声処理装置、音声処理方法および電話装置は、帯域拡張の効果と副作用のバランスを左右する近端音声成分や遠端音声成分に基づく補正量によって遠端音声信号の拡張帯域成分のパワーを補正する。これにより、帯域拡張の効果と副作用のバランスを調整し、遠端音声信号に基づいて再生される音声の質を向上させることができる。 As described above, the disclosed speech processing device, speech processing method, and telephone device are capable of the far-end speech signal based on the correction amount based on the near-end speech component and the far-end speech component that affects the balance between the effect of bandwidth expansion and the side effect. Correct the power of the extended band component. Thereby, the balance between the effect of band expansion and the side effect can be adjusted, and the quality of sound reproduced based on the far-end sound signal can be improved.
上述した各実施の形態に関し、さらに以下の付記を開示する。 The following additional notes are disclosed with respect to the above-described embodiments.
(付記1)狭帯域化された入力信号から複数の周波数帯域に変換された音声信号を取得する音声信号取得手段と、
前記音声信号取得手段によって取得された音声信号の狭帯域成分に基づいて、前記音声信号の帯域を拡張する拡張帯域成分を生成する拡張手段と、
前記拡張帯域成分のパワーを、前記音声信号取得手段によって取得された音声信号に含まれる騒音成分に基づいて定まる補正量によって補正する補正手段と、
前記補正手段によって補正された前記拡張帯域成分と前記音声信号取得手段により取得された音声信号の狭帯域成分とに基づいて、帯域を拡張された音声信号を出力する出力手段と、
を備えることを特徴とする音声処理装置。
(Additional remark 1) The audio | voice signal acquisition means which acquires the audio | voice signal converted into the several frequency band from the narrowed input signal,
Expansion means for generating an extended band component for extending the band of the audio signal based on the narrowband component of the audio signal acquired by the audio signal acquisition means;
Correction means for correcting the power of the extension band component by a correction amount determined based on a noise component included in the audio signal acquired by the audio signal acquisition means;
An output means for outputting an audio signal whose band is expanded based on the extended band component corrected by the correction means and the narrow band component of the audio signal acquired by the audio signal acquisition means;
An audio processing apparatus comprising:
(付記2)前記音声信号取得手段は、
狭帯域化された第一音声信号を取得する第一取得手段と、
前記第一音声信号を再生する再生機器の周辺の音声を示す第二音声信号を取得する第二取得手段と、
を有し、
前記拡張手段は、
前記音声信号取得手段により取得された音声信号として、前記第一取得手段により取得された前記第一音声信号を用い、
前記補正手段は、
前記音声信号取得手段によって取得された音声信号に含まれる騒音成分として、前記第二取得手段により取得された第二音声信号に含まれる騒音成分を用い、
前記出力手段は、
前記音声信号取得手段により取得された音声信号として、前記第一取得手段により取得された前記第一音声信号を用いることを特徴とする付記1に記載の音声処理装置。
(Appendix 2) The audio signal acquisition means includes:
First acquisition means for acquiring a first audio signal having a narrowed bandwidth;
Second acquisition means for acquiring a second audio signal indicating the sound around the playback device for reproducing the first audio signal;
Have
The expansion means includes
Using the first audio signal acquired by the first acquisition unit as the audio signal acquired by the audio signal acquisition unit,
The correction means includes
Using the noise component included in the second audio signal acquired by the second acquisition unit as the noise component included in the audio signal acquired by the audio signal acquisition unit,
The output means includes
The audio processing apparatus according to
(付記3)前記補正手段は、前記拡張帯域成分に含まれる複数の周波数ごとに、前記第二取得手段により取得された第二音声信号に基づいて定まる補正量により補正することを特徴とする付記2に記載の音声処理装置。 (Additional remark 3) The said correction | amendment means correct | amends for every several frequency contained in the said extension band component by the correction amount determined based on the 2nd audio | voice signal acquired by the said 2nd acquisition means. 2. The speech processing apparatus according to 2.
(付記4)前記出力手段は、前記拡張帯域成分と前記狭帯域成分との境界付近の所定幅の帯域成分について当該帯域における周波数ごとに定まる補正量により補正された音声信号を出力することを特徴とする付記1〜3のいずれか一つに記載の音声処理装置。
(Additional remark 4) The said output means outputs the audio | voice signal correct | amended by the correction amount decided for every frequency in the said band about the band component of the predetermined width | variety vicinity of the boundary of the said extended band component and the said narrow band component. The speech processing apparatus according to any one of
(付記5)前記補正手段は、前記第二取得手段により取得された第二音声信号に含まれる騒音成分の大きさに基づく補正量により補正することを特徴とする付記2または3に記載の音声処理装置。
(Additional remark 5) The said correction | amendment means correct | amends with the correction amount based on the magnitude | size of the noise component contained in the 2nd audio | voice signal acquired by said 2nd acquisition means, The audio | voice of
(付記6)前記補正手段は、前記第一取得手段によって取得された第一音声信号に含まれる騒音成分と、前記第二音声信号に含まれる騒音成分と、の比率に基づく補正量により補正することを特徴とする付記2または3に記載の音声処理装置。
(Additional remark 6) The said correction | amendment means correct | amends by the correction amount based on the ratio of the noise component contained in the 1st audio | voice signal acquired by said 1st acquisition means, and the noise component contained in the said 2nd audio | voice signal. The speech processing apparatus according to
(付記7)前記補正手段は、前記騒音成分と、前記第一取得手段によって取得された第一音声信号に含まれる音声成分と、の比率に基づく補正量により補正することを特徴とする付記2または3に記載の音声処理装置。
(Additional remark 7) The said correction means correct | amends with the correction amount based on the ratio of the said noise component and the audio | voice component contained in the 1st audio | voice signal acquired by said 1st acquisition means, The
(付記8)前記補正手段は、前記騒音成分の定常性に基づく補正量により補正することを特徴とする付記1〜7のいずれか一つに記載の音声処理装置。 (Additional remark 8) The said correction | amendment means correct | amends with the correction amount based on the continuity of the said noise component, The audio processing apparatus as described in any one of additional marks 1-7 characterized by the above-mentioned.
(付記9)前記補正手段は、前記第一音声信号および前記第二音声信号に含まれる各騒音成分の類似性に基づく補正量により補正することを特徴とする付記2または3に記載の音声処理装置。
(Additional remark 9) The said correction | amendment means correct | amends with the correction amount based on the similarity of each noise component contained in said 1st audio | voice signal and said 2nd audio | voice signal, The audio | voice processing of
(付記10)音声信号を取得する音声信号取得工程と、
前記音声信号取得工程によって取得された音声信号の狭帯域成分に基づいて、前記音声信号の帯域を拡張する拡張帯域成分を生成する拡張工程と、
前記拡張帯域成分のパワーを、前記音声信号取得工程によって取得された音声信号に含まれる騒音成分に基づいて定まる補正量によって補正する補正工程と、
前記補正工程によって補正された前記拡張帯域成分と前記音声信号取得工程により取得された音声信号の狭帯域成分とに基づいて、帯域を拡張された音声信号を出力する出力工程と、
を含むことを特徴とする音声処理方法。
(Additional remark 10) The audio | voice signal acquisition process which acquires an audio | voice signal,
An expansion step for generating an extended band component for extending the band of the audio signal based on the narrow band component of the audio signal acquired by the audio signal acquisition step;
A correction step of correcting the power of the extension band component by a correction amount determined based on a noise component included in the audio signal acquired by the audio signal acquisition step;
An output step of outputting an audio signal whose band is extended based on the extended band component corrected by the correction step and the narrowband component of the audio signal acquired by the audio signal acquisition step;
A speech processing method comprising:
(付記11)ネットワークを介して第一音声信号を受信する受信手段と、
前記受信手段によって受信された第一音声信号を取得する第一取得手段と、
前記第一取得手段によって取得された第一音声信号の狭帯域成分に基づいて、前記第一音声信号の帯域を拡張する拡張帯域成分を生成する拡張手段と、
前記第一音声信号を再生する再生機器の周辺の音声を示す第二音声信号を取得する第二取得手段と、
前記拡張手段によって生成された前記拡張帯域成分のパワーを、前記第二取得手段によって取得された第二音声信号に含まれる騒音成分に基づいて定まる補正量により補正する補正手段と、
前記補正手段によって補正された前記拡張帯域成分と前記第一音声信号の狭帯域成分とに基づいて、帯域を拡張された音声信号を前記再生機器へ出力する出力手段と、
前記第二取得手段によって取得された第二音声信号を、ネットワークを介して送信する送信手段と、
を備えることを特徴とする電話装置。
(Additional remark 11) The receiving means which receives a 1st audio | voice signal via a network,
First acquisition means for acquiring a first audio signal received by the reception means;
Expansion means for generating an extended band component for extending the band of the first audio signal based on the narrowband component of the first audio signal acquired by the first acquisition means;
Second acquisition means for acquiring a second audio signal indicating the sound around the playback device for reproducing the first audio signal;
Correction means for correcting the power of the extension band component generated by the extension means by a correction amount determined based on a noise component included in the second audio signal acquired by the second acquisition means;
An output means for outputting an audio signal whose band is extended to the playback device based on the extended band component corrected by the correction means and the narrowband component of the first audio signal;
Transmitting means for transmitting the second audio signal acquired by the second acquiring means via a network;
A telephone device comprising:
21 帯域成分
22 帯域
31,32 拡張帯域成分
70,81,82 携帯電話装置
80 通信システム
83,84 基地局
85 ネットワーク
21
Claims (6)
前記音声信号取得手段によって取得された音声信号の狭帯域成分に基づいて、前記音声信号の帯域を拡張する拡張帯域成分を生成する拡張手段と、
前記拡張帯域成分のパワーを、前記音声信号取得手段によって取得された音声信号に含まれる騒音成分に基づいて定まる補正量によって補正する補正手段と、
前記補正手段によって補正された前記拡張帯域成分と前記音声信号取得手段により取得された音声信号の狭帯域成分とに基づいて、帯域を拡張された音声信号を出力する出力手段と、
を備え、
前記音声信号取得手段は、
狭帯域化された第一音声信号を取得する第一取得手段と、
前記第一音声信号を再生する再生機器の周辺の音声を示す第二音声信号を取得する第二取得手段と、
を有し、
前記拡張手段は、
前記音声信号取得手段により取得された音声信号として、前記第一取得手段により取得された前記第一音声信号を用い、
前記補正手段は、
前記音声信号取得手段によって取得された音声信号に含まれる騒音成分として、前記第二取得手段により取得された第二音声信号に含まれる騒音成分を用い、
前記第一音声信号に含まれる騒音成分と、前記第二音声信号に含まれる騒音成分と、の比率に基づく補正量、
または前記第二音声信号に含まれる騒音成分と、前記第一音声信号に含まれる音声成分と、の比率に基づく補正量、
または前記第一音声信号および前記第二音声信号に含まれる各騒音成分の類似性に基づく補正量、
によって前記拡張帯域成分のパワーを補正し、
前記出力手段は、
前記音声信号取得手段により取得された音声信号として、前記第一取得手段により取得された前記第一音声信号を用いることを特徴とする音声処理装置。 Audio signal acquisition means for acquiring an audio signal converted into a plurality of frequency bands from the narrowed input signal;
Expansion means for generating an extended band component for extending the band of the audio signal based on the narrowband component of the audio signal acquired by the audio signal acquisition means;
Correction means for correcting the power of the extension band component by a correction amount determined based on a noise component included in the audio signal acquired by the audio signal acquisition means;
An output means for outputting an audio signal whose band is expanded based on the extended band component corrected by the correction means and the narrow band component of the audio signal acquired by the audio signal acquisition means;
Equipped with a,
The audio signal acquisition means is
First acquisition means for acquiring a first audio signal having a narrowed bandwidth;
Second acquisition means for acquiring a second audio signal indicating the sound around the playback device for reproducing the first audio signal;
Have
The expansion means includes
Using the first audio signal acquired by the first acquisition unit as the audio signal acquired by the audio signal acquisition unit,
The correction means includes
Using the noise component included in the second audio signal acquired by the second acquisition unit as the noise component included in the audio signal acquired by the audio signal acquisition unit,
A correction amount based on a ratio between a noise component included in the first audio signal and a noise component included in the second audio signal;
Or a correction amount based on the ratio between the noise component included in the second audio signal and the audio component included in the first audio signal;
Or a correction amount based on the similarity of each noise component included in the first audio signal and the second audio signal,
The power of the extension band component is corrected by
The output means includes
An audio processing apparatus using the first audio signal acquired by the first acquisition unit as the audio signal acquired by the audio signal acquisition unit .
前記音声信号取得工程によって取得された音声信号の狭帯域成分に基づいて、前記音声信号の帯域を拡張する拡張帯域成分を生成する拡張工程と、An expansion step for generating an extended band component for extending the band of the audio signal based on the narrow band component of the audio signal acquired by the audio signal acquisition step;
前記拡張帯域成分のパワーを、前記音声信号取得工程によって取得された音声信号に含まれる騒音成分に基づいて定まる補正量によって補正する補正工程と、A correction step of correcting the power of the extension band component by a correction amount determined based on a noise component included in the audio signal acquired by the audio signal acquisition step;
前記補正工程によって補正された前記拡張帯域成分と前記音声信号取得工程により取得された音声信号の狭帯域成分とに基づいて、帯域を拡張された音声信号を出力する出力工程と、An output step of outputting an audio signal whose band is extended based on the extended band component corrected by the correction step and the narrowband component of the audio signal acquired by the audio signal acquisition step;
を含み、Including
前記音声信号取得工程は、The audio signal acquisition step includes
狭帯域化された第一音声信号を取得する第一取得工程と、A first acquisition step of acquiring a narrowed first audio signal;
前記第一音声信号を再生する再生機器の周辺の音声を示す第二音声信号を取得する第二取得工程と、A second acquisition step of acquiring a second audio signal indicating audio around the playback device for reproducing the first audio signal;
を有し、Have
前記拡張工程では、In the expansion step,
前記音声信号取得工程により取得された音声信号として、前記第一取得工程により取得された前記第一音声信号を用い、As the audio signal acquired by the audio signal acquisition step, using the first audio signal acquired by the first acquisition step,
前記補正工程では、In the correction step,
前記音声信号取得工程によって取得された音声信号に含まれる騒音成分として、前記第二取得工程により取得された第二音声信号に含まれる騒音成分を用い、Using the noise component included in the second audio signal acquired by the second acquisition step as the noise component included in the audio signal acquired by the audio signal acquisition step,
前記第一音声信号に含まれる騒音成分と、前記第二音声信号に含まれる騒音成分と、の比率に基づく補正量、A correction amount based on a ratio between a noise component included in the first audio signal and a noise component included in the second audio signal;
または前記第二音声信号に含まれる騒音成分と、前記第一音声信号に含まれる音声成分と、の比率に基づく補正量、Or a correction amount based on the ratio between the noise component included in the second audio signal and the audio component included in the first audio signal;
または前記第一音声信号および前記第二音声信号に含まれる各騒音成分の類似性に基づく補正量、Or a correction amount based on the similarity of each noise component included in the first audio signal and the second audio signal,
によって前記拡張帯域成分のパワーを補正し、The power of the extension band component is corrected by
前記出力工程では、In the output step,
前記音声信号取得工程により取得された音声信号として、前記第一取得工程により取得された前記第一音声信号を用いることを特徴とする音声処理方法。The audio processing method, wherein the first audio signal acquired in the first acquisition step is used as the audio signal acquired in the audio signal acquisition step.
前記受信手段によって受信された第一音声信号を取得する第一取得手段と、First acquisition means for acquiring a first audio signal received by the reception means;
前記第一取得手段によって取得された第一音声信号の狭帯域成分に基づいて、前記第一音声信号の帯域を拡張する拡張帯域成分を生成する拡張手段と、Expansion means for generating an extended band component for extending the band of the first audio signal based on the narrowband component of the first audio signal acquired by the first acquisition means;
前記第一音声信号を再生する再生機器の周辺の音声を示す第二音声信号を取得する第二取得手段と、Second acquisition means for acquiring a second audio signal indicating the sound around the playback device for reproducing the first audio signal;
前記拡張手段によって生成された前記拡張帯域成分のパワーを、前記第二取得手段によって取得された第二音声信号に含まれる騒音成分に基づいて定まる補正量により補正する補正手段と、Correction means for correcting the power of the extension band component generated by the extension means by a correction amount determined based on a noise component included in the second audio signal acquired by the second acquisition means;
前記補正手段によって補正された前記拡張帯域成分と前記第一音声信号の狭帯域成分とに基づいて、帯域を拡張された音声信号を前記再生機器へ出力する出力手段と、An output means for outputting an audio signal whose band is extended to the playback device based on the extended band component corrected by the correction means and the narrowband component of the first audio signal;
前記第二取得手段によって取得された第二音声信号を、ネットワークを介して送信する送信手段と、Transmitting means for transmitting the second audio signal acquired by the second acquiring means via a network;
を備え、With
前記補正手段は、The correction means includes
前記第一音声信号に含まれる騒音成分と、前記第二音声信号に含まれる騒音成分と、の比率に基づく補正量、A correction amount based on a ratio between a noise component included in the first audio signal and a noise component included in the second audio signal;
または前記第二音声信号に含まれる騒音成分と、前記第一音声信号に含まれる音声成分と、の比率に基づく補正量、Or a correction amount based on the ratio between the noise component included in the second audio signal and the audio component included in the first audio signal;
または前記第一音声信号および前記第二音声信号に含まれる各騒音成分の類似性に基づく補正量、Or a correction amount based on the similarity of each noise component included in the first audio signal and the second audio signal,
によって前記拡張帯域成分のパワーを補正することを特徴とする電話装置。The power of the extension band component is corrected by the telephone device.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010160346A JP5589631B2 (en) | 2010-07-15 | 2010-07-15 | Voice processing apparatus, voice processing method, and telephone apparatus |
US13/072,992 US9070372B2 (en) | 2010-07-15 | 2011-03-28 | Apparatus and method for voice processing and telephone apparatus |
EP20110160750 EP2407966A1 (en) | 2010-07-15 | 2011-03-31 | Method and Apparatuses for bandwidth expansion for voice communication |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010160346A JP5589631B2 (en) | 2010-07-15 | 2010-07-15 | Voice processing apparatus, voice processing method, and telephone apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012022166A JP2012022166A (en) | 2012-02-02 |
JP5589631B2 true JP5589631B2 (en) | 2014-09-17 |
Family
ID=44170027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010160346A Expired - Fee Related JP5589631B2 (en) | 2010-07-15 | 2010-07-15 | Voice processing apparatus, voice processing method, and telephone apparatus |
Country Status (3)
Country | Link |
---|---|
US (1) | US9070372B2 (en) |
EP (1) | EP2407966A1 (en) |
JP (1) | JP5589631B2 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5589631B2 (en) * | 2010-07-15 | 2014-09-17 | 富士通株式会社 | Voice processing apparatus, voice processing method, and telephone apparatus |
JP6277739B2 (en) | 2014-01-28 | 2018-02-14 | 富士通株式会社 | Communication device |
FR3017484A1 (en) * | 2014-02-07 | 2015-08-14 | Orange | ENHANCED FREQUENCY BAND EXTENSION IN AUDIO FREQUENCY SIGNAL DECODER |
US10375487B2 (en) | 2016-08-17 | 2019-08-06 | Starkey Laboratories, Inc. | Method and device for filtering signals to match preferred speech levels |
CN107087069B (en) * | 2017-04-19 | 2020-02-28 | 维沃移动通信有限公司 | Voice communication method and mobile terminal |
US10553235B2 (en) * | 2017-08-28 | 2020-02-04 | Apple Inc. | Transparent near-end user control over far-end speech enhancement processing |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU633673B2 (en) | 1990-01-18 | 1993-02-04 | Matsushita Electric Industrial Co., Ltd. | Signal processing device |
JP2830276B2 (en) | 1990-01-18 | 1998-12-02 | 松下電器産業株式会社 | Signal processing device |
FI102337B1 (en) * | 1995-09-13 | 1998-11-13 | Nokia Mobile Phones Ltd | Method and circuit arrangement for processing an audio signal |
JP3301473B2 (en) | 1995-09-27 | 2002-07-15 | 日本電信電話株式会社 | Wideband audio signal restoration method |
SE9903553D0 (en) | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing conceptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
US20020172350A1 (en) * | 2001-05-15 | 2002-11-21 | Edwards Brent W. | Method for generating a final signal from a near-end signal and a far-end signal |
JP2003070097A (en) * | 2001-08-24 | 2003-03-07 | Matsushita Electric Ind Co Ltd | Digital hearing aid device |
JP2003255973A (en) | 2002-02-28 | 2003-09-10 | Nec Corp | Speech band expansion system and method therefor |
US7283585B2 (en) * | 2002-09-27 | 2007-10-16 | Broadcom Corporation | Multiple data rate communication system |
US20040138876A1 (en) * | 2003-01-10 | 2004-07-15 | Nokia Corporation | Method and apparatus for artificial bandwidth expansion in speech processing |
WO2004090870A1 (en) * | 2003-04-04 | 2004-10-21 | Kabushiki Kaisha Toshiba | Method and apparatus for encoding or decoding wide-band audio |
JP2005101917A (en) | 2003-09-25 | 2005-04-14 | Matsushita Electric Ind Co Ltd | Telephone device |
US7461003B1 (en) * | 2003-10-22 | 2008-12-02 | Tellabs Operations, Inc. | Methods and apparatus for improving the quality of speech signals |
JP4520732B2 (en) | 2003-12-03 | 2010-08-11 | 富士通株式会社 | Noise reduction apparatus and reduction method |
US8712768B2 (en) * | 2004-05-25 | 2014-04-29 | Nokia Corporation | System and method for enhanced artificial bandwidth expansion |
EP1814106B1 (en) * | 2005-01-14 | 2009-09-16 | Panasonic Corporation | Audio switching device and audio switching method |
US8135728B2 (en) * | 2005-03-24 | 2012-03-13 | Microsoft Corporation | Web document keyword and phrase extraction |
CN102411935B (en) * | 2005-04-01 | 2014-05-07 | 高通股份有限公司 | Method and apparatus of anti-sparseness filtering for wideband extension speech predication excitation signal |
US7813931B2 (en) * | 2005-04-20 | 2010-10-12 | QNX Software Systems, Co. | System for improving speech quality and intelligibility with bandwidth compression/expansion |
US7546237B2 (en) * | 2005-12-23 | 2009-06-09 | Qnx Software Systems (Wavemakers), Inc. | Bandwidth extension of narrowband speech |
JP4735419B2 (en) | 2006-05-30 | 2011-07-27 | 日本キャステム株式会社 | Voice communication device |
JP4733727B2 (en) | 2007-10-30 | 2011-07-27 | 日本電信電話株式会社 | Voice musical tone pseudo-wideband device, voice musical tone pseudo-bandwidth method, program thereof, and recording medium thereof |
US20090144262A1 (en) * | 2007-12-04 | 2009-06-04 | Microsoft Corporation | Search query transformation using direct manipulation |
US8433582B2 (en) | 2008-02-01 | 2013-04-30 | Motorola Mobility Llc | Method and apparatus for estimating high-band energy in a bandwidth extension system |
US8275139B2 (en) * | 2008-03-26 | 2012-09-25 | Ittiam Systems (P) Ltd. | Linear full duplex system and method for acoustic echo cancellation |
US9196258B2 (en) * | 2008-05-12 | 2015-11-24 | Broadcom Corporation | Spectral shaping for speech intelligibility enhancement |
US9197181B2 (en) * | 2008-05-12 | 2015-11-24 | Broadcom Corporation | Loudness enhancement system and method |
JP5453740B2 (en) * | 2008-07-02 | 2014-03-26 | 富士通株式会社 | Speech enhancement device |
JP5127754B2 (en) * | 2009-03-24 | 2013-01-23 | 株式会社東芝 | Signal processing device |
US8571231B2 (en) * | 2009-10-01 | 2013-10-29 | Qualcomm Incorporated | Suppressing noise in an audio signal |
US8321215B2 (en) * | 2009-11-23 | 2012-11-27 | Cambridge Silicon Radio Limited | Method and apparatus for improving intelligibility of audible speech represented by a speech signal |
US20110125494A1 (en) * | 2009-11-23 | 2011-05-26 | Cambridge Silicon Radio Limited | Speech Intelligibility |
US8489393B2 (en) * | 2009-11-23 | 2013-07-16 | Cambridge Silicon Radio Limited | Speech intelligibility |
JP5589631B2 (en) * | 2010-07-15 | 2014-09-17 | 富士通株式会社 | Voice processing apparatus, voice processing method, and telephone apparatus |
-
2010
- 2010-07-15 JP JP2010160346A patent/JP5589631B2/en not_active Expired - Fee Related
-
2011
- 2011-03-28 US US13/072,992 patent/US9070372B2/en not_active Expired - Fee Related
- 2011-03-31 EP EP20110160750 patent/EP2407966A1/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
EP2407966A1 (en) | 2012-01-18 |
US9070372B2 (en) | 2015-06-30 |
US20120016669A1 (en) | 2012-01-19 |
JP2012022166A (en) | 2012-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7792680B2 (en) | Method for extending the spectral bandwidth of a speech signal | |
JP5589631B2 (en) | Voice processing apparatus, voice processing method, and telephone apparatus | |
JP6281336B2 (en) | Speech decoding apparatus and program | |
JP5535241B2 (en) | Audio signal restoration apparatus and audio signal restoration method | |
JP6073456B2 (en) | Speech enhancement device | |
JP5223786B2 (en) | Voice band extending apparatus, voice band extending method, voice band extending computer program, and telephone | |
US20150120307A1 (en) | Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program | |
US8804980B2 (en) | Signal processing method and apparatus, and recording medium in which a signal processing program is recorded | |
JP4018571B2 (en) | Speech enhancement device | |
JPWO2011121782A1 (en) | Bandwidth expansion device and bandwidth expansion method | |
JP4738213B2 (en) | Gain adjusting method and gain adjusting apparatus | |
JP6162254B2 (en) | Apparatus and method for improving speech intelligibility in background noise by amplification and compression | |
US10147434B2 (en) | Signal processing device and signal processing method | |
JP5232121B2 (en) | Signal processing device | |
JP2008309955A (en) | Noise suppresser | |
JP4922427B2 (en) | Signal correction device | |
JP4227421B2 (en) | Speech enhancement device and portable terminal | |
WO2021200151A1 (en) | Transmission device, transmission method, reception device, and reception method | |
JP2004070240A (en) | Device, method, and program for time-base companding of audio signal | |
JP5338962B2 (en) | Bandwidth expansion device, method and program, and telephone terminal | |
JP2018037736A (en) | Signal processor and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130507 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131030 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140701 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140714 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5589631 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |