KR102557092B1 - Automatic interpretation and translation and dialogue assistance system using transparent display - Google Patents

Automatic interpretation and translation and dialogue assistance system using transparent display Download PDF

Info

Publication number
KR102557092B1
KR102557092B1 KR1020220150167A KR20220150167A KR102557092B1 KR 102557092 B1 KR102557092 B1 KR 102557092B1 KR 1020220150167 A KR1020220150167 A KR 1020220150167A KR 20220150167 A KR20220150167 A KR 20220150167A KR 102557092 B1 KR102557092 B1 KR 102557092B1
Authority
KR
South Korea
Prior art keywords
voice
transparent display
text
output
unit
Prior art date
Application number
KR1020220150167A
Other languages
Korean (ko)
Inventor
한범수
김석찬
최은수
김운
Original Assignee
주식회사 디엠티랩스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 디엠티랩스 filed Critical 주식회사 디엠티랩스
Priority to KR1020220150167A priority Critical patent/KR102557092B1/en
Application granted granted Critical
Publication of KR102557092B1 publication Critical patent/KR102557092B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/326Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S715/00Data processing: presentation processing of document, operator interface processing, and screen saver display processing
    • Y10S715/978Audio interaction as part of an operator interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Otolaryngology (AREA)
  • Machine Translation (AREA)

Abstract

The present invention relates to an automatic interpretation and translation and dialogue assistance system, and specifically, to an automatic interpretation and translation and dialogue assistance system using a transparent display which interprets and translates dialogues bilaterally recognized to provide a dialogue text constituting a preset pair of languages. To this end, the automatic interpretation and translation and dialogue assistance system using a transparent display comprises: a recognition unit which classifies a voice in a first language spoken in one direction and a voice in a second language spoken in the other direction for each speaker; a text generation unit which generates a sentence text for each time when analyzing the voices in the first and second languages through deep learning-based artificial intelligence and creates a dialogue window list based on the same; a translation derivation unit which derives first and second translated texts when any one among a preset rule-based, pattern-based, statistics-based, and artificial intelligence-based translators is embedded therein, and the dialogue window list is individually translated in preset languages by using the translator; and an integrated control unit which, based on time and speaker information checked from the dialogue window list, sequentially selects a pair of subtitles for output from the first and second translated texts to display the same in different output directions through the transparent display.

Description

투명 디스플레이를 이용한 자동 통번역 및 대화 보조 시스템{AUTOMATIC INTERPRETATION AND TRANSLATION AND DIALOGUE ASSISTANCE SYSTEM USING TRANSPARENT DISPLAY}Automatic translation and conversation assistance system using a transparent display {AUTOMATIC INTERPRETATION AND TRANSLATION AND DIALOGUE ASSISTANCE SYSTEM USING TRANSPARENT DISPLAY}

본 발명은 자동 통번역 및 대화 보조 시스템에 관한 것으로서, 양방향으로 인식된 대화를 통역 및 번역하여 기설정된 한쌍의 언어로 구성된 대화텍스트를 제공할 수 있는 투명 디스플레이를 이용한 자동 통번역 및 대화 보조 시스템에 관한 것이다.The present invention relates to an automatic interpretation/translation and dialogue assistance system, and more particularly to an automatic interpretation/translation and dialogue assistance system using a transparent display capable of interpreting and translating a conversation recognized in both directions to provide dialogue text composed of a pair of predetermined languages. .

세계적으로 소통의 기회가 넓어진만큼 번역의 필요성이 날이 갈수록 중요해지고 있다. As the opportunity for communication has expanded globally, the need for translation is becoming more and more important day by day.

특히, 팬데믹 이후 침체되었던 외국인 관광 및 이주에 따라 각국의 관공서나 은행, 호텔 등 기관에서의 외국인 응대가 많아짐에 따라 소통의 어려움을 호소하는 경우가 많다. In particular, as foreign tourism and migration, which have been stagnant since the pandemic, have increased responses to foreigners in government offices, banks, hotels, and other institutions in each country, many complain of difficulties in communication.

현재 출시되는 자동 통역 및 번역장치는 외국인과 대화를 할 경우, 자국어를 외국어로 번역하는 장치와 외국어를 자국어로 번역해 주는 장치가 독립적으로 작동하여 외국인의 대화를 자국어로, 자신의 대화를 외국어로 독립적으로 번역을 하여 상대방의 대화 내용에는 상관없이 번역 대상 문장을 독립적으로 번역을 한다.In the currently released automatic interpretation and translation devices, when you have a conversation with a foreigner, the device that translates the native language into the foreign language and the device that translates the foreign language into the native language work independently, so that the foreigner's conversation is translated into the native language and your own conversation into the foreign language. By performing independent translation, the translation target sentence is independently translated regardless of the conversation content of the other party.

이에 따라, 본 발명에서는 오프라인에서 양방향으로 동시에 소통이 가능한 투명 디스플레이를 이용한 자동 통번역 및 대화 보조 시스템을 제공하고자 한다.Accordingly, an object of the present invention is to provide an automatic interpretation/translation and conversation assistance system using a transparent display capable of simultaneously communicating in both directions off-line.

(0001) 한국공개특허 10-2002-0076044호(2002.10.09)(0001) Korean Patent Publication No. 10-2002-0076044 (2002.10.09)

본 발명은 상기와 같은 문제점을 해결하기 위한 것으로서, 본 발명의 목적은 양방향으로 인식된 대화를 통역 및 번역하여 기설정된 한쌍의 언어로 구성된 대화텍스트를 실시간 출력할 수 있는 자동 통번역 및 대화 보조 시스템을 제공하기 위한 것이다. The present invention has been made to solve the above problems, and an object of the present invention is to provide an automatic interpretation/translation and conversation assistance system capable of interpreting and translating a conversation recognized in both directions and outputting a conversation text composed of a pair of predetermined languages in real time. is to provide

또한, 화자의 투명 디스플레이를 통해 한쌍의 출력용자막 이후에 출력되는 다음자막의 페이지 전환속도를 조절할 수 있는 자동 통번역 및 대화 보조 시스템을 제공하기 위한 것이다. In addition, it is to provide an automatic interpretation/translation and dialogue assistance system capable of adjusting the page switching speed of the next subtitle output after a pair of output subtitles through a speaker's transparent display.

본 발명의 상기 및 다른 목적과 이점은 바람직한 실시예를 설명한 하기의 설명으로부터 분명해질 것이다.The above and other objects and advantages of the present invention will become apparent from the following description of preferred embodiments.

상기와 같은 목적을 달성하기 위한 본 발명의 일실시예에 따른 투명 디스플레이를 이용한 자동 통번역 및 대화 보조 시스템은 일방향에서 발화되는 제1 언어의 음성과 타방향에서 발화되는 제2 언어의 음성을 화자별로 구분하여 개별적으로 인식하는 인식부, 상기 제1 및 제2 언어의 음성을 딥러닝의 기반의 인공지능을 통해 분석함에 따라 시간별 문장텍스트를 생성하고 이를 토대로 대화창 리스트를 생성하는 텍스트생성부, 기설정된 규칙기반, 패턴기반, 통계기반 및 인공지능 기반 중 어느 하나의 번역기가 임베딩되고, 이를 이용하여 상기 대화창 리스트를 기설정된 언어들로 개별적으로 번역함에 따라 제1 및 제2 번역텍스트를 도출하는 번역도출부 및 상기 대화창 리스트로부터 확인되는 시간 및 화자정보에 기초하여, 상기 제1 및 제2 번역텍스트로부터 한쌍의 출력용자막을 순차적으로 선택하여 투명 디스플레이를 통해 서로 다른 출력방향으로 출력시키는 통합제어부를 포함하고, 상기 한쌍의 출력용자막은 서로 의미가 동일하게 번역되고 상기 제1 언어로 표시된 제1 출력용자막과 상기 제2 언어로 표시된 제2 출력용자막을 포함한다. In order to achieve the above object, an automatic interpretation/translation and conversation assistance system using a transparent display according to an embodiment of the present invention separates the voice of a first language spoken in one direction and the voice of a second language spoken in another direction for each speaker. A recognition unit that classifies and individually recognizes, a text generator that analyzes the voices of the first and second languages through artificial intelligence based on deep learning to generate time-specific sentence text and based on this, a text generator that creates a dialog list, Any one of rule-based, pattern-based, statistical-based, and artificial intelligence-based translators are embedded, and translation derivation for deriving first and second translated texts by individually translating the chat window list into preset languages using the embedded translator And an integrated control unit that sequentially selects a pair of subtitles for output from the first and second translated texts and outputs them in different output directions through a transparent display based on the time and speaker information identified from the window list and the dialog window list. , The pair of subtitles for output includes a first subtitle for output displayed in the first language and a second subtitle for output displayed in the second language and translated to have the same meaning.

실시예에 있어서, 상기 번역기는 복수의 분야별 맞춤형 번역기들을 포함하고, 상기 복수의 분야별 맞춤형 번역기들은 직업, 연령, 지역, 관심분야, 종교에 따라 불필요 단어들이 제거되고 최적화된 번역기들이다. In an embodiment, the translator includes a plurality of translators customized for each field, and the plurality of translators customized for each field are translators optimized by removing unnecessary words according to occupation, age, region, field of interest, and religion.

실시예에 있어서, 상기 인식부는 특정방향에서 발화되는 발화음성을 선택적으로 인식하기 위한 적어도 하나의 지향성마이크, 상기 발화음성을 대신할 입력텍스트를 입력받기 위한 적어도 하나의 입력장치, 상기 특정방향을 향해 촬영하여 한쌍의 화자영상을 획득하는 적어도 하나의 카메라, 상기 한쌍의 화자영상 중 어느 하나로부터 기설정된 표정 및 제스처 객체를 검출하는 검출모듈, 상기 제스처 객체에 대응되는 수화용 텍스트와 상기 기설정된 표정에 따라 긴급안내 텍스트를 메모리로부터 추출하는 텍스트추출모듈 및 상기 발화음성, 상기 입력텍스트 및 상기 수화용 텍스트에 발화시간과 화자방향을 표시한 식별코드를 부여하여 상기 메모리에 저장하는 식별모듈을 포함한다. In an embodiment, the recognizing unit includes at least one directional microphone for selectively recognizing spoken voice uttered in a specific direction, at least one input device for receiving input text to replace the utterance voice, and toward the specific direction. At least one camera that captures and acquires a pair of speaker images, a detection module that detects a preset facial expression and gesture object from any one of the pair of speaker images, and a sign language text corresponding to the gesture object and the preset facial expression. and a text extraction module that extracts the emergency guidance text from a memory and an identification module that assigns an identification code indicating a speech time and speaker direction to the spoken voice, the input text, and the sign language text and stores them in the memory.

실시예에 있어서, 상기 텍스트생성부는 상기 메모리에 기수집된 어휘단어사전을 학습하여 딥러닝 기반의 음성인식모델을 모델링하는 제1 모델링부, 상기 메모리에 기수집된 발음규칙을 학습하여 규칙 및 통계 기반의 음향모델을 모델링하는 제2 모델링부, 상기 제1 및 제2 언어의 음성을 음성인식 특징벡터에 따라 입력신호로 변환처리하는 신호처리부 및 상기 입력신호를 상기 음성인식모델과 상기 음향모델에 적용함에 따라 문자정보인 화자별 텍스트로 출력하고, 상기 식별코드에 따라 상기 입력텍스트 및 상기 수화용 텍스트를 화자별 텍스트에 병합하는 디코더를 포함한다. In an embodiment, the text generation unit learns the vocabulary word dictionary previously collected in the memory to model a deep learning-based speech recognition model, and the first modeling unit learns the pronunciation rules previously collected in the memory to obtain rules and statistics. A second modeling unit that models the based acoustic model, a signal processing unit that converts the voices of the first and second languages into input signals according to voice recognition feature vectors, and converts the input signals into the voice recognition model and the acoustic model. and a decoder for outputting character information as text for each speaker and merging the input text and the sign language text with the text for each speaker according to the identification code.

실시예에 있어서, 상기 통합제어부는 상기 인식부를 통해 인식된 상기 제1 및 제2 언어의 각 음성으로부터 분석되는 음성특성과 기설정된 기준샘플을 비교하는 비교부 및 상기 비교부를 통해 확인된 비교 결과에 기초하여, 상기 제1 및 제2 언어의 각 음성을 기준샘플의 음성특징에 따라 보정하는 음성보정부를 포함한다. In an embodiment, the integrated control unit compares voice characteristics analyzed from each of the voices of the first and second languages recognized through the recognition unit with a preset reference sample, and a comparison result confirmed through the comparison unit. and a voice corrector for correcting each voice of the first and second languages based on the voice characteristics of the reference sample.

실시예에 있어서, 상기 음성보정부는 상기 인식부를 통해 인식되는 묵음신호로부터 확인된 소음신호에 따라 노이즈 캔슬링 신호를 생성하고, 이를 토대로 상기 제1 및 제2 언어의 음성신호에 대한 노이즈를 필터링하는 필터링부 및 상기 묵음신호가 일정시간 동안 지속되는 경우, 상기 투명 디스플레이를 통해 상기 한쌍의 출력용자막에 대한 출력을 일시중지시키고 분위기 전환을 위한 힐링콘텐츠 영상을 대체하여 출력시키는 콘텐츠제공부를 포함하고, 상기 묵음신호는 상기 제1 및 제2 언어의 음성에 해당하는 주파수대역의 볼륨이 기설정된 시간동안 인식받지 않는 동안에 상기 인식부를 통해 인식된 특정주파수 대역의 반복적인 소음신호를 포함한다. In an embodiment, the voice correction unit generates a noise canceling signal according to a noise signal identified from the silence signal recognized through the recognition unit, and filters noise for the first and second language voice signals based on the noise canceling signal. and a content providing unit for temporarily pausing the output of the pair of output subtitles through the transparent display and replacing and outputting a healing content image for changing the atmosphere when the mute signal and the mute signal last for a certain period of time, and the mute The signal includes a repetitive noise signal of a specific frequency band recognized through the recognition unit while the volume of the frequency band corresponding to the voice of the first and second languages is not recognized for a predetermined time.

실시예에 있어서, 상기 통합제어부는 상기 투명 디스플레이에 배치된 거리측정센서를 통해 측정된 화자별 거리정보에 기초하여, 상기 투명 디스플레이에 대한 상기 한쌍의 출력용자막의 출력면적을 서로 다른 면적비율로 조절한다. In an embodiment, the integrated control unit adjusts the output area of the pair of subtitles for output on the transparent display to different area ratios based on distance information for each speaker measured through a distance measuring sensor disposed on the transparent display. do.

실시예에 있어서, 상기 통합제어부는 상기 한쌍의 출력용자막을 출력시키기 이전에 간이 시력 검사표를 출력함에 따라 피드백받는 응답신호에 기초하여 화자시력을 추정하고, 이를 기초로 한쌍의 출력용자막에 대한 각 글씨체 확대비율을 자동으로 조절한다. In an embodiment, the integrated control unit estimates the visual acuity of a speaker based on a feedback response signal as a simple visual acuity test table is output prior to outputting the pair of subtitles for output, and each font for the pair of subtitles for output is based on this estimate Automatically adjusts the zoom ratio.

실시예에 있어서, 상기 통합제어부는 상기 투명 디스플레이에 배치된 아이트래커 모듈을 통해 측정된 안구운동 데이터에 기초하여, 상기 한쌍의 출력용자막 이후에 출력되는 다음자막의 페이지 전환속도를 조절한다.In an embodiment, the integrated control unit adjusts a page switching speed of the next subtitle output after the pair of output subtitles based on eye movement data measured through an eye tracker module disposed on the transparent display.

본 발명의 실시예에 따르면, 양방향으로 인식된 대화를 통역 및 번역하여 기설정된 한쌍의 언어로 구성된 대화텍스트를 실시간으로 출력함으로써, 통번역에 따른 소통을 보다 빠르게 진행할 수 있다. According to an embodiment of the present invention, by interpreting and translating a conversation recognized in both directions and outputting a dialogue text composed of a pair of predetermined languages in real time, communication according to interpretation and translation can proceed more quickly.

또한, 화자의 투명 디스플레이를 통해 한쌍의 출력용자막 이후에 출력되는 다음자막의 페이지 전환속도를 조절함으로써, 소통을 보다 원할하게 지원할 수 있다. In addition, communication can be more smoothly supported by adjusting the page conversion speed of the next subtitle output after a pair of output subtitles through the speaker's transparent display.

도 1a는 본 발명의 실시예에 따른 자동 통번역 및 대화 보조 시스템(1000)을 개략적으로 나타내는 도이다.
도 1b는 도 1a의 자동 통번역 및 대화 보조 시스템(1000)에 대한 실시예를 보여주는 사진들이다.
도 2는 도 1의 인식부(100)를 구체적으로 나타내는 블록도이다.
도 3은 도 1의 텍스트생성부(200)의 실시예에 따른 블록도이다.
도 4는 도 1의 통합제어부(400)의 실시예에 따른 블록도이다.
1A is a diagram schematically illustrating an automatic translation and conversation assistance system 1000 according to an embodiment of the present invention.
FIG. 1B is pictures showing an embodiment of the automatic translation and conversation assistance system 1000 of FIG. 1A.
FIG. 2 is a block diagram showing the recognition unit 100 of FIG. 1 in detail.
FIG. 3 is a block diagram of the text generator 200 of FIG. 1 according to an embodiment.
FIG. 4 is a block diagram of the integrated control unit 400 of FIG. 1 according to an embodiment.

이하, 본 발명의 실시예와 도면을 참조하여 본 발명을 상세히 설명한다. 이들 실시예는 오로지 본 발명을 보다 구체적으로 설명하기 위해 예시적으로 제시한 것일 뿐, 본 발명의 범위가 이들 실시예에 의해 제한되지 않는다는 것은 당업계에서 통상의 지식을 가지는 자에 있어서 자명할 것이다.Hereinafter, the present invention will be described in detail with reference to embodiments and drawings of the present invention. These examples are only presented as examples to explain the present invention in more detail, and it will be apparent to those skilled in the art that the scope of the present invention is not limited by these examples. .

또한, 달리 정의하지 않는 한, 본 명세서에서 사용되는 모든 기술적 및 과학적 용어는 본 발명이 속하는 기술 분야의 숙련자에 의해 통상적으로 이해되는 바와 동일한 의미를 가지며, 상충되는 경우에는, 정의를 포함하는 본 명세서의 기재가 우선할 것이다.In addition, unless defined otherwise, all technical and scientific terms used herein have the same meaning as commonly understood by one of skill in the art to which this invention belongs, and in case of conflict, this specification including definitions of will take precedence.

도면에서 제안된 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. 그리고, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에서 기술한 "부"란, 특정 기능을 수행하는 하나의 단위 또는 블록을 의미한다.In order to clearly explain the proposed invention in the drawings, parts irrelevant to the description are omitted, and similar reference numerals are attached to similar parts throughout the specification. And, when a certain component is said to "include", this means that it may further include other components without excluding other components unless otherwise stated. Also, a “unit” described in the specification means one unit or block that performs a specific function.

각 단계들에 있어 식별부호(제1, 제2, 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 실시될 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 실시될 수도 있고 실질적으로 동시에 실시될 수도 있으며 반대의 순서대로 실시될 수도 있다. 도 1a는 본 발명의 실시예에 따른 자동 통번역 및 대화 보조 시스템(1000)을 개략적으로 나타내는 도이고, 도 1b는 도 1a의 자동 통번역 및 대화 보조 시스템(1000)에 대한 실시예를 보여주는 사진들이다. In each step, the identification code (first, second, etc.) is used for convenience of description, and the identification code does not describe the order of each step, and each step does not clearly describe a specific order in context. It may be performed differently from the order specified above. That is, each step may be performed in the same order as specified, may be performed substantially simultaneously, or may be performed in the reverse order. 1A is a diagram schematically illustrating an automatic translation and conversation assistance system 1000 according to an embodiment of the present invention, and FIG. 1B is pictures showing an embodiment of the automatic translation and conversation assistance system 1000 of FIG. 1A.

도 1a와 도 1b를 참조하여 설명하면, 자동 통번역 및 대화 보조 시스템(1000)은 인식부(100), 텍스트생성부(200), 번역도출부(300) 및 통합제어부(400)를 포함할 수 있다. Referring to FIGS. 1A and 1B , the automatic translation and conversation assistance system 1000 may include a recognition unit 100, a text generator 200, a translation derivation unit 300, and an integrated control unit 400. there is.

먼저, 인식부(100)는 일방향에서 발화되는 제1 언어의 음성과 타방향에서 발화되는 제2 언어의 음성을 화자별로 구분하여 개별적으로 인식할 수 있다. First, the recognition unit 100 may separately recognize the voice of a first language spoken in one direction and the voice of a second language spoken in another direction by speaker.

다음으로, 텍스트생성부(200)는 인식부(100)를 통해 순차적으로 인식되는 제1 및 제2 언어의 음성을 딥러닝 기반의 인공지능모델을 통해 분석함에 따라, 시간별 문장텍스트를 생성하고 이를 토대로 대화창 리스트를 생성할 수 있다. Next, the text generation unit 200 analyzes the voices of the first and second languages sequentially recognized through the recognition unit 100 through a deep learning-based artificial intelligence model, thereby generating time-specific sentence text and converting it to Based on this, you can create a dialog list.

여기서, 대화창 리스트는 일방향에 위치한 화자와 타방향에 위치한 화자 간의 시간별 문장텍스트들이 서로 구분되는 채팅창일 수 있다. Here, the chat window list may be a chat window in which sentence texts by time between a speaker located in one direction and a speaker located in another direction are distinguished from each other.

이때, 딥러닝 기반의 인공지능모델은 인공 신경 회로망(Artificial Neural Network), SVM(Support Vector Machine), 의사 결정 트리(Decision Tree) 및 랜덤 포레스트(Random Forest) 중 어느 하나의 알고리즘일 수 있다. 예를 들면, 인공 신경 회로망은 주로 딥러닝에서 사용되어 지고, 기계학습과 생물학의 신경망에서 영감을 얻은 통계학적 학습 알고리즘으로서, 특징 추출 신경망과 분류 신경망을 포함하는 컨볼루션 신경망일 수 있다. In this case, the deep learning-based artificial intelligence model may be any one algorithm of an artificial neural network, a support vector machine (SVM), a decision tree, and a random forest. For example, an artificial neural network is a statistical learning algorithm that is mainly used in deep learning and is inspired by neural networks in machine learning and biology, and may be a convolutional neural network including a feature extraction neural network and a classification neural network.

다음으로, 번역도출부(300)는 기설정된 규칙기반(Rule-Based Machine Translation: RBMT), 패턴기반, 통계기반(Statistical Machine Translation: SMT), 및 인공지능 기반(Neuronal Machine Translation: NMT) 중 어느 하나의 번역기가 임베딩되고, 이를 이용하여 대화창 리스트에서 검출되는 화자별 문장텍스트를 기설정된 언어로 개별적으로 번역함에 따라 제1 및 제2 번역텍스트를 도출할 수 있다.Next, the translation derivation unit 300 uses any one of rule-based machine translation (RBMT), pattern-based, statistical machine translation (SMT), and artificial intelligence-based (neuronal machine translation: NMT). One translator is embedded, and the first and second translated texts may be derived by individually translating the sentence text for each speaker detected in the chat window list into a preset language by using the embedded translator.

여기서, 번역기는 오프라인 상에서 제1 및 제2 번역텍스트를 도출하기 위하여, 기설정된 규칙기반(Rule-Based Machine Translation: RBMT), 패턴기반, 통계기반(Statistical Machine Translation: SMT) 및 인공지능 기반(Neuronal Machine Translation: NMT)의 번역 기술에서 필요로 하는 형태소 사전 데이터, 문법 사전 데이터, 문장 패턴 사전 데이터, 구(phase) 사전 데이터 및 병렬 코퍼스 데이터를 메모리(미도시)에 사전에 등록할 수 있다. Here, the translator uses preset rule-based machine translation (RBMT), pattern-based, statistical machine translation (SMT) and artificial intelligence-based (neuronal Morphological dictionary data, grammar dictionary data, sentence pattern dictionary data, phase dictionary data, and parallel corpus data required for machine translation (NMT) translation technology may be registered in a memory (not shown) in advance.

이러한 번역기는 복수의 분야별 맞춤형 번역기들을 포함할 수 있다. 구체적으로, 복수의 분야별 맞춤형 번역기들은 직업, 연령, 지역, 관심분야, 종교에 따라 불필요 단어들이 제거된 번역기들일 수 있다. 예를 들면, 이용자의 직업이 의사인 경우, 번역도출부(300)는 의학 용어로 최적화된 번역기를 이용하고, 이용자의 연령이 유아인 경우, 신조어 용어로 최적화된 번역기를 이용할 수 있다.Such a translator may include a plurality of field-specific customized translators. Specifically, the translators customized for each field may be translators from which unnecessary words are removed according to occupation, age, region, field of interest, or religion. For example, if the user's job is a doctor, the translation derivation unit 300 may use a translator optimized for medical terms, and if the user's age is an infant, a translator optimized for neologism terms may be used.

일 실시예에 따라, 대화창 리스트에서 검출되는 화자별 문장텍스트를 도메인 특화 기반의 번역기술을 통해 기설정된 언어로 개별적으로 번역함에 따라, 제1 및 제2 번역텍스트를 획득할 수도 있다. According to an embodiment, the first and second translated texts may be obtained by individually translating sentence texts for each speaker detected in the chat window list into a preset language through a domain-specialized translation technology.

여기서, 도메인 특화 기반의 번역기술은 transformer 기반의 인코딩 및 디코딩 알고리즘을 통해 화자별 문장텍스트를 기설정된 언어로 기계번역할 수 있다. Here, the domain-specialized translation technology can machine-translate each speaker's sentence text into a preset language through a transformer-based encoding and decoding algorithm.

다음으로, 통합제어부(400)는 대화창 리스트로부터 확인되는 시간 및 화자정보에 기초하여, 제1 및 제2 번역텍스트로부터 한쌍의 출력용자막을 선택하여 투명 디스플레이(10)를 통해 서로 다른 출력방향으로 출력시킬 수 있다. Next, the integrated control unit 400 selects a pair of subtitles for output from the first and second translation texts based on the time and speaker information checked from the dialog window list and outputs them in different output directions through the transparent display 10. can make it

여기서, 한쌍의 출력용자막은 서로 의미가 대응되도록 번역되는 문장텍스트로써, 일측에 위치한 화자에게 제공하기 위하여 제1 언어로 표시된 제1 출력용자막과 타측에 위치한 화자에게 제공하기 위하여 제2 언어로 표시된 제2 출력용자막을 포함할 수 있다. Here, a pair of subtitles for output are sentence texts translated so that their meanings correspond to each other. A first subtitle for output displayed in a first language to be provided to a speaker located on one side and a second subtitle displayed in a second language to be provided to a speaker located on the other side 2 Subtitles for output may be included.

일 실시예에 따라, 통합제어부(400)는 투명 디스플레이(10)에 배치된 거리측정센서(미도시)를 통해 측정된 화자별 거리정보에 기초하여, 투명 디스플레이(10)에 대한 한쌍의 출력용자막의 각 출력면적을 서로 다른 면적비율로 조절할 수 있다. According to an embodiment, the integrated control unit 400 outputs a pair of subtitles for the transparent display 10 based on distance information for each speaker measured through a distance measuring sensor (not shown) disposed on the transparent display 10. Each output area of can be adjusted to different area ratio.

예를 들면, 일측에 위치한 화자의 거리정보가 80cm 이고 타측에 위치한 화자의 거리정보가 40cm로 일정거리 차이를 가지는 경우, 통합제어부(400)는 한쌍의 출력용자막 중 제1 출력용자막의 출력면적을 증가시키고 제2 출력용자막의 출력면적을 증가시킬 수 있다. For example, when the distance information of a speaker located on one side is 80 cm and the distance information of a speaker located on the other side has a certain distance difference of 40 cm, the integrated control unit 400 determines the output area of the first subtitle for output among a pair of subtitles for output. and the output area of the second output caption may be increased.

다른 실시예에 따라, 통합제어부(400)는 투명 디스플레이(10)에 배치된 레이저센서(미도시)를 통해 측정된 화자별 호흡 및 심박신호에 따라 분석되는 화자별 심리상태에 기초하여, 한쌍의 출력용자막을 컬라테라피 색상으로 보정처리할 수 있다. According to another embodiment, the integrated control unit 400 is based on the psychological state of each speaker analyzed according to the respiratory and heart rate signals of each speaker measured through a laser sensor (not shown) disposed on the transparent display 10, Captions for output can be corrected with color therapy colors.

예를 들면, 심리상태가 무기력한 경우 컬라테라피 색상은 빨강이고, 심리상태가 슬픔과 상실감인 경우 컬라테라피 색상은 주황이며, 심리상태가 불면증, 피로감 및 두통인 경우 컬라테라피 색상은 파랑이고, 심리상태가 불안정인 경우 컬라테라피 색상은 초록이고, 심리상태가 따분하거나 지겨움인 경우 컬라테라피 색상은 노랑일 수 있다. For example, if the psychological state is lethargic, the color therapy color is red, if the psychological state is sadness and loss, the color therapy color is orange, and if the psychological state is insomnia, fatigue, or headache, the color therapy color is blue, and the psychological state is blue. If the state is unstable, the color therapy color may be green, and if the psychological state is boring or boring, the color therapy color may be yellow.

또 다른 실시예에 따라, 통합제어부(400)는 한쌍의 출력용자막을 출력하기 이전에 간이 시력 검사표를 출력함에 따라 피드백받는 응답신호에 기초하여 화자시력을 추정하고, 이를 기초로 한쌍의 출력용자막에 대한 각 글씨체 확대비율을 자동으로 조절할 수 있다. According to another embodiment, the integrated control unit 400 outputs a simple visual acuity test table before outputting a pair of captions for output, so as to estimate the visual acuity of a speaker based on a feedback response signal, and based on this estimate the visual acuity of a speaker, to output a pair of captions for output. The magnification ratio of each font can be automatically adjusted.

또 다른 실시예에 따라, 통합제어부(400)는 투명 디스플레이(10)에 배치된 아이트래커 모듈(미도시)을 통해 측정된 안구운동 데이터에 기초하여, 투명 디스플레이(10)를 통해 한쌍의 출력용자막 이후에 출력되는 다음자막의 페이지 전환속도를 조절할 수 있다. According to another embodiment, the integrated control unit 400 outputs a pair of subtitles through the transparent display 10 based on eye movement data measured through an eye tracker module (not shown) disposed on the transparent display 10. The page switching speed of the next subtitle that is output later can be adjusted.

예를 들면, 안구운동 데이터가 기설정된 속도 이상인 경우, 통합제어부(400)는 투명 디스플레이(10)를 통해 한쌍의 출력용자막 이후에 출력되는 다음자막의 페이지 전환속도를 증가시킬 수 있다. 또한, 안구운동 데이터가 기설정된 속도 미만인 경우, 통합제어부(400)는 투명 디스플레이(10)를 통해 한쌍의 출력용자막 이후에 출력되는 다음자막의 페이지 전환속도를 감소시킬 수 있다. For example, when eye movement data is equal to or greater than a predetermined speed, the integrated controller 400 may increase the page switching speed of the next subtitle output after a pair of output subtitles through the transparent display 10 . In addition, when the eye movement data is less than a predetermined speed, the integrated controller 400 may decrease the page switching speed of the next subtitle output after a pair of output subtitles through the transparent display 10 .

또 다른 실시예에 따라, 통합제어부(400)는 하기 도 2에서 설명될 적어도 하나의 입력장치(120)를 통해 입력받는 SNS 계정정보를 등록함에 따라, 네트워크를 통해 연결된 통합관리서버(2000)를 이용하여 SNS 계정정보에 대응되는 화자단말(20)에 대화창 리스트를 이미지 파일로 전송할 수 있다. According to another embodiment, the integrated control unit 400 registers SNS account information received through at least one input device 120 to be described in FIG. By using the chat window list, it is possible to transmit the chat window list as an image file to the speaker terminal 20 corresponding to the SNS account information.

또 다른 실시예에 따라, 통합제어부(400)는 메모리(미도시)에 수집된 제1 및 제2 번역텍스트에 기초하여, 제1 번역텍스트를 투명 디스플레이(10)를 통해 출력함에 따라 제2 번역텍스트를 음성, 수화 및 텍스트 중 어느 하나의 방식으로 요청하는 학습서비스 모드를 제공할 수 있다. According to another embodiment, the integrated control unit 400 outputs the first translated text through the transparent display 10 based on the first and second translated texts collected in a memory (not shown) so as to perform the second translation. It is possible to provide a learning service mode that requests text in any one of voice, sign language, and text.

또 다른 실시예에 따라, 통합제어부(400)는 투명 디스플레이(10)에 배치된 환경감지센서들(미도시)을 통해 감지된 재난환경상태에 기초하여, 투명 디스플레이(10)를 통해 재난경보를 출력할 수 있다. 여기서, 환경감지센서들(미도시)은 연기 감지센서, 일산화탄소 감지센서, 온도 감지센서를 포함할 수 있다. According to another embodiment, the integrated control unit 400 issues a disaster alert through the transparent display 10 based on a disaster environmental state detected through environmental sensors (not shown) disposed on the transparent display 10. can be printed out. Here, the environmental sensors (not shown) may include a smoke sensor, a carbon monoxide sensor, and a temperature sensor.

이하, 구체적인 실시예와 비교예를 통하여 본 발명의 구성 및 그에 따른 효과를 보다 상세히 설명하고자 한다. 그러나, 본 실시예는 본 발명을 보다 구체적으로 설명하기 위한 것이며, 본 발명의 범위가 이들 실시예에 한정되는 것은 아니다.Hereinafter, the configuration of the present invention and its effects will be described in more detail through specific examples and comparative examples. However, these examples are for explaining the present invention in more detail, and the scope of the present invention is not limited to these examples.

도 2는 도 1의 인식부(100)를 구체적으로 나타내는 블록도이다. FIG. 2 is a block diagram showing the recognition unit 100 of FIG. 1 in detail.

도 1a 내지 도 2를 참조하면, 인식부(100)는 적어도 하나의 지향성마이크(110), 적어도 하나의 입력장치(120), 적어도 하나의 카메라(130), 검출모듈(140), 텍스트추출모듈(150) 및 식별모듈(160)을 포함할 수 있다. 1A to 2, the recognition unit 100 includes at least one directional microphone 110, at least one input device 120, at least one camera 130, a detection module 140, and a text extraction module. (150) and an identification module (160).

먼저, 적어도 하나의 지향성마이크(110)는 투명 디스플레이(10)에 배치되어, 투명 디스플레이(10)으로부터 일정거리 이격된 특정방향에서 발화되는 발화음성을 선택적으로 인식할 수 있다. First, at least one directional microphone 110 is disposed on the transparent display 10 and can selectively recognize an utterance spoken in a specific direction spaced apart from the transparent display 10 by a certain distance.

다음으로, 적어도 하나의 입력장치(120)는 투명 디스플레이(10)로부터 일정거리 이격되도록 배치되어, 발화음성을 대신할 입력텍스트를 입력받을 수 있다. Next, at least one input device 120 is arranged to be spaced apart from the transparent display 10 by a predetermined distance, and can receive input text to replace the spoken voice.

다음으로, 적어도 하나의 카메라(130)는 특정방향을 향해 촬영하여 한쌍의 화자영상을 획득할 수 있다. Next, at least one camera 130 may acquire a pair of speaker images by photographing in a specific direction.

예를 들면, 적어도 하나의 지향성마이크(110)와 적어도 하나의 카메라(130)는 투명 디스플레이(10)를 기준으로 일면과 타면에 각각 개별적으로 배치되고, 적어도 하나의 입력장치(120)는 양면을 기준으로 일정거리 이격된 위치에 배치될 수 있다. For example, at least one directional microphone 110 and at least one camera 130 are individually disposed on one side and the other side of the transparent display 10, and at least one input device 120 covers both sides. It may be arranged at a location spaced apart from a predetermined distance as a reference.

다음으로, 검출모듈(140)은 적어도 하나의 카메라(130)를 통해 촬영된 한쌍의 화자영상 중 어느 하나로부터 기설정된 표정 및 제스처 객체를 검출할 수 있다. Next, the detection module 140 may detect a preset facial expression and gesture object from any one of a pair of speaker images captured through at least one camera 130 .

다음으로, 텍스트추출모듈(150)은 제스처 객체에 대응되는 수화용 텍스트와 기설정된 표정에 따라 기설정된 긴급안내 텍스트를 메모리(미도시)로부터 추출하여 인식할 수 있다. Next, the text extraction module 150 may extract and recognize the preset emergency guidance text according to the sign language text corresponding to the gesture object and the preset facial expression from a memory (not shown).

다음으로, 식별모듈(160)은 적어도 하나의 지향성마이크(110)를 통해 인식된 발화음성, 적어도 하나의 입력장치(120)를 통해 입력받는 입력텍스트 및 텍스트추출모듈(150)을 통해 추출된 수화용 텍스트에 대화시간과 화자방향을 표시한 식별코드를 부여하여 메모리(미도시)에 저장 및 분류할 수 있다. Next, the identification module 160 uses the speech voice recognized through at least one directional microphone 110, the input text received through at least one input device 120, and the sign language extracted through the text extraction module 150. An identification code indicating a conversation time and a speaker direction may be given to the text for storage and classification in a memory (not shown).

이러한 식별모듈(160)은 제1 및 제2 언어의 음성을 식별코드에 따라 분류하여 텍스트생성부(200)에 문장단위별로 딥러닝 기반의 인공지능모델에 순차적으로 입력할 수 있다. The identification module 160 may classify voices of the first and second languages according to identification codes, and sequentially input the sentences to the deep learning-based artificial intelligence model in the text generator 200 in units of sentences.

도 3은 도 1의 텍스트생성부(200)의 실시예에 따른 블록도이다. FIG. 3 is a block diagram of the text generator 200 of FIG. 1 according to an embodiment.

도 1a 내지 도 3을 참조하여 설명하면, 텍스트생성부(200)는 제1 및 제2 모델링부(210, 220), 잡음처리부(230) 및 디코더(240)를 포함할 수 있다. Referring to FIGS. 1A to 3 , the text generator 200 may include first and second modeling units 210 and 220 , a noise processing unit 230 and a decoder 240 .

먼저, 제1 모델링부(210)는 메모리(미도시)에 기수집된 어휘단어사전을 학습하여 딥러닝 기반의 음성인식모델을 모델링할 수 있다. 여기서, 딥러닝 기반의 음성인식모델은 기수집된 어휘단어사전을 학습하는 구글의 딥마인드와 IBM의 TrueNorth 중 어느 하나를 통해 도출되는 알고리즘일 수 있다. First, the first modeling unit 210 may model a deep learning-based speech recognition model by learning vocabulary words previously collected in a memory (not shown). Here, the deep learning-based speech recognition model may be an algorithm derived through either Google's Deep Mind or IBM's TrueNorth, which learns pre-collected vocabulary words.

다음으로, 제2 모델링부(220)는 메모리(미도시)에 기수집된 발음규칙을 학습하여 규칙 및 통계 기반의 음향모델을 모델링할 수 있다. 여기서, 규칙 및 통계 기반의 음향모델은 기수집된 발음규칙을 학습하는 IBM의 Watson 프로그램을 통해 도출되는 알고리즘일 수 있다. Next, the second modeling unit 220 may model a rule- and statistical-based acoustic model by learning pronunciation rules previously collected in a memory (not shown). Here, the rule- and statistics-based acoustic model may be an algorithm derived through IBM's Watson program that learns pre-collected pronunciation rules.

다음으로, 신호처리부(230)는 식별모듈(160)을 통해 문장단위별로 입력받는 제1 및 제2 언어의 음성을 음성인식 특징벡터에 따라 입력신호로 변환처리할 수 있다. Next, the signal processing unit 230 may convert the speech of the first and second languages received for each sentence through the identification module 160 into an input signal according to the speech recognition feature vector.

여기서, 음성인식 특징벡터는 MFCC(mel frequency cepstral coefficient), LPC(linear predictive coefficients), PLP(perceptual linear prediction) 등과 같은 다양한 특징 벡터들 중의 어느 하나를 포함할 수 있다. Here, the speech recognition feature vector may include any one of various feature vectors such as mel frequency cepstral coefficient (MFCC), linear predictive coefficients (LPC), and perceptual linear prediction (PLP).

이때, 입력신호는 딥러닝 기반의 음성인식모델과 규칙 및 통계 기반의 음향모델에 입력되는 인자를 의미할 수 있다. In this case, the input signal may mean a factor input to a deep learning-based speech recognition model and a rule- and statistics-based acoustic model.

다음으로, 디코더(240)는 신호처리부(330)를 통해 변환처리된 입력신호를 딥러닝 기반의 음성인식모델과 규칙 및 통계 기반의 음향모델에 적용함에 따라 문자정보인 화자별 텍스트로 출력할 수 있다. Next, the decoder 240 applies the input signal converted and processed through the signal processing unit 330 to a deep learning-based speech recognition model and a rule- and statistics-based acoustic model, thereby outputting character information as text for each speaker. there is.

이때, 디코더(240)는 메모리(미도시)에서 확인된 식별코드에 따라, 화자별 텍스트에 입력텍스트 및 수화용 텍스트를 화자별 텍스트에 순차적으로 리스트 및 병합시킬 수 있다. In this case, the decoder 240 may sequentially list and merge the input text and the sign language text into the text for each speaker according to the identification code checked in the memory (not shown).

도 4는 도 1의 통합제어부(400)의 실시예에 따른 블록도이다. FIG. 4 is a block diagram of the integrated control unit 400 of FIG. 1 according to an embodiment.

도 1a 내지 도 4를 참조하면, 통합제어부(400)는 비교부(410)와 음성보정부(420)를 포함할 수 있다. Referring to FIGS. 1A to 4 , the integrated control unit 400 may include a comparison unit 410 and a voice correction unit 420 .

먼저, 비교부(410)는 인식부(100)를 통해 인식된 제1 및 제2 언어의 각 음성으로부터 분석되는 음성특성과 기설정된 기준샘플을 비교할 수 있다. First, the comparator 410 may compare voice characteristics analyzed from each voice of the first and second languages recognized through the recognizer 100 with a preset reference sample.

여기서, 기준샘플은 음성을 정확하게 인식할 수 있게 하는 샘플음성을 의미하고, 또한, 음성특성은 음절당 발성 속도, 발성 중 묵음시간 및 음성의 포먼트주파수 중 어느 하나를 포함할 수 있다. Here, the reference sample means a sample voice enabling accurate voice recognition, and the voice characteristics may include any one of a voice rate per syllable, a silence time during voice, and a formant frequency of voice.

이때, 음성보정부(420)는 비교부(410)를 통해 확인된 비교 결과에 기초하여, 제1 및 제2 언어의 각 음성을 기준샘플의 음성특징에 따라 보정하여 인식부(100)로 피드백 제공할 수 있다. At this time, the voice correction unit 420 corrects each voice of the first and second languages according to the voice characteristics of the reference sample based on the comparison result confirmed through the comparison unit 410, and feeds back to the recognition unit 100. can provide

예를 들면, 음절 당 발성 속도가 기준샘플에 해당하는 임계 범위를 벗어날 경우, 음성보정부(220)는 제1 및 제2 언어의 음성의 발성 속도를 기준샘플에 따른 발성 속도로 보정할 수 있다. For example, when the rate of speech per syllable is out of the critical range corresponding to the reference sample, the voice correction unit 220 may correct the rate of speech of the first and second languages to the rate of speech according to the reference sample. .

일 실시예에 따라, 음성보정부(420)는 인식부(100)를 통해 인식된 제1 및 제2 언어의 음성신호를 주파수 분석함에 따라 획득된 오디오 시각정보를 한쌍의 출력용자막에 통합하여 투명 디스플레이(10)를 통해 출력함으로써, 화자음성의 최적 볼륨 크기로 발화되도록 유도할 수 있다. According to an embodiment, the voice compensator 420 integrates the audio visual information obtained by frequency-analyzing the voice signals of the first and second languages recognized through the recognition unit 100 into a pair of subtitles for output so as to be transparent. By outputting through the display 10, it is possible to induce speech at an optimal volume level of the speaker's voice.

다른 실시예에 따라, 음성보정부(420)는 인식부(100)를 통해 인식된 음성의 가청 주파수 이외의 대역 예컨대, 1000,000hz 이상의 초음파 및 7hz 이하의 초저주파의 볼륨크기에 기초하여, 제1 및 제2 언어의 음성신호에 대한 기설정된 가청주파수 대역을 증폭시키도록 제어할 수 있다. According to another embodiment, the voice compensator 420 is based on the volume level of a band other than the audible frequency of the voice recognized through the recognition unit 100, for example, ultrasonic waves of 1000,000 hz or more and infrasonic waves of 7 hz or less, It may be controlled to amplify a predetermined audible frequency band for the voice signals of the first and second languages.

이러한 음성보정부(420)는 필터링부(421)과 콘텐츠제공부(422)를 더 포함할 수 있다. 구체적으로, 필터링부(421)는 인식부(100)를 통해 인식되는 묵음신호로부터 확인된 소음신호에 따라 노이즈 캔슬링 신호를 생성하고, 이를 토대로 제1 및 제2 언어의 음성신호에 대한 노이즈를 필터링할 수 있다. 여기서, 묵음신호는 제1 및 제2 언어의 음성에 해당하는 주파수대역의 볼륨이 기설정된 시간동안 인식받지 않는 동안에 인식부(100)를 통해 인식된 특정주파수 대역의 반복적인 소음신호를 포함할 수 있다. 이때, 콘텐츠제공부(422)는 묵음신호가 일정시간 동안 지속되는 경우, 투명 디스플레이(10)를 통해 한쌍의 출력용자막에 대한 출력을 일시중지시키고 분위기 전환을 위한 힐링콘텐츠를 대체하여 출력시킬 수 있다.The voice correction unit 420 may further include a filtering unit 421 and a content providing unit 422 . Specifically, the filtering unit 421 generates a noise canceling signal according to the noise signal identified from the silence signal recognized through the recognition unit 100, and filters the noise of the first and second language voice signals based on the generated noise signal. can do. Here, the silence signal may include a repetitive noise signal of a specific frequency band recognized through the recognition unit 100 while the volume of the frequency band corresponding to the voice of the first and second languages is not recognized for a predetermined time. there is. At this time, the content providing unit 422 may suspend the output of a pair of subtitles for output through the transparent display 10 when the mute signal continues for a certain period of time, and replace and output healing content for changing the atmosphere. .

본 명세서에서는 본 발명자들이 수행한 다양한 실시예 가운데 몇 개의 예만을 들어 설명하는 것이나 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고, 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.In this specification, only a few examples of various embodiments performed by the present inventors are described, but the technical spirit of the present invention is not limited or limited thereto, and can be modified and implemented in various ways by those skilled in the art, of course.

10: 투명 디스플레이
100: 인식부
200: 텍스트생성부
300: 번역도출부
400: 통합제어부
1000: 자동 통번역 및 대화 보조 시스템
10: transparent display
100: recognition unit
200: text generator
300: translation derivation department
400: integrated control unit
1000: automatic translation and conversation assistance system

Claims (9)

일방향에서 발화되는 제1 언어의 음성과 타방향에서 발화되는 제2 언어의 음성을 화자별로 구분하여 개별적으로 인식하는 인식부;
상기 제1 및 제2 언어의 음성을 딥러닝의 기반의 인공지능을 통해 분석함에 따라 시간별 문장텍스트를 생성하고 이를 토대로 대화창 리스트를 생성하는 텍스트생성부;
기설정된 규칙기반, 패턴기반, 통계기반 및 인공지능 기반 중 어느 하나의 번역기가 임베딩되고, 이를 이용하여 상기 대화창 리스트를 기설정된 언어들로 개별적으로 번역함에 따라 제1 및 제2 번역텍스트를 도출하는 번역도출부; 및
상기 대화창 리스트로부터 확인되는 시간 및 화자정보에 기초하여, 상기 제1 및 제2 번역텍스트로부터 한쌍의 출력용자막을 순차적으로 선택하여 투명 디스플레이를 통해 서로 다른 출력방향으로 출력시키는 통합제어부를 포함하고,
상기 한쌍의 출력용자막은 서로 의미가 동일하게 번역되고 상기 제1 언어로 표시된 제1 출력용자막과 상기 제2 언어로 표시된 제2 출력용자막을 포함하며,
상기 인식부는 특정방향에서 발화되는 발화음성을 선택적으로 인식하기 위한 적어도 하나의 지향성마이크;
상기 발화음성을 대신할 입력텍스트를 입력받기 위한 적어도 하나의 입력장치;
상기 특정방향을 향해 촬영하여 한쌍의 화자영상을 획득하는 적어도 하나의 카메라;
상기 한쌍의 화자영상 중 어느 하나로부터 기설정된 표정 및 제스처 객체를 검출하는 검출모듈;
상기 제스처 객체에 대응되는 수화용 텍스트와 상기 기설정된 표정에 따라 긴급안내 텍스트를 메모리로부터 추출하는 텍스트추출모듈; 및
상기 발화음성, 상기 입력텍스트 및 상기 수화용 텍스트에 발화시간과 화자방향을 표시한 식별코드를 부여하여 상기 메모리에 저장하는 식별모듈을 포함하고,
상기 통합제어부는 상기 인식부를 통해 인식된 상기 제1 및 제2 언어의 각 음성으로부터 분석되는 음성특성과 기설정된 기준샘플을 비교하는 비교부; 및
상기 비교부를 통해 확인된 비교 결과에 기초하여, 상기 제1 및 제2 언어의 각 음성을 기준샘플의 음성특징에 따라 보정하는 음성보정부를 포함하고,
상기 음성보정부는 상기 제1 및 제2 언어의 음성신호를 주파수 분석함에 따라 획득된 오디오 시각정보를 상기 한쌍의 출력용자막에 통합하여 상기 투명 디스플레이를 통해 출력하며,
상기 오디오 시각정보는 화자음성의 최적 볼륨 크기로 발화되도록 유도하기 위하여, 소리의 성분과 강도를 주파수 분석함에 따라 시각화되는 오디오 스펙트럼이고,
상기 음성보정부는 음성의 가청 주파수 이외의 대역의 볼륨크기에 기초하여, 상기 제1 및 제2 언어의 음성신호에 대한 기설정된 가청주파수 대역을 증폭시키도록 제어하고,
상기 통합제어부는 상기 투명 디스플레이에 배치된 거리측정센서를 통해 측정된 화자별 거리정보에 기초하여, 상기 투명 디스플레이에 대한 상기 한쌍의 출력용자막의 출력면적을 서로 다른 면적비율로 조절하며,
상기 통합제어부는 상기 한쌍의 출력용자막을 출력시키기 이전에 간이 시력 검사표를 출력함에 따라 피드백받는 응답신호에 기초하여 화자시력을 추정하고, 이를 기초로 한쌍의 출력용자막에 대한 각 글씨체 확대비율을 자동으로 조절하고,
상기 통합제어부는 상기 투명 디스플레이에 배치된 아이트래커 모듈을 통해 측정된 안구운동 데이터에 기초하여, 상기 한쌍의 출력용자막 이후에 출력되는 다음자막의 페이지 전환속도를 조절하며,
상기 통합제어부는 상기 적어도 하나의 입력장치를 통해 입력받는 SNS 계정정보를 등록함에 따라, 네트워크를 통해 연결된 통합관리서버를 이용하여 SNS 계정정보에 대응되는 화자단말에 상기 대화창 리스트를 이미지 파일로 전송하며,
상기 통합제어부는 상기 투명 디스플레이에 배치된 환경감지센서들을 통해 감지된 재난환경상태에 기초하여, 상기 투명 디스플레이를 통해 재난경보를 출력하고,
상기 환경감지센서들은 연기 감지센서, 일산화탄소 감지센서, 온도 감지센서를 포함하는, 투명 디스플레이를 이용한 자동 통번역 및 대화 보조 시스템.
a recognition unit for separately recognizing a voice of a first language spoken in one direction and a voice of a second language spoken in another direction by speaker;
a text generation unit that analyzes the voices of the first and second languages through artificial intelligence based on deep learning to generate time-specific sentence text and based on this, creates a dialog list;
Any one of preset rule-based, pattern-based, statistical-based, and artificial intelligence-based translators is embedded, and by using this, the dialog list is individually translated into preset languages to derive first and second translated texts. translation derivation department; and
An integrated control unit that sequentially selects a pair of subtitles for output from the first and second translation texts based on the time and speaker information identified from the dialog window list and outputs them in different output directions through a transparent display;
The pair of subtitles for output includes a first subtitle for output displayed in the first language and a second subtitle for output displayed in the second language and translated to have the same meaning as each other;
The recognizing unit includes at least one directional microphone for selectively recognizing a spoken voice uttered in a specific direction;
at least one input device for receiving an input text to replace the spoken voice;
at least one camera for acquiring a pair of speaker images by photographing in the specific direction;
a detection module for detecting a predetermined facial expression and gesture object from one of the pair of speaker images;
a text extraction module extracting from a memory a text for sign language corresponding to the gesture object and an emergency guidance text according to the preset facial expression; and
an identification module for assigning an identification code indicating a speech time and a speaker direction to the spoken voice, the input text, and the sign language text and storing them in the memory;
The integrated control unit includes a comparison unit that compares voice characteristics analyzed from each voice of the first and second languages recognized through the recognition unit with a preset reference sample; and
Based on the comparison result confirmed through the comparison unit, a voice correction unit for correcting each voice of the first and second languages according to the voice characteristics of the reference sample,
The voice correction unit integrates audio and visual information obtained by frequency-analyzing the voice signals of the first and second languages into the pair of output subtitles and outputs them through the transparent display;
The audio visual information is an audio spectrum visualized by frequency analysis of components and strengths of sound in order to induce utterance at an optimal volume level of the speaker's voice;
The voice correction unit controls to amplify a predetermined audible frequency band for the voice signals of the first and second languages based on the volume level of a band other than the audible frequency of voice,
The integrated control unit adjusts the output area of the pair of subtitles for output to the transparent display at different area ratios based on distance information for each speaker measured through a distance measuring sensor disposed on the transparent display,
As the integrated control unit outputs a simple visual acuity checklist before outputting the pair of subtitles for output, the integrated controller estimates the visual acuity of the speaker based on the response signal received as feedback, and automatically adjusts the magnification ratio of each font for the pair of subtitles for output based on this estimate. to regulate,
The integrated control unit adjusts a page switching speed of the next subtitle output after the pair of output subtitles based on eye movement data measured through an eye tracker module disposed on the transparent display;
As the integrated control unit registers SNS account information received through the at least one input device, it transmits the dialog list as an image file to a speaker terminal corresponding to the SNS account information using an integrated management server connected through a network. ,
The integrated control unit outputs a disaster alert through the transparent display based on a disaster environmental state detected through environment sensors disposed on the transparent display,
The environment detection sensors include a smoke detection sensor, a carbon monoxide detection sensor, and a temperature detection sensor, and an automatic interpretation/translation and conversation assistance system using a transparent display.
제1항에 있어서,
상기 번역기는 복수의 분야별 맞춤형 번역기들을 포함하고,
상기 복수의 분야별 맞춤형 번역기들은 직업, 연령, 지역, 관심분야, 종교에 따라 불필요 단어들이 제거된 번역기들인, 투명 디스플레이를 이용한 자동 통번역 및 대화 보조 시스템.
According to claim 1,
The translator includes a plurality of field-specific customized translators,
The automatic translation and conversation assistance system using a transparent display, wherein the plurality of field-specific customized translators are translators from which unnecessary words are removed according to occupation, age, region, interest, and religion.
삭제delete 제1항에 있어서,
상기 텍스트생성부는 상기 메모리에 기수집된 어휘단어사전을 학습하여 딥러닝 기반의 음성인식모델을 모델링하는 제1 모델링부;
상기 메모리에 기수집된 발음규칙을 학습하여 규칙 및 통계 기반의 음향모델을 모델링하는 제2 모델링부;
상기 제1 및 제2 언어의 음성을 음성인식 특징벡터에 따라 입력신호로 변환처리하는 신호처리부; 및
상기 입력신호를 상기 음성인식모델과 상기 음향모델에 적용함에 따라 문자정보인 화자별 텍스트로 출력하고, 상기 식별코드에 따라 상기 입력텍스트 및 상기 수화용 텍스트를 화자별 텍스트에 병합하는 디코더를 포함하는, 투명 디스플레이를 이용한 자동 통번역 및 대화 보조 시스템.
According to claim 1,
a first modeling unit for modeling a deep learning-based voice recognition model by learning the vocabulary word dictionary previously collected in the memory;
a second modeling unit that learns the pronunciation rules previously collected in the memory and models a rule- and statistics-based acoustic model;
a signal processing unit which converts the voices of the first and second languages into input signals according to voice recognition feature vectors; and
A decoder for outputting the input signal as text for each speaker, which is character information, by applying the input signal to the speech recognition model and the acoustic model, and merging the input text and the sign language text with the text for each speaker according to the identification code , Automatic translation and conversation assistance system using a transparent display.
삭제delete 제1항에 있어서,
상기 음성보정부는 상기 인식부를 통해 인식되는 묵음신호로부터 확인된 소음신호에 따라 노이즈 캔슬링 신호를 생성하고, 이를 토대로 상기 제1 및 제2 언어의 음성신호에 대한 노이즈를 필터링하는 필터링부; 및
상기 묵음신호가 일정시간 동안 지속되는 경우, 상기 투명 디스플레이를 통해 상기 한쌍의 출력용자막에 대한 출력을 일시중지시키고 분위기 전환을 위한 힐링콘텐츠 영상을 대체하여 출력시키는 콘텐츠제공부를 포함하고,
상기 묵음신호는 상기 제1 및 제2 언어의 음성에 해당하는 주파수대역의 볼륨이 기설정된 시간동안 인식받지 않는 동안에 상기 인식부를 통해 인식된 특정주파수 대역의 반복적인 소음신호를 포함하는, 투명 디스플레이를 이용한 자동 통번역 및 대화 보조 시스템.


According to claim 1,
The voice correction unit may include a filtering unit generating a noise canceling signal according to the noise signal identified from the silence signal recognized through the recognition unit, and filtering noise of the first and second language voice signals based thereon; and
When the silence signal lasts for a certain period of time, a content providing unit for temporarily pausing the output of the pair of output subtitles through the transparent display and replacing and outputting a healing content image for changing the atmosphere,
The mute signal includes a repetitive noise signal of a specific frequency band recognized through the recognition unit while the volume of the frequency band corresponding to the voice of the first and second languages is not recognized for a predetermined time. Automatic translation and conversation assistance system used.


삭제delete 삭제delete 삭제delete
KR1020220150167A 2022-11-11 2022-11-11 Automatic interpretation and translation and dialogue assistance system using transparent display KR102557092B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220150167A KR102557092B1 (en) 2022-11-11 2022-11-11 Automatic interpretation and translation and dialogue assistance system using transparent display

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220150167A KR102557092B1 (en) 2022-11-11 2022-11-11 Automatic interpretation and translation and dialogue assistance system using transparent display

Publications (1)

Publication Number Publication Date
KR102557092B1 true KR102557092B1 (en) 2023-07-19

Family

ID=87425591

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220150167A KR102557092B1 (en) 2022-11-11 2022-11-11 Automatic interpretation and translation and dialogue assistance system using transparent display

Country Status (1)

Country Link
KR (1) KR102557092B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102635031B1 (en) 2023-09-27 2024-02-13 주식회사 에이아이노미스 Method, device, and system for providing speaker separation real-time interpretation service based on semantic unit visualization

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020076044A (en) 2001-03-27 2002-10-09 삼성전자 주식회사 Automatic interpretation apparatus and method using dialogue model
JP2006023953A (en) * 2004-07-07 2006-01-26 Fuji Photo Film Co Ltd Information display system
KR20120072244A (en) * 2010-12-23 2012-07-03 한국전자통신연구원 System and method for integrating gesture and sound for controlling device
JP2017054065A (en) * 2015-09-11 2017-03-16 株式会社Nttドコモ Interactive device and interactive program
KR20170112713A (en) * 2016-04-01 2017-10-12 삼성전자주식회사 Device and method for voice translation
KR20190059381A (en) * 2017-11-23 2019-05-31 연세대학교 산학협력단 Method for Device Control and Media Editing Based on Automatic Speech/Gesture Recognition
KR20200032441A (en) * 2018-09-18 2020-03-26 한국전자통신연구원 User adaptive automatic translation model selection enhancement device and method
KR20220070709A (en) * 2020-11-23 2022-05-31 서울대학교산학협력단 Speech Recognition Error Correction Modeling Method using Text and Speech Characteristics of Speech Recognition

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020076044A (en) 2001-03-27 2002-10-09 삼성전자 주식회사 Automatic interpretation apparatus and method using dialogue model
JP2006023953A (en) * 2004-07-07 2006-01-26 Fuji Photo Film Co Ltd Information display system
KR20120072244A (en) * 2010-12-23 2012-07-03 한국전자통신연구원 System and method for integrating gesture and sound for controlling device
JP2017054065A (en) * 2015-09-11 2017-03-16 株式会社Nttドコモ Interactive device and interactive program
KR20170112713A (en) * 2016-04-01 2017-10-12 삼성전자주식회사 Device and method for voice translation
KR20190059381A (en) * 2017-11-23 2019-05-31 연세대학교 산학협력단 Method for Device Control and Media Editing Based on Automatic Speech/Gesture Recognition
KR20200032441A (en) * 2018-09-18 2020-03-26 한국전자통신연구원 User adaptive automatic translation model selection enhancement device and method
KR20220070709A (en) * 2020-11-23 2022-05-31 서울대학교산학협력단 Speech Recognition Error Correction Modeling Method using Text and Speech Characteristics of Speech Recognition

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102635031B1 (en) 2023-09-27 2024-02-13 주식회사 에이아이노미스 Method, device, and system for providing speaker separation real-time interpretation service based on semantic unit visualization

Similar Documents

Publication Publication Date Title
CN108447486B (en) Voice translation method and device
KR102386854B1 (en) Apparatus and method for speech recognition based on unified model
JP2017058674A (en) Apparatus and method for speech recognition, apparatus and method for training transformation parameter, computer program and electronic apparatus
CN108231065A (en) Multi-lingual person's speech recognition correction system
EP2645364B1 (en) Spoken dialog system using prominence
KR20130022607A (en) Voice recognition apparatus and method for recognizing voice
NO316847B1 (en) Method and apparatus for converting speech into text
Qian et al. A two-pass framework of mispronunciation detection and diagnosis for computer-aided pronunciation training
CN110675866B (en) Method, apparatus and computer readable recording medium for improving at least one semantic unit set
KR101836430B1 (en) Voice recognition and translation method and, apparatus and server therefor
JP2021529337A (en) Multi-person dialogue recording / output method using voice recognition technology and device for this purpose
JPH10504404A (en) Method and apparatus for speech recognition
KR20150065523A (en) Method and apparatus for providing counseling dialogue using counseling information
Reddy et al. Speech-to-Text and Text-to-Speech Recognition Using Deep Learning
KR102557092B1 (en) Automatic interpretation and translation and dialogue assistance system using transparent display
KR102069697B1 (en) Apparatus and method for automatic interpretation
KR20090040014A (en) Apparatus and method for synchronizing text analysis-based lip shape
JP6723907B2 (en) Language recognition system, language recognition method, and language recognition program
KR102253015B1 (en) Apparatus and method of an automatic simultaneous interpretation using presentation scripts analysis
US11817079B1 (en) GAN-based speech synthesis model and training method
NO318557B1 (en) Speech-to-speech conversion method and system
Rekimoto DualVoice: Speech Interaction That Discriminates between Normal and Whispered Voice Input
KR101765154B1 (en) Method for convert voice to cyber sign language
Tits et al. Flowchase: a Mobile Application for Pronunciation Training
US20230004726A1 (en) Conversion table generation device, conversion table generation method, and recording medium

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant