KR102557092B1 - Automatic interpretation and translation and dialogue assistance system using transparent display - Google Patents
Automatic interpretation and translation and dialogue assistance system using transparent display Download PDFInfo
- Publication number
- KR102557092B1 KR102557092B1 KR1020220150167A KR20220150167A KR102557092B1 KR 102557092 B1 KR102557092 B1 KR 102557092B1 KR 1020220150167 A KR1020220150167 A KR 1020220150167A KR 20220150167 A KR20220150167 A KR 20220150167A KR 102557092 B1 KR102557092 B1 KR 102557092B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- transparent display
- text
- output
- unit
- Prior art date
Links
- 238000013519 translation Methods 0.000 title claims abstract description 44
- 238000013135 deep learning Methods 0.000 claims abstract description 13
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 11
- 238000009795 derivation Methods 0.000 claims abstract description 7
- 238000012937 correction Methods 0.000 claims description 9
- 239000013074 reference sample Substances 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 8
- 230000004304 visual acuity Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 230000008921 facial expression Effects 0.000 claims description 6
- 230000004424 eye movement Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 5
- 230000007613 environmental effect Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 230000035876 healing Effects 0.000 claims description 3
- 230000003252 repetitive effect Effects 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- UGFAIRIUMAVXCW-UHFFFAOYSA-N Carbon monoxide Chemical compound [O+]#[C-] UGFAIRIUMAVXCW-UHFFFAOYSA-N 0.000 claims description 2
- 229910002091 carbon monoxide Inorganic materials 0.000 claims description 2
- 239000000779 smoke Substances 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 8
- 238000002560 therapeutic procedure Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010019233 Headaches Diseases 0.000 description 1
- 206010024264 Lethargy Diseases 0.000 description 1
- 206010028916 Neologism Diseases 0.000 description 1
- 208000013738 Sleep Initiation and Maintenance disease Diseases 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 206010016256 fatigue Diseases 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 231100000869 headache Toxicity 0.000 description 1
- 206010022437 insomnia Diseases 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000000241 respiratory effect Effects 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/14—Digital output to display device ; Cooperation and interconnection of the display device with other functional units
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/326—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S715/00—Data processing: presentation processing of document, operator interface processing, and screen saver display processing
- Y10S715/978—Audio interaction as part of an operator interface
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Otolaryngology (AREA)
- Machine Translation (AREA)
Abstract
Description
본 발명은 자동 통번역 및 대화 보조 시스템에 관한 것으로서, 양방향으로 인식된 대화를 통역 및 번역하여 기설정된 한쌍의 언어로 구성된 대화텍스트를 제공할 수 있는 투명 디스플레이를 이용한 자동 통번역 및 대화 보조 시스템에 관한 것이다.The present invention relates to an automatic interpretation/translation and dialogue assistance system, and more particularly to an automatic interpretation/translation and dialogue assistance system using a transparent display capable of interpreting and translating a conversation recognized in both directions to provide dialogue text composed of a pair of predetermined languages. .
세계적으로 소통의 기회가 넓어진만큼 번역의 필요성이 날이 갈수록 중요해지고 있다. As the opportunity for communication has expanded globally, the need for translation is becoming more and more important day by day.
특히, 팬데믹 이후 침체되었던 외국인 관광 및 이주에 따라 각국의 관공서나 은행, 호텔 등 기관에서의 외국인 응대가 많아짐에 따라 소통의 어려움을 호소하는 경우가 많다. In particular, as foreign tourism and migration, which have been stagnant since the pandemic, have increased responses to foreigners in government offices, banks, hotels, and other institutions in each country, many complain of difficulties in communication.
현재 출시되는 자동 통역 및 번역장치는 외국인과 대화를 할 경우, 자국어를 외국어로 번역하는 장치와 외국어를 자국어로 번역해 주는 장치가 독립적으로 작동하여 외국인의 대화를 자국어로, 자신의 대화를 외국어로 독립적으로 번역을 하여 상대방의 대화 내용에는 상관없이 번역 대상 문장을 독립적으로 번역을 한다.In the currently released automatic interpretation and translation devices, when you have a conversation with a foreigner, the device that translates the native language into the foreign language and the device that translates the foreign language into the native language work independently, so that the foreigner's conversation is translated into the native language and your own conversation into the foreign language. By performing independent translation, the translation target sentence is independently translated regardless of the conversation content of the other party.
이에 따라, 본 발명에서는 오프라인에서 양방향으로 동시에 소통이 가능한 투명 디스플레이를 이용한 자동 통번역 및 대화 보조 시스템을 제공하고자 한다.Accordingly, an object of the present invention is to provide an automatic interpretation/translation and conversation assistance system using a transparent display capable of simultaneously communicating in both directions off-line.
본 발명은 상기와 같은 문제점을 해결하기 위한 것으로서, 본 발명의 목적은 양방향으로 인식된 대화를 통역 및 번역하여 기설정된 한쌍의 언어로 구성된 대화텍스트를 실시간 출력할 수 있는 자동 통번역 및 대화 보조 시스템을 제공하기 위한 것이다. The present invention has been made to solve the above problems, and an object of the present invention is to provide an automatic interpretation/translation and conversation assistance system capable of interpreting and translating a conversation recognized in both directions and outputting a conversation text composed of a pair of predetermined languages in real time. is to provide
또한, 화자의 투명 디스플레이를 통해 한쌍의 출력용자막 이후에 출력되는 다음자막의 페이지 전환속도를 조절할 수 있는 자동 통번역 및 대화 보조 시스템을 제공하기 위한 것이다. In addition, it is to provide an automatic interpretation/translation and dialogue assistance system capable of adjusting the page switching speed of the next subtitle output after a pair of output subtitles through a speaker's transparent display.
본 발명의 상기 및 다른 목적과 이점은 바람직한 실시예를 설명한 하기의 설명으로부터 분명해질 것이다.The above and other objects and advantages of the present invention will become apparent from the following description of preferred embodiments.
상기와 같은 목적을 달성하기 위한 본 발명의 일실시예에 따른 투명 디스플레이를 이용한 자동 통번역 및 대화 보조 시스템은 일방향에서 발화되는 제1 언어의 음성과 타방향에서 발화되는 제2 언어의 음성을 화자별로 구분하여 개별적으로 인식하는 인식부, 상기 제1 및 제2 언어의 음성을 딥러닝의 기반의 인공지능을 통해 분석함에 따라 시간별 문장텍스트를 생성하고 이를 토대로 대화창 리스트를 생성하는 텍스트생성부, 기설정된 규칙기반, 패턴기반, 통계기반 및 인공지능 기반 중 어느 하나의 번역기가 임베딩되고, 이를 이용하여 상기 대화창 리스트를 기설정된 언어들로 개별적으로 번역함에 따라 제1 및 제2 번역텍스트를 도출하는 번역도출부 및 상기 대화창 리스트로부터 확인되는 시간 및 화자정보에 기초하여, 상기 제1 및 제2 번역텍스트로부터 한쌍의 출력용자막을 순차적으로 선택하여 투명 디스플레이를 통해 서로 다른 출력방향으로 출력시키는 통합제어부를 포함하고, 상기 한쌍의 출력용자막은 서로 의미가 동일하게 번역되고 상기 제1 언어로 표시된 제1 출력용자막과 상기 제2 언어로 표시된 제2 출력용자막을 포함한다. In order to achieve the above object, an automatic interpretation/translation and conversation assistance system using a transparent display according to an embodiment of the present invention separates the voice of a first language spoken in one direction and the voice of a second language spoken in another direction for each speaker. A recognition unit that classifies and individually recognizes, a text generator that analyzes the voices of the first and second languages through artificial intelligence based on deep learning to generate time-specific sentence text and based on this, a text generator that creates a dialog list, Any one of rule-based, pattern-based, statistical-based, and artificial intelligence-based translators are embedded, and translation derivation for deriving first and second translated texts by individually translating the chat window list into preset languages using the embedded translator And an integrated control unit that sequentially selects a pair of subtitles for output from the first and second translated texts and outputs them in different output directions through a transparent display based on the time and speaker information identified from the window list and the dialog window list. , The pair of subtitles for output includes a first subtitle for output displayed in the first language and a second subtitle for output displayed in the second language and translated to have the same meaning.
실시예에 있어서, 상기 번역기는 복수의 분야별 맞춤형 번역기들을 포함하고, 상기 복수의 분야별 맞춤형 번역기들은 직업, 연령, 지역, 관심분야, 종교에 따라 불필요 단어들이 제거되고 최적화된 번역기들이다. In an embodiment, the translator includes a plurality of translators customized for each field, and the plurality of translators customized for each field are translators optimized by removing unnecessary words according to occupation, age, region, field of interest, and religion.
실시예에 있어서, 상기 인식부는 특정방향에서 발화되는 발화음성을 선택적으로 인식하기 위한 적어도 하나의 지향성마이크, 상기 발화음성을 대신할 입력텍스트를 입력받기 위한 적어도 하나의 입력장치, 상기 특정방향을 향해 촬영하여 한쌍의 화자영상을 획득하는 적어도 하나의 카메라, 상기 한쌍의 화자영상 중 어느 하나로부터 기설정된 표정 및 제스처 객체를 검출하는 검출모듈, 상기 제스처 객체에 대응되는 수화용 텍스트와 상기 기설정된 표정에 따라 긴급안내 텍스트를 메모리로부터 추출하는 텍스트추출모듈 및 상기 발화음성, 상기 입력텍스트 및 상기 수화용 텍스트에 발화시간과 화자방향을 표시한 식별코드를 부여하여 상기 메모리에 저장하는 식별모듈을 포함한다. In an embodiment, the recognizing unit includes at least one directional microphone for selectively recognizing spoken voice uttered in a specific direction, at least one input device for receiving input text to replace the utterance voice, and toward the specific direction. At least one camera that captures and acquires a pair of speaker images, a detection module that detects a preset facial expression and gesture object from any one of the pair of speaker images, and a sign language text corresponding to the gesture object and the preset facial expression. and a text extraction module that extracts the emergency guidance text from a memory and an identification module that assigns an identification code indicating a speech time and speaker direction to the spoken voice, the input text, and the sign language text and stores them in the memory.
실시예에 있어서, 상기 텍스트생성부는 상기 메모리에 기수집된 어휘단어사전을 학습하여 딥러닝 기반의 음성인식모델을 모델링하는 제1 모델링부, 상기 메모리에 기수집된 발음규칙을 학습하여 규칙 및 통계 기반의 음향모델을 모델링하는 제2 모델링부, 상기 제1 및 제2 언어의 음성을 음성인식 특징벡터에 따라 입력신호로 변환처리하는 신호처리부 및 상기 입력신호를 상기 음성인식모델과 상기 음향모델에 적용함에 따라 문자정보인 화자별 텍스트로 출력하고, 상기 식별코드에 따라 상기 입력텍스트 및 상기 수화용 텍스트를 화자별 텍스트에 병합하는 디코더를 포함한다. In an embodiment, the text generation unit learns the vocabulary word dictionary previously collected in the memory to model a deep learning-based speech recognition model, and the first modeling unit learns the pronunciation rules previously collected in the memory to obtain rules and statistics. A second modeling unit that models the based acoustic model, a signal processing unit that converts the voices of the first and second languages into input signals according to voice recognition feature vectors, and converts the input signals into the voice recognition model and the acoustic model. and a decoder for outputting character information as text for each speaker and merging the input text and the sign language text with the text for each speaker according to the identification code.
실시예에 있어서, 상기 통합제어부는 상기 인식부를 통해 인식된 상기 제1 및 제2 언어의 각 음성으로부터 분석되는 음성특성과 기설정된 기준샘플을 비교하는 비교부 및 상기 비교부를 통해 확인된 비교 결과에 기초하여, 상기 제1 및 제2 언어의 각 음성을 기준샘플의 음성특징에 따라 보정하는 음성보정부를 포함한다. In an embodiment, the integrated control unit compares voice characteristics analyzed from each of the voices of the first and second languages recognized through the recognition unit with a preset reference sample, and a comparison result confirmed through the comparison unit. and a voice corrector for correcting each voice of the first and second languages based on the voice characteristics of the reference sample.
실시예에 있어서, 상기 음성보정부는 상기 인식부를 통해 인식되는 묵음신호로부터 확인된 소음신호에 따라 노이즈 캔슬링 신호를 생성하고, 이를 토대로 상기 제1 및 제2 언어의 음성신호에 대한 노이즈를 필터링하는 필터링부 및 상기 묵음신호가 일정시간 동안 지속되는 경우, 상기 투명 디스플레이를 통해 상기 한쌍의 출력용자막에 대한 출력을 일시중지시키고 분위기 전환을 위한 힐링콘텐츠 영상을 대체하여 출력시키는 콘텐츠제공부를 포함하고, 상기 묵음신호는 상기 제1 및 제2 언어의 음성에 해당하는 주파수대역의 볼륨이 기설정된 시간동안 인식받지 않는 동안에 상기 인식부를 통해 인식된 특정주파수 대역의 반복적인 소음신호를 포함한다. In an embodiment, the voice correction unit generates a noise canceling signal according to a noise signal identified from the silence signal recognized through the recognition unit, and filters noise for the first and second language voice signals based on the noise canceling signal. and a content providing unit for temporarily pausing the output of the pair of output subtitles through the transparent display and replacing and outputting a healing content image for changing the atmosphere when the mute signal and the mute signal last for a certain period of time, and the mute The signal includes a repetitive noise signal of a specific frequency band recognized through the recognition unit while the volume of the frequency band corresponding to the voice of the first and second languages is not recognized for a predetermined time.
실시예에 있어서, 상기 통합제어부는 상기 투명 디스플레이에 배치된 거리측정센서를 통해 측정된 화자별 거리정보에 기초하여, 상기 투명 디스플레이에 대한 상기 한쌍의 출력용자막의 출력면적을 서로 다른 면적비율로 조절한다. In an embodiment, the integrated control unit adjusts the output area of the pair of subtitles for output on the transparent display to different area ratios based on distance information for each speaker measured through a distance measuring sensor disposed on the transparent display. do.
실시예에 있어서, 상기 통합제어부는 상기 한쌍의 출력용자막을 출력시키기 이전에 간이 시력 검사표를 출력함에 따라 피드백받는 응답신호에 기초하여 화자시력을 추정하고, 이를 기초로 한쌍의 출력용자막에 대한 각 글씨체 확대비율을 자동으로 조절한다. In an embodiment, the integrated control unit estimates the visual acuity of a speaker based on a feedback response signal as a simple visual acuity test table is output prior to outputting the pair of subtitles for output, and each font for the pair of subtitles for output is based on this estimate Automatically adjusts the zoom ratio.
실시예에 있어서, 상기 통합제어부는 상기 투명 디스플레이에 배치된 아이트래커 모듈을 통해 측정된 안구운동 데이터에 기초하여, 상기 한쌍의 출력용자막 이후에 출력되는 다음자막의 페이지 전환속도를 조절한다.In an embodiment, the integrated control unit adjusts a page switching speed of the next subtitle output after the pair of output subtitles based on eye movement data measured through an eye tracker module disposed on the transparent display.
본 발명의 실시예에 따르면, 양방향으로 인식된 대화를 통역 및 번역하여 기설정된 한쌍의 언어로 구성된 대화텍스트를 실시간으로 출력함으로써, 통번역에 따른 소통을 보다 빠르게 진행할 수 있다. According to an embodiment of the present invention, by interpreting and translating a conversation recognized in both directions and outputting a dialogue text composed of a pair of predetermined languages in real time, communication according to interpretation and translation can proceed more quickly.
또한, 화자의 투명 디스플레이를 통해 한쌍의 출력용자막 이후에 출력되는 다음자막의 페이지 전환속도를 조절함으로써, 소통을 보다 원할하게 지원할 수 있다. In addition, communication can be more smoothly supported by adjusting the page conversion speed of the next subtitle output after a pair of output subtitles through the speaker's transparent display.
도 1a는 본 발명의 실시예에 따른 자동 통번역 및 대화 보조 시스템(1000)을 개략적으로 나타내는 도이다.
도 1b는 도 1a의 자동 통번역 및 대화 보조 시스템(1000)에 대한 실시예를 보여주는 사진들이다.
도 2는 도 1의 인식부(100)를 구체적으로 나타내는 블록도이다.
도 3은 도 1의 텍스트생성부(200)의 실시예에 따른 블록도이다.
도 4는 도 1의 통합제어부(400)의 실시예에 따른 블록도이다.1A is a diagram schematically illustrating an automatic translation and
FIG. 1B is pictures showing an embodiment of the automatic translation and
FIG. 2 is a block diagram showing the
FIG. 3 is a block diagram of the
FIG. 4 is a block diagram of the
이하, 본 발명의 실시예와 도면을 참조하여 본 발명을 상세히 설명한다. 이들 실시예는 오로지 본 발명을 보다 구체적으로 설명하기 위해 예시적으로 제시한 것일 뿐, 본 발명의 범위가 이들 실시예에 의해 제한되지 않는다는 것은 당업계에서 통상의 지식을 가지는 자에 있어서 자명할 것이다.Hereinafter, the present invention will be described in detail with reference to embodiments and drawings of the present invention. These examples are only presented as examples to explain the present invention in more detail, and it will be apparent to those skilled in the art that the scope of the present invention is not limited by these examples. .
또한, 달리 정의하지 않는 한, 본 명세서에서 사용되는 모든 기술적 및 과학적 용어는 본 발명이 속하는 기술 분야의 숙련자에 의해 통상적으로 이해되는 바와 동일한 의미를 가지며, 상충되는 경우에는, 정의를 포함하는 본 명세서의 기재가 우선할 것이다.In addition, unless defined otherwise, all technical and scientific terms used herein have the same meaning as commonly understood by one of skill in the art to which this invention belongs, and in case of conflict, this specification including definitions of will take precedence.
도면에서 제안된 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. 그리고, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에서 기술한 "부"란, 특정 기능을 수행하는 하나의 단위 또는 블록을 의미한다.In order to clearly explain the proposed invention in the drawings, parts irrelevant to the description are omitted, and similar reference numerals are attached to similar parts throughout the specification. And, when a certain component is said to "include", this means that it may further include other components without excluding other components unless otherwise stated. Also, a “unit” described in the specification means one unit or block that performs a specific function.
각 단계들에 있어 식별부호(제1, 제2, 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 실시될 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 실시될 수도 있고 실질적으로 동시에 실시될 수도 있으며 반대의 순서대로 실시될 수도 있다. 도 1a는 본 발명의 실시예에 따른 자동 통번역 및 대화 보조 시스템(1000)을 개략적으로 나타내는 도이고, 도 1b는 도 1a의 자동 통번역 및 대화 보조 시스템(1000)에 대한 실시예를 보여주는 사진들이다. In each step, the identification code (first, second, etc.) is used for convenience of description, and the identification code does not describe the order of each step, and each step does not clearly describe a specific order in context. It may be performed differently from the order specified above. That is, each step may be performed in the same order as specified, may be performed substantially simultaneously, or may be performed in the reverse order. 1A is a diagram schematically illustrating an automatic translation and
도 1a와 도 1b를 참조하여 설명하면, 자동 통번역 및 대화 보조 시스템(1000)은 인식부(100), 텍스트생성부(200), 번역도출부(300) 및 통합제어부(400)를 포함할 수 있다. Referring to FIGS. 1A and 1B , the automatic translation and
먼저, 인식부(100)는 일방향에서 발화되는 제1 언어의 음성과 타방향에서 발화되는 제2 언어의 음성을 화자별로 구분하여 개별적으로 인식할 수 있다. First, the
다음으로, 텍스트생성부(200)는 인식부(100)를 통해 순차적으로 인식되는 제1 및 제2 언어의 음성을 딥러닝 기반의 인공지능모델을 통해 분석함에 따라, 시간별 문장텍스트를 생성하고 이를 토대로 대화창 리스트를 생성할 수 있다. Next, the
여기서, 대화창 리스트는 일방향에 위치한 화자와 타방향에 위치한 화자 간의 시간별 문장텍스트들이 서로 구분되는 채팅창일 수 있다. Here, the chat window list may be a chat window in which sentence texts by time between a speaker located in one direction and a speaker located in another direction are distinguished from each other.
이때, 딥러닝 기반의 인공지능모델은 인공 신경 회로망(Artificial Neural Network), SVM(Support Vector Machine), 의사 결정 트리(Decision Tree) 및 랜덤 포레스트(Random Forest) 중 어느 하나의 알고리즘일 수 있다. 예를 들면, 인공 신경 회로망은 주로 딥러닝에서 사용되어 지고, 기계학습과 생물학의 신경망에서 영감을 얻은 통계학적 학습 알고리즘으로서, 특징 추출 신경망과 분류 신경망을 포함하는 컨볼루션 신경망일 수 있다. In this case, the deep learning-based artificial intelligence model may be any one algorithm of an artificial neural network, a support vector machine (SVM), a decision tree, and a random forest. For example, an artificial neural network is a statistical learning algorithm that is mainly used in deep learning and is inspired by neural networks in machine learning and biology, and may be a convolutional neural network including a feature extraction neural network and a classification neural network.
다음으로, 번역도출부(300)는 기설정된 규칙기반(Rule-Based Machine Translation: RBMT), 패턴기반, 통계기반(Statistical Machine Translation: SMT), 및 인공지능 기반(Neuronal Machine Translation: NMT) 중 어느 하나의 번역기가 임베딩되고, 이를 이용하여 대화창 리스트에서 검출되는 화자별 문장텍스트를 기설정된 언어로 개별적으로 번역함에 따라 제1 및 제2 번역텍스트를 도출할 수 있다.Next, the translation derivation unit 300 uses any one of rule-based machine translation (RBMT), pattern-based, statistical machine translation (SMT), and artificial intelligence-based (neuronal machine translation: NMT). One translator is embedded, and the first and second translated texts may be derived by individually translating the sentence text for each speaker detected in the chat window list into a preset language by using the embedded translator.
여기서, 번역기는 오프라인 상에서 제1 및 제2 번역텍스트를 도출하기 위하여, 기설정된 규칙기반(Rule-Based Machine Translation: RBMT), 패턴기반, 통계기반(Statistical Machine Translation: SMT) 및 인공지능 기반(Neuronal Machine Translation: NMT)의 번역 기술에서 필요로 하는 형태소 사전 데이터, 문법 사전 데이터, 문장 패턴 사전 데이터, 구(phase) 사전 데이터 및 병렬 코퍼스 데이터를 메모리(미도시)에 사전에 등록할 수 있다. Here, the translator uses preset rule-based machine translation (RBMT), pattern-based, statistical machine translation (SMT) and artificial intelligence-based (neuronal Morphological dictionary data, grammar dictionary data, sentence pattern dictionary data, phase dictionary data, and parallel corpus data required for machine translation (NMT) translation technology may be registered in a memory (not shown) in advance.
이러한 번역기는 복수의 분야별 맞춤형 번역기들을 포함할 수 있다. 구체적으로, 복수의 분야별 맞춤형 번역기들은 직업, 연령, 지역, 관심분야, 종교에 따라 불필요 단어들이 제거된 번역기들일 수 있다. 예를 들면, 이용자의 직업이 의사인 경우, 번역도출부(300)는 의학 용어로 최적화된 번역기를 이용하고, 이용자의 연령이 유아인 경우, 신조어 용어로 최적화된 번역기를 이용할 수 있다.Such a translator may include a plurality of field-specific customized translators. Specifically, the translators customized for each field may be translators from which unnecessary words are removed according to occupation, age, region, field of interest, or religion. For example, if the user's job is a doctor, the translation derivation unit 300 may use a translator optimized for medical terms, and if the user's age is an infant, a translator optimized for neologism terms may be used.
일 실시예에 따라, 대화창 리스트에서 검출되는 화자별 문장텍스트를 도메인 특화 기반의 번역기술을 통해 기설정된 언어로 개별적으로 번역함에 따라, 제1 및 제2 번역텍스트를 획득할 수도 있다. According to an embodiment, the first and second translated texts may be obtained by individually translating sentence texts for each speaker detected in the chat window list into a preset language through a domain-specialized translation technology.
여기서, 도메인 특화 기반의 번역기술은 transformer 기반의 인코딩 및 디코딩 알고리즘을 통해 화자별 문장텍스트를 기설정된 언어로 기계번역할 수 있다. Here, the domain-specialized translation technology can machine-translate each speaker's sentence text into a preset language through a transformer-based encoding and decoding algorithm.
다음으로, 통합제어부(400)는 대화창 리스트로부터 확인되는 시간 및 화자정보에 기초하여, 제1 및 제2 번역텍스트로부터 한쌍의 출력용자막을 선택하여 투명 디스플레이(10)를 통해 서로 다른 출력방향으로 출력시킬 수 있다. Next, the
여기서, 한쌍의 출력용자막은 서로 의미가 대응되도록 번역되는 문장텍스트로써, 일측에 위치한 화자에게 제공하기 위하여 제1 언어로 표시된 제1 출력용자막과 타측에 위치한 화자에게 제공하기 위하여 제2 언어로 표시된 제2 출력용자막을 포함할 수 있다. Here, a pair of subtitles for output are sentence texts translated so that their meanings correspond to each other. A first subtitle for output displayed in a first language to be provided to a speaker located on one side and a second subtitle displayed in a second language to be provided to a speaker located on the other side 2 Subtitles for output may be included.
일 실시예에 따라, 통합제어부(400)는 투명 디스플레이(10)에 배치된 거리측정센서(미도시)를 통해 측정된 화자별 거리정보에 기초하여, 투명 디스플레이(10)에 대한 한쌍의 출력용자막의 각 출력면적을 서로 다른 면적비율로 조절할 수 있다. According to an embodiment, the
예를 들면, 일측에 위치한 화자의 거리정보가 80cm 이고 타측에 위치한 화자의 거리정보가 40cm로 일정거리 차이를 가지는 경우, 통합제어부(400)는 한쌍의 출력용자막 중 제1 출력용자막의 출력면적을 증가시키고 제2 출력용자막의 출력면적을 증가시킬 수 있다. For example, when the distance information of a speaker located on one side is 80 cm and the distance information of a speaker located on the other side has a certain distance difference of 40 cm, the
다른 실시예에 따라, 통합제어부(400)는 투명 디스플레이(10)에 배치된 레이저센서(미도시)를 통해 측정된 화자별 호흡 및 심박신호에 따라 분석되는 화자별 심리상태에 기초하여, 한쌍의 출력용자막을 컬라테라피 색상으로 보정처리할 수 있다. According to another embodiment, the
예를 들면, 심리상태가 무기력한 경우 컬라테라피 색상은 빨강이고, 심리상태가 슬픔과 상실감인 경우 컬라테라피 색상은 주황이며, 심리상태가 불면증, 피로감 및 두통인 경우 컬라테라피 색상은 파랑이고, 심리상태가 불안정인 경우 컬라테라피 색상은 초록이고, 심리상태가 따분하거나 지겨움인 경우 컬라테라피 색상은 노랑일 수 있다. For example, if the psychological state is lethargic, the color therapy color is red, if the psychological state is sadness and loss, the color therapy color is orange, and if the psychological state is insomnia, fatigue, or headache, the color therapy color is blue, and the psychological state is blue. If the state is unstable, the color therapy color may be green, and if the psychological state is boring or boring, the color therapy color may be yellow.
또 다른 실시예에 따라, 통합제어부(400)는 한쌍의 출력용자막을 출력하기 이전에 간이 시력 검사표를 출력함에 따라 피드백받는 응답신호에 기초하여 화자시력을 추정하고, 이를 기초로 한쌍의 출력용자막에 대한 각 글씨체 확대비율을 자동으로 조절할 수 있다. According to another embodiment, the
또 다른 실시예에 따라, 통합제어부(400)는 투명 디스플레이(10)에 배치된 아이트래커 모듈(미도시)을 통해 측정된 안구운동 데이터에 기초하여, 투명 디스플레이(10)를 통해 한쌍의 출력용자막 이후에 출력되는 다음자막의 페이지 전환속도를 조절할 수 있다. According to another embodiment, the
예를 들면, 안구운동 데이터가 기설정된 속도 이상인 경우, 통합제어부(400)는 투명 디스플레이(10)를 통해 한쌍의 출력용자막 이후에 출력되는 다음자막의 페이지 전환속도를 증가시킬 수 있다. 또한, 안구운동 데이터가 기설정된 속도 미만인 경우, 통합제어부(400)는 투명 디스플레이(10)를 통해 한쌍의 출력용자막 이후에 출력되는 다음자막의 페이지 전환속도를 감소시킬 수 있다. For example, when eye movement data is equal to or greater than a predetermined speed, the
또 다른 실시예에 따라, 통합제어부(400)는 하기 도 2에서 설명될 적어도 하나의 입력장치(120)를 통해 입력받는 SNS 계정정보를 등록함에 따라, 네트워크를 통해 연결된 통합관리서버(2000)를 이용하여 SNS 계정정보에 대응되는 화자단말(20)에 대화창 리스트를 이미지 파일로 전송할 수 있다. According to another embodiment, the
또 다른 실시예에 따라, 통합제어부(400)는 메모리(미도시)에 수집된 제1 및 제2 번역텍스트에 기초하여, 제1 번역텍스트를 투명 디스플레이(10)를 통해 출력함에 따라 제2 번역텍스트를 음성, 수화 및 텍스트 중 어느 하나의 방식으로 요청하는 학습서비스 모드를 제공할 수 있다. According to another embodiment, the
또 다른 실시예에 따라, 통합제어부(400)는 투명 디스플레이(10)에 배치된 환경감지센서들(미도시)을 통해 감지된 재난환경상태에 기초하여, 투명 디스플레이(10)를 통해 재난경보를 출력할 수 있다. 여기서, 환경감지센서들(미도시)은 연기 감지센서, 일산화탄소 감지센서, 온도 감지센서를 포함할 수 있다. According to another embodiment, the
이하, 구체적인 실시예와 비교예를 통하여 본 발명의 구성 및 그에 따른 효과를 보다 상세히 설명하고자 한다. 그러나, 본 실시예는 본 발명을 보다 구체적으로 설명하기 위한 것이며, 본 발명의 범위가 이들 실시예에 한정되는 것은 아니다.Hereinafter, the configuration of the present invention and its effects will be described in more detail through specific examples and comparative examples. However, these examples are for explaining the present invention in more detail, and the scope of the present invention is not limited to these examples.
도 2는 도 1의 인식부(100)를 구체적으로 나타내는 블록도이다. FIG. 2 is a block diagram showing the
도 1a 내지 도 2를 참조하면, 인식부(100)는 적어도 하나의 지향성마이크(110), 적어도 하나의 입력장치(120), 적어도 하나의 카메라(130), 검출모듈(140), 텍스트추출모듈(150) 및 식별모듈(160)을 포함할 수 있다. 1A to 2, the
먼저, 적어도 하나의 지향성마이크(110)는 투명 디스플레이(10)에 배치되어, 투명 디스플레이(10)으로부터 일정거리 이격된 특정방향에서 발화되는 발화음성을 선택적으로 인식할 수 있다. First, at least one
다음으로, 적어도 하나의 입력장치(120)는 투명 디스플레이(10)로부터 일정거리 이격되도록 배치되어, 발화음성을 대신할 입력텍스트를 입력받을 수 있다. Next, at least one
다음으로, 적어도 하나의 카메라(130)는 특정방향을 향해 촬영하여 한쌍의 화자영상을 획득할 수 있다. Next, at least one
예를 들면, 적어도 하나의 지향성마이크(110)와 적어도 하나의 카메라(130)는 투명 디스플레이(10)를 기준으로 일면과 타면에 각각 개별적으로 배치되고, 적어도 하나의 입력장치(120)는 양면을 기준으로 일정거리 이격된 위치에 배치될 수 있다. For example, at least one
다음으로, 검출모듈(140)은 적어도 하나의 카메라(130)를 통해 촬영된 한쌍의 화자영상 중 어느 하나로부터 기설정된 표정 및 제스처 객체를 검출할 수 있다. Next, the
다음으로, 텍스트추출모듈(150)은 제스처 객체에 대응되는 수화용 텍스트와 기설정된 표정에 따라 기설정된 긴급안내 텍스트를 메모리(미도시)로부터 추출하여 인식할 수 있다. Next, the
다음으로, 식별모듈(160)은 적어도 하나의 지향성마이크(110)를 통해 인식된 발화음성, 적어도 하나의 입력장치(120)를 통해 입력받는 입력텍스트 및 텍스트추출모듈(150)을 통해 추출된 수화용 텍스트에 대화시간과 화자방향을 표시한 식별코드를 부여하여 메모리(미도시)에 저장 및 분류할 수 있다. Next, the
이러한 식별모듈(160)은 제1 및 제2 언어의 음성을 식별코드에 따라 분류하여 텍스트생성부(200)에 문장단위별로 딥러닝 기반의 인공지능모델에 순차적으로 입력할 수 있다. The
도 3은 도 1의 텍스트생성부(200)의 실시예에 따른 블록도이다. FIG. 3 is a block diagram of the
도 1a 내지 도 3을 참조하여 설명하면, 텍스트생성부(200)는 제1 및 제2 모델링부(210, 220), 잡음처리부(230) 및 디코더(240)를 포함할 수 있다. Referring to FIGS. 1A to 3 , the
먼저, 제1 모델링부(210)는 메모리(미도시)에 기수집된 어휘단어사전을 학습하여 딥러닝 기반의 음성인식모델을 모델링할 수 있다. 여기서, 딥러닝 기반의 음성인식모델은 기수집된 어휘단어사전을 학습하는 구글의 딥마인드와 IBM의 TrueNorth 중 어느 하나를 통해 도출되는 알고리즘일 수 있다. First, the
다음으로, 제2 모델링부(220)는 메모리(미도시)에 기수집된 발음규칙을 학습하여 규칙 및 통계 기반의 음향모델을 모델링할 수 있다. 여기서, 규칙 및 통계 기반의 음향모델은 기수집된 발음규칙을 학습하는 IBM의 Watson 프로그램을 통해 도출되는 알고리즘일 수 있다. Next, the
다음으로, 신호처리부(230)는 식별모듈(160)을 통해 문장단위별로 입력받는 제1 및 제2 언어의 음성을 음성인식 특징벡터에 따라 입력신호로 변환처리할 수 있다. Next, the
여기서, 음성인식 특징벡터는 MFCC(mel frequency cepstral coefficient), LPC(linear predictive coefficients), PLP(perceptual linear prediction) 등과 같은 다양한 특징 벡터들 중의 어느 하나를 포함할 수 있다. Here, the speech recognition feature vector may include any one of various feature vectors such as mel frequency cepstral coefficient (MFCC), linear predictive coefficients (LPC), and perceptual linear prediction (PLP).
이때, 입력신호는 딥러닝 기반의 음성인식모델과 규칙 및 통계 기반의 음향모델에 입력되는 인자를 의미할 수 있다. In this case, the input signal may mean a factor input to a deep learning-based speech recognition model and a rule- and statistics-based acoustic model.
다음으로, 디코더(240)는 신호처리부(330)를 통해 변환처리된 입력신호를 딥러닝 기반의 음성인식모델과 규칙 및 통계 기반의 음향모델에 적용함에 따라 문자정보인 화자별 텍스트로 출력할 수 있다. Next, the
이때, 디코더(240)는 메모리(미도시)에서 확인된 식별코드에 따라, 화자별 텍스트에 입력텍스트 및 수화용 텍스트를 화자별 텍스트에 순차적으로 리스트 및 병합시킬 수 있다. In this case, the
도 4는 도 1의 통합제어부(400)의 실시예에 따른 블록도이다. FIG. 4 is a block diagram of the
도 1a 내지 도 4를 참조하면, 통합제어부(400)는 비교부(410)와 음성보정부(420)를 포함할 수 있다. Referring to FIGS. 1A to 4 , the
먼저, 비교부(410)는 인식부(100)를 통해 인식된 제1 및 제2 언어의 각 음성으로부터 분석되는 음성특성과 기설정된 기준샘플을 비교할 수 있다. First, the
여기서, 기준샘플은 음성을 정확하게 인식할 수 있게 하는 샘플음성을 의미하고, 또한, 음성특성은 음절당 발성 속도, 발성 중 묵음시간 및 음성의 포먼트주파수 중 어느 하나를 포함할 수 있다. Here, the reference sample means a sample voice enabling accurate voice recognition, and the voice characteristics may include any one of a voice rate per syllable, a silence time during voice, and a formant frequency of voice.
이때, 음성보정부(420)는 비교부(410)를 통해 확인된 비교 결과에 기초하여, 제1 및 제2 언어의 각 음성을 기준샘플의 음성특징에 따라 보정하여 인식부(100)로 피드백 제공할 수 있다. At this time, the
예를 들면, 음절 당 발성 속도가 기준샘플에 해당하는 임계 범위를 벗어날 경우, 음성보정부(220)는 제1 및 제2 언어의 음성의 발성 속도를 기준샘플에 따른 발성 속도로 보정할 수 있다. For example, when the rate of speech per syllable is out of the critical range corresponding to the reference sample, the
일 실시예에 따라, 음성보정부(420)는 인식부(100)를 통해 인식된 제1 및 제2 언어의 음성신호를 주파수 분석함에 따라 획득된 오디오 시각정보를 한쌍의 출력용자막에 통합하여 투명 디스플레이(10)를 통해 출력함으로써, 화자음성의 최적 볼륨 크기로 발화되도록 유도할 수 있다. According to an embodiment, the
다른 실시예에 따라, 음성보정부(420)는 인식부(100)를 통해 인식된 음성의 가청 주파수 이외의 대역 예컨대, 1000,000hz 이상의 초음파 및 7hz 이하의 초저주파의 볼륨크기에 기초하여, 제1 및 제2 언어의 음성신호에 대한 기설정된 가청주파수 대역을 증폭시키도록 제어할 수 있다. According to another embodiment, the
이러한 음성보정부(420)는 필터링부(421)과 콘텐츠제공부(422)를 더 포함할 수 있다. 구체적으로, 필터링부(421)는 인식부(100)를 통해 인식되는 묵음신호로부터 확인된 소음신호에 따라 노이즈 캔슬링 신호를 생성하고, 이를 토대로 제1 및 제2 언어의 음성신호에 대한 노이즈를 필터링할 수 있다. 여기서, 묵음신호는 제1 및 제2 언어의 음성에 해당하는 주파수대역의 볼륨이 기설정된 시간동안 인식받지 않는 동안에 인식부(100)를 통해 인식된 특정주파수 대역의 반복적인 소음신호를 포함할 수 있다. 이때, 콘텐츠제공부(422)는 묵음신호가 일정시간 동안 지속되는 경우, 투명 디스플레이(10)를 통해 한쌍의 출력용자막에 대한 출력을 일시중지시키고 분위기 전환을 위한 힐링콘텐츠를 대체하여 출력시킬 수 있다.The
본 명세서에서는 본 발명자들이 수행한 다양한 실시예 가운데 몇 개의 예만을 들어 설명하는 것이나 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고, 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.In this specification, only a few examples of various embodiments performed by the present inventors are described, but the technical spirit of the present invention is not limited or limited thereto, and can be modified and implemented in various ways by those skilled in the art, of course.
10: 투명 디스플레이
100: 인식부
200: 텍스트생성부
300: 번역도출부
400: 통합제어부
1000: 자동 통번역 및 대화 보조 시스템10: transparent display
100: recognition unit
200: text generator
300: translation derivation department
400: integrated control unit
1000: automatic translation and conversation assistance system
Claims (9)
상기 제1 및 제2 언어의 음성을 딥러닝의 기반의 인공지능을 통해 분석함에 따라 시간별 문장텍스트를 생성하고 이를 토대로 대화창 리스트를 생성하는 텍스트생성부;
기설정된 규칙기반, 패턴기반, 통계기반 및 인공지능 기반 중 어느 하나의 번역기가 임베딩되고, 이를 이용하여 상기 대화창 리스트를 기설정된 언어들로 개별적으로 번역함에 따라 제1 및 제2 번역텍스트를 도출하는 번역도출부; 및
상기 대화창 리스트로부터 확인되는 시간 및 화자정보에 기초하여, 상기 제1 및 제2 번역텍스트로부터 한쌍의 출력용자막을 순차적으로 선택하여 투명 디스플레이를 통해 서로 다른 출력방향으로 출력시키는 통합제어부를 포함하고,
상기 한쌍의 출력용자막은 서로 의미가 동일하게 번역되고 상기 제1 언어로 표시된 제1 출력용자막과 상기 제2 언어로 표시된 제2 출력용자막을 포함하며,
상기 인식부는 특정방향에서 발화되는 발화음성을 선택적으로 인식하기 위한 적어도 하나의 지향성마이크;
상기 발화음성을 대신할 입력텍스트를 입력받기 위한 적어도 하나의 입력장치;
상기 특정방향을 향해 촬영하여 한쌍의 화자영상을 획득하는 적어도 하나의 카메라;
상기 한쌍의 화자영상 중 어느 하나로부터 기설정된 표정 및 제스처 객체를 검출하는 검출모듈;
상기 제스처 객체에 대응되는 수화용 텍스트와 상기 기설정된 표정에 따라 긴급안내 텍스트를 메모리로부터 추출하는 텍스트추출모듈; 및
상기 발화음성, 상기 입력텍스트 및 상기 수화용 텍스트에 발화시간과 화자방향을 표시한 식별코드를 부여하여 상기 메모리에 저장하는 식별모듈을 포함하고,
상기 통합제어부는 상기 인식부를 통해 인식된 상기 제1 및 제2 언어의 각 음성으로부터 분석되는 음성특성과 기설정된 기준샘플을 비교하는 비교부; 및
상기 비교부를 통해 확인된 비교 결과에 기초하여, 상기 제1 및 제2 언어의 각 음성을 기준샘플의 음성특징에 따라 보정하는 음성보정부를 포함하고,
상기 음성보정부는 상기 제1 및 제2 언어의 음성신호를 주파수 분석함에 따라 획득된 오디오 시각정보를 상기 한쌍의 출력용자막에 통합하여 상기 투명 디스플레이를 통해 출력하며,
상기 오디오 시각정보는 화자음성의 최적 볼륨 크기로 발화되도록 유도하기 위하여, 소리의 성분과 강도를 주파수 분석함에 따라 시각화되는 오디오 스펙트럼이고,
상기 음성보정부는 음성의 가청 주파수 이외의 대역의 볼륨크기에 기초하여, 상기 제1 및 제2 언어의 음성신호에 대한 기설정된 가청주파수 대역을 증폭시키도록 제어하고,
상기 통합제어부는 상기 투명 디스플레이에 배치된 거리측정센서를 통해 측정된 화자별 거리정보에 기초하여, 상기 투명 디스플레이에 대한 상기 한쌍의 출력용자막의 출력면적을 서로 다른 면적비율로 조절하며,
상기 통합제어부는 상기 한쌍의 출력용자막을 출력시키기 이전에 간이 시력 검사표를 출력함에 따라 피드백받는 응답신호에 기초하여 화자시력을 추정하고, 이를 기초로 한쌍의 출력용자막에 대한 각 글씨체 확대비율을 자동으로 조절하고,
상기 통합제어부는 상기 투명 디스플레이에 배치된 아이트래커 모듈을 통해 측정된 안구운동 데이터에 기초하여, 상기 한쌍의 출력용자막 이후에 출력되는 다음자막의 페이지 전환속도를 조절하며,
상기 통합제어부는 상기 적어도 하나의 입력장치를 통해 입력받는 SNS 계정정보를 등록함에 따라, 네트워크를 통해 연결된 통합관리서버를 이용하여 SNS 계정정보에 대응되는 화자단말에 상기 대화창 리스트를 이미지 파일로 전송하며,
상기 통합제어부는 상기 투명 디스플레이에 배치된 환경감지센서들을 통해 감지된 재난환경상태에 기초하여, 상기 투명 디스플레이를 통해 재난경보를 출력하고,
상기 환경감지센서들은 연기 감지센서, 일산화탄소 감지센서, 온도 감지센서를 포함하는, 투명 디스플레이를 이용한 자동 통번역 및 대화 보조 시스템.a recognition unit for separately recognizing a voice of a first language spoken in one direction and a voice of a second language spoken in another direction by speaker;
a text generation unit that analyzes the voices of the first and second languages through artificial intelligence based on deep learning to generate time-specific sentence text and based on this, creates a dialog list;
Any one of preset rule-based, pattern-based, statistical-based, and artificial intelligence-based translators is embedded, and by using this, the dialog list is individually translated into preset languages to derive first and second translated texts. translation derivation department; and
An integrated control unit that sequentially selects a pair of subtitles for output from the first and second translation texts based on the time and speaker information identified from the dialog window list and outputs them in different output directions through a transparent display;
The pair of subtitles for output includes a first subtitle for output displayed in the first language and a second subtitle for output displayed in the second language and translated to have the same meaning as each other;
The recognizing unit includes at least one directional microphone for selectively recognizing a spoken voice uttered in a specific direction;
at least one input device for receiving an input text to replace the spoken voice;
at least one camera for acquiring a pair of speaker images by photographing in the specific direction;
a detection module for detecting a predetermined facial expression and gesture object from one of the pair of speaker images;
a text extraction module extracting from a memory a text for sign language corresponding to the gesture object and an emergency guidance text according to the preset facial expression; and
an identification module for assigning an identification code indicating a speech time and a speaker direction to the spoken voice, the input text, and the sign language text and storing them in the memory;
The integrated control unit includes a comparison unit that compares voice characteristics analyzed from each voice of the first and second languages recognized through the recognition unit with a preset reference sample; and
Based on the comparison result confirmed through the comparison unit, a voice correction unit for correcting each voice of the first and second languages according to the voice characteristics of the reference sample,
The voice correction unit integrates audio and visual information obtained by frequency-analyzing the voice signals of the first and second languages into the pair of output subtitles and outputs them through the transparent display;
The audio visual information is an audio spectrum visualized by frequency analysis of components and strengths of sound in order to induce utterance at an optimal volume level of the speaker's voice;
The voice correction unit controls to amplify a predetermined audible frequency band for the voice signals of the first and second languages based on the volume level of a band other than the audible frequency of voice,
The integrated control unit adjusts the output area of the pair of subtitles for output to the transparent display at different area ratios based on distance information for each speaker measured through a distance measuring sensor disposed on the transparent display,
As the integrated control unit outputs a simple visual acuity checklist before outputting the pair of subtitles for output, the integrated controller estimates the visual acuity of the speaker based on the response signal received as feedback, and automatically adjusts the magnification ratio of each font for the pair of subtitles for output based on this estimate. to regulate,
The integrated control unit adjusts a page switching speed of the next subtitle output after the pair of output subtitles based on eye movement data measured through an eye tracker module disposed on the transparent display;
As the integrated control unit registers SNS account information received through the at least one input device, it transmits the dialog list as an image file to a speaker terminal corresponding to the SNS account information using an integrated management server connected through a network. ,
The integrated control unit outputs a disaster alert through the transparent display based on a disaster environmental state detected through environment sensors disposed on the transparent display,
The environment detection sensors include a smoke detection sensor, a carbon monoxide detection sensor, and a temperature detection sensor, and an automatic interpretation/translation and conversation assistance system using a transparent display.
상기 번역기는 복수의 분야별 맞춤형 번역기들을 포함하고,
상기 복수의 분야별 맞춤형 번역기들은 직업, 연령, 지역, 관심분야, 종교에 따라 불필요 단어들이 제거된 번역기들인, 투명 디스플레이를 이용한 자동 통번역 및 대화 보조 시스템.According to claim 1,
The translator includes a plurality of field-specific customized translators,
The automatic translation and conversation assistance system using a transparent display, wherein the plurality of field-specific customized translators are translators from which unnecessary words are removed according to occupation, age, region, interest, and religion.
상기 텍스트생성부는 상기 메모리에 기수집된 어휘단어사전을 학습하여 딥러닝 기반의 음성인식모델을 모델링하는 제1 모델링부;
상기 메모리에 기수집된 발음규칙을 학습하여 규칙 및 통계 기반의 음향모델을 모델링하는 제2 모델링부;
상기 제1 및 제2 언어의 음성을 음성인식 특징벡터에 따라 입력신호로 변환처리하는 신호처리부; 및
상기 입력신호를 상기 음성인식모델과 상기 음향모델에 적용함에 따라 문자정보인 화자별 텍스트로 출력하고, 상기 식별코드에 따라 상기 입력텍스트 및 상기 수화용 텍스트를 화자별 텍스트에 병합하는 디코더를 포함하는, 투명 디스플레이를 이용한 자동 통번역 및 대화 보조 시스템.According to claim 1,
a first modeling unit for modeling a deep learning-based voice recognition model by learning the vocabulary word dictionary previously collected in the memory;
a second modeling unit that learns the pronunciation rules previously collected in the memory and models a rule- and statistics-based acoustic model;
a signal processing unit which converts the voices of the first and second languages into input signals according to voice recognition feature vectors; and
A decoder for outputting the input signal as text for each speaker, which is character information, by applying the input signal to the speech recognition model and the acoustic model, and merging the input text and the sign language text with the text for each speaker according to the identification code , Automatic translation and conversation assistance system using a transparent display.
상기 음성보정부는 상기 인식부를 통해 인식되는 묵음신호로부터 확인된 소음신호에 따라 노이즈 캔슬링 신호를 생성하고, 이를 토대로 상기 제1 및 제2 언어의 음성신호에 대한 노이즈를 필터링하는 필터링부; 및
상기 묵음신호가 일정시간 동안 지속되는 경우, 상기 투명 디스플레이를 통해 상기 한쌍의 출력용자막에 대한 출력을 일시중지시키고 분위기 전환을 위한 힐링콘텐츠 영상을 대체하여 출력시키는 콘텐츠제공부를 포함하고,
상기 묵음신호는 상기 제1 및 제2 언어의 음성에 해당하는 주파수대역의 볼륨이 기설정된 시간동안 인식받지 않는 동안에 상기 인식부를 통해 인식된 특정주파수 대역의 반복적인 소음신호를 포함하는, 투명 디스플레이를 이용한 자동 통번역 및 대화 보조 시스템.
According to claim 1,
The voice correction unit may include a filtering unit generating a noise canceling signal according to the noise signal identified from the silence signal recognized through the recognition unit, and filtering noise of the first and second language voice signals based thereon; and
When the silence signal lasts for a certain period of time, a content providing unit for temporarily pausing the output of the pair of output subtitles through the transparent display and replacing and outputting a healing content image for changing the atmosphere,
The mute signal includes a repetitive noise signal of a specific frequency band recognized through the recognition unit while the volume of the frequency band corresponding to the voice of the first and second languages is not recognized for a predetermined time. Automatic translation and conversation assistance system used.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220150167A KR102557092B1 (en) | 2022-11-11 | 2022-11-11 | Automatic interpretation and translation and dialogue assistance system using transparent display |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220150167A KR102557092B1 (en) | 2022-11-11 | 2022-11-11 | Automatic interpretation and translation and dialogue assistance system using transparent display |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102557092B1 true KR102557092B1 (en) | 2023-07-19 |
Family
ID=87425591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220150167A KR102557092B1 (en) | 2022-11-11 | 2022-11-11 | Automatic interpretation and translation and dialogue assistance system using transparent display |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102557092B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102635031B1 (en) | 2023-09-27 | 2024-02-13 | 주식회사 에이아이노미스 | Method, device, and system for providing speaker separation real-time interpretation service based on semantic unit visualization |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020076044A (en) | 2001-03-27 | 2002-10-09 | 삼성전자 주식회사 | Automatic interpretation apparatus and method using dialogue model |
JP2006023953A (en) * | 2004-07-07 | 2006-01-26 | Fuji Photo Film Co Ltd | Information display system |
KR20120072244A (en) * | 2010-12-23 | 2012-07-03 | 한국전자통신연구원 | System and method for integrating gesture and sound for controlling device |
JP2017054065A (en) * | 2015-09-11 | 2017-03-16 | 株式会社Nttドコモ | Interactive device and interactive program |
KR20170112713A (en) * | 2016-04-01 | 2017-10-12 | 삼성전자주식회사 | Device and method for voice translation |
KR20190059381A (en) * | 2017-11-23 | 2019-05-31 | 연세대학교 산학협력단 | Method for Device Control and Media Editing Based on Automatic Speech/Gesture Recognition |
KR20200032441A (en) * | 2018-09-18 | 2020-03-26 | 한국전자통신연구원 | User adaptive automatic translation model selection enhancement device and method |
KR20220070709A (en) * | 2020-11-23 | 2022-05-31 | 서울대학교산학협력단 | Speech Recognition Error Correction Modeling Method using Text and Speech Characteristics of Speech Recognition |
-
2022
- 2022-11-11 KR KR1020220150167A patent/KR102557092B1/en active IP Right Grant
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020076044A (en) | 2001-03-27 | 2002-10-09 | 삼성전자 주식회사 | Automatic interpretation apparatus and method using dialogue model |
JP2006023953A (en) * | 2004-07-07 | 2006-01-26 | Fuji Photo Film Co Ltd | Information display system |
KR20120072244A (en) * | 2010-12-23 | 2012-07-03 | 한국전자통신연구원 | System and method for integrating gesture and sound for controlling device |
JP2017054065A (en) * | 2015-09-11 | 2017-03-16 | 株式会社Nttドコモ | Interactive device and interactive program |
KR20170112713A (en) * | 2016-04-01 | 2017-10-12 | 삼성전자주식회사 | Device and method for voice translation |
KR20190059381A (en) * | 2017-11-23 | 2019-05-31 | 연세대학교 산학협력단 | Method for Device Control and Media Editing Based on Automatic Speech/Gesture Recognition |
KR20200032441A (en) * | 2018-09-18 | 2020-03-26 | 한국전자통신연구원 | User adaptive automatic translation model selection enhancement device and method |
KR20220070709A (en) * | 2020-11-23 | 2022-05-31 | 서울대학교산학협력단 | Speech Recognition Error Correction Modeling Method using Text and Speech Characteristics of Speech Recognition |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102635031B1 (en) | 2023-09-27 | 2024-02-13 | 주식회사 에이아이노미스 | Method, device, and system for providing speaker separation real-time interpretation service based on semantic unit visualization |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108447486B (en) | Voice translation method and device | |
KR102386854B1 (en) | Apparatus and method for speech recognition based on unified model | |
JP2017058674A (en) | Apparatus and method for speech recognition, apparatus and method for training transformation parameter, computer program and electronic apparatus | |
CN108231065A (en) | Multi-lingual person's speech recognition correction system | |
EP2645364B1 (en) | Spoken dialog system using prominence | |
KR20130022607A (en) | Voice recognition apparatus and method for recognizing voice | |
NO316847B1 (en) | Method and apparatus for converting speech into text | |
Qian et al. | A two-pass framework of mispronunciation detection and diagnosis for computer-aided pronunciation training | |
CN110675866B (en) | Method, apparatus and computer readable recording medium for improving at least one semantic unit set | |
KR101836430B1 (en) | Voice recognition and translation method and, apparatus and server therefor | |
JP2021529337A (en) | Multi-person dialogue recording / output method using voice recognition technology and device for this purpose | |
JPH10504404A (en) | Method and apparatus for speech recognition | |
KR20150065523A (en) | Method and apparatus for providing counseling dialogue using counseling information | |
Reddy et al. | Speech-to-Text and Text-to-Speech Recognition Using Deep Learning | |
KR102557092B1 (en) | Automatic interpretation and translation and dialogue assistance system using transparent display | |
KR102069697B1 (en) | Apparatus and method for automatic interpretation | |
KR20090040014A (en) | Apparatus and method for synchronizing text analysis-based lip shape | |
JP6723907B2 (en) | Language recognition system, language recognition method, and language recognition program | |
KR102253015B1 (en) | Apparatus and method of an automatic simultaneous interpretation using presentation scripts analysis | |
US11817079B1 (en) | GAN-based speech synthesis model and training method | |
NO318557B1 (en) | Speech-to-speech conversion method and system | |
Rekimoto | DualVoice: Speech Interaction That Discriminates between Normal and Whispered Voice Input | |
KR101765154B1 (en) | Method for convert voice to cyber sign language | |
Tits et al. | Flowchase: a Mobile Application for Pronunciation Training | |
US20230004726A1 (en) | Conversion table generation device, conversion table generation method, and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |