미분 가능한 신경 컴퓨터
Differentiable neural computer![](http://upload.wikimedia.org/wikipedia/commons/thumb/b/b5/DNC_training_recall_task.gif/300px-DNC_training_recall_task.gif)
인공지능에서 DNC(Differentible Neural Computer)는 메모리 증강 뉴럴 네트워크 아키텍처(MANN)로, 일반적으로 구현 시 (정의에 따라) 반복됩니다.이 모델은 DeepMind의 [1]알렉스 그레이브스 등에 의해 2016년에 출판되었다.
적용들
DNC는 간접적으로 Von-Neumann 아키텍처에서 영감을 얻어 근본적으로 결정 경계를 찾아 학습할 수 없는 알고리즘적인 태스크에서 기존 아키텍처보다 더 뛰어난 성능을 발휘합니다.
지금까지 DNC는 기존 프로그래밍을 사용하여 해결할 수 있는 비교적 단순한 작업만 처리하는 것으로 입증되었습니다.그러나 DNC는 각 문제에 대해 프로그래밍할 필요가 없으며 대신 교육을 받을 수 있습니다.이 주의 범위를 통해 사용자는 그래프와 같은 복잡한 데이터 구조를 순차적으로 공급하고 나중에 사용하기 위해 불러올 수 있습니다.게다가, 그들은 상징적 추론의 측면을 배울 수 있고 그것을 작업 기억에 적용할 수 있다.이 방법을 발표한 연구진은 DNC가 복잡하고[1][2] 구조화된 작업을 수행하도록 훈련받고 비디오 해설이나 의미 텍스트 [3][4]분석과 같은 어떤 종류의 추론을 필요로 하는 빅데이터 애플리케이션에 대처할 수 있다는 가능성을 보고 있습니다.
DNC는 고속 운송 시스템을 탐색하고 해당 네트워크를 다른 시스템에 적용하도록 훈련할 수 있습니다.메모리가 없는 뉴럴 네트워크는 일반적으로 각 트랜짓 시스템에 대해 처음부터 학습해야 합니다.지도 학습과 함께 그래프 통과 및 시퀀스 처리 작업에서, DNC는 장기 단기 기억이나 신경 [5]튜링 기계와 같은 대안보다 더 잘 수행했다.SHRDLU에서 영감을 받은 블록 퍼즐 문제에 대한 강화 학습 접근방식을 통해 DNC는 커리큘럼 학습을 통해 교육을 받았고 계획을 세우는 방법을 배웠습니다.전통적인 반복신경망보다 [5]더 잘 작동했다.
아키텍처
DNC 네트워크는 메모리의 저장 위치를 제어하는 메모리 어텐션 메커니즘과 이벤트의 순서를 기록하는 시간적 어텐션의 추가와 함께 뉴럴 튜링 머신(NTM)의 확장으로 도입되었습니다.이 구조를 통해 DNC는 NTM보다 더 견고하고 추상적이며 Long Short Term Memory(LSTM; 롱 단기 메모리) 등의 일부 이전 버전보다 장기적인 의존 관계를 갖는 작업을 수행할 수 있습니다.메모리는 단순한 매트릭스이며 동적으로 할당되어 무제한으로 액세스 할 수 있습니다.DNC는 엔드 투 엔드로 미분할 수 있습니다(모형의 각 하위 구성요소는 미분할 수 있으므로 전체 모델도 미분할 수 있습니다).이를 통해 경사 [3][6][7]강하를 사용하여 효율적으로 최적화할 수 있습니다.
DNC 모델은 Von Neumann 아키텍처와 유사하며, 메모리의 크기 조정성 때문에 Turing [8]Complete입니다.
종래의 DNC
![]() | 이 섹션은 독자들에게 혼란스럽거나 불분명할 수 있습니다.특히, 방정식의 리스트(예: DNC의 완전한 다이어그램과의 완전한 연관성이 없는 경우)는 이 기사의 많은 독자들에게는 쉽게 설명할 수 있는 설명이 아니다. 에서 가 수 . (2017년 10월 ( 방법 및 ) |
DNC(초기[1] 공개)
독립 변수 | |
입력 벡터 | |
목표 벡터 | |
컨트롤러 | |
컨트롤러 입력 매트릭스 | |
딥(레이어드) LSTM | |
입력 게이트 벡터 | |
출력 게이트 벡터 | |
게이트 벡터 잊기 | |
상태 게이트 벡터, | |
숨겨진 게이트 벡터, | |
DNC 출력 벡터 | |
읽기 및 쓰기 헤드 | |
인터페이스 파라미터 | |
헤드 읽기 | |
키 읽기 | |
장점을 읽다 | |
프리 게이트 | |
읽기 모드, | |
쓰기 헤드 | |
쓰기 키 | |
쓰기 강도 | |
지우기 벡터 | |
쓰기 벡터 | |
할당 게이트 | |
쓰기 게이트 | |
기억 | |
메모리 매트릭스, 의 행렬 E N× \ E \ \ { } ^ { \ W | |
사용 벡터 | |
우선 순위 가중치, | |
시간 링크 매트릭스, | |
쓰기 가중치 | |
읽기 가중치 | |
벡터 읽기 | |
콘텐츠 기반 어드레싱, 조회 k(\ 키 β(\ | |
의 인덱스 사용의 오름차순으로 정렬된 | |
할당가중치 | |
쓰기 콘텐츠 가중치 | |
읽기 콘텐츠 가중치 | |
전진 가중치 | |
역가중치 | |
메모리 보유 벡터 | |
정의들 | |
가중치 행렬, 바이어스 벡터 | |
0 행렬, 1 행렬, 항등 행렬 | |
요소별 곱셈 | |
코사인 유사도 | |
S그모이드 함수 | |
원플러스 함수 | |
( ) x k k (\ {=_ {x_ = j = 1, …, K에 대해 | Softmax 함수 |
내선번호
향상된 기능으로는 스파스 메모리 어드레싱이 있어 시간과 공간의 복잡성을 수천 배 줄일 수 있습니다.이것은 로컬에 민감한 해싱과 같은 대략적인 근접 근접 알고리즘을 사용하거나 [9]UBC의 Fast Library for Ascarate Neighbors와 같은 랜덤k-d 트리를 사용하여 실현할 수 있습니다.Adaptive Computation Time(ACT; 적응형 계산 시간)을 추가하면 계산 시간과 데이터 시간이 분리됩니다.이것은 문제의 길이와 문제의 난이도가 [10]항상 동일하지는 않다는 사실을 사용합니다.합성 구배를 사용한 트레이닝은 Back Propagation through Time(BPTT)[11]보다 훨씬 뛰어난 성능을 발휘합니다.계층 정규화와 Bypass Dropout을 [12]정규화로 사용함으로써 견고성을 향상시킬 수 있습니다.
「 」를 참조해 주세요.
레퍼런스
- ^ a b c Graves, Alex; Wayne, Greg; Reynolds, Malcolm; Harley, Tim; Danihelka, Ivo; Grabska-Barwińska, Agnieszka; Colmenarejo, Sergio Gómez; Grefenstette, Edward; Ramalho, Tiago (2016-10-12). "Hybrid computing using a neural network with dynamic external memory". Nature. 538 (7626): 471–476. Bibcode:2016Natur.538..471G. doi:10.1038/nature20101. ISSN 1476-4687. PMID 27732574. S2CID 205251479.
- ^ "Differentiable neural computers DeepMind". DeepMind. Retrieved 2016-10-19.
- ^ a b Burgess, Matt. "DeepMind's AI learned to ride the London Underground using human-like reason and memory". WIRED UK. Retrieved 2016-10-19.
- ^ Jaeger, Herbert (2016-10-12). "Artificial intelligence: Deep neural reasoning". Nature. 538 (7626): 467–468. Bibcode:2016Natur.538..467J. doi:10.1038/nature19477. ISSN 1476-4687. PMID 27732576.
- ^ a b James, Mike. "DeepMind's Differentiable Neural Network Thinks Deeply". www.i-programmer.info. Retrieved 2016-10-20.
- ^ "DeepMind AI 'Learns' to Navigate London Tube". PCMAG. Retrieved 2016-10-19.
- ^ Mannes, John. "DeepMind's differentiable neural computer helps you navigate the subway with its memory". TechCrunch. Retrieved 2016-10-19.
- ^ "RNN Symposium 2016: Alex Graves - Differentiable Neural Computer". YouTube.
- ^ Jack W Rae; Jonathan J Hunt; Harley, Tim; Danihelka, Ivo; Senior, Andrew; Wayne, Greg; Graves, Alex; Timothy P Lillicrap (2016). "Scaling Memory-Augmented Neural Networks with Sparse Reads and Writes". arXiv:1610.09027 [cs.LG].
- ^ Graves, Alex (2016). "Adaptive Computation Time for Recurrent Neural Networks". arXiv:1603.08983 [cs.NE].
- ^ Jaderberg, Max; Wojciech Marian Czarnecki; Osindero, Simon; Vinyals, Oriol; Graves, Alex; Silver, David; Kavukcuoglu, Koray (2016). "Decoupled Neural Interfaces using Synthetic Gradients". arXiv:1608.05343 [cs.LG].
- ^ Franke, Jörg; Niehues, Jan; Waibel, Alex (2018). "Robust and Scalable Differentiable Neural Computer for Question Answering". arXiv:1807.02658 [cs.CL].