미분 가능한 신경 컴퓨터

Differentiable neural computer
조밀한 이진수를 저장하고 불러오도록 훈련되는 구별 가능한 신경 컴퓨터입니다.교육 중 참조 작업의 수행이 표시되어 있습니다.왼쪽 위: 5비트 워드 및 1비트 인터럽트 신호로서의 입력(빨간색) 및 대상(파란색).오른쪽 위: 모델의 출력입니다.

인공지능에서 DNC(Differentible Neural Computer)는 메모리 증강 뉴럴 네트워크 아키텍처(MANN)로, 일반적으로 구현 시 (정의에 따라) 반복됩니다.이 모델은 DeepMind[1]알렉스 그레이브스 등에 의해 2016년에 출판되었다.

적용들

DNC는 간접적으로 Von-Neumann 아키텍처에서 영감을 얻어 근본적으로 결정 경계를 찾아 학습할 수 없는 알고리즘적인 태스크에서 기존 아키텍처보다 더 뛰어난 성능을 발휘합니다.

지금까지 DNC는 기존 프로그래밍을 사용하여 해결할 수 있는 비교적 단순한 작업만 처리하는 것으로 입증되었습니다.그러나 DNC는 각 문제에 대해 프로그래밍할 필요가 없으며 대신 교육을 받을 수 있습니다.이 주의 범위를 통해 사용자는 그래프와 같은 복잡한 데이터 구조를 순차적으로 공급하고 나중에 사용하기 위해 불러올 수 있습니다.게다가, 그들은 상징적 추론의 측면을 배울 수 있고 그것을 작업 기억에 적용할 수 있다.이 방법을 발표한 연구진은 DNC가 복잡하고[1][2] 구조화된 작업을 수행하도록 훈련받고 비디오 해설이나 의미 텍스트 [3][4]분석과 같은 어떤 종류의 추론을 필요로 하는 빅데이터 애플리케이션에 대처할 수 있다는 가능성을 보고 있습니다.

DNC는 고속 운송 시스템을 탐색하고 해당 네트워크를 다른 시스템에 적용하도록 훈련할 수 있습니다.메모리가 없는 뉴럴 네트워크는 일반적으로 각 트랜짓 시스템에 대해 처음부터 학습해야 합니다.지도 학습과 함께 그래프 통과 및 시퀀스 처리 작업에서, DNC는 장기 단기 기억이나 신경 [5]튜링 기계와 같은 대안보다 더 잘 수행했다.SHRDLU에서 영감을 받은 블록 퍼즐 문제에 대한 강화 학습 접근방식을 통해 DNC는 커리큘럼 학습을 통해 교육을 받았고 계획을 세우는 방법을 배웠습니다.전통적인 반복신경망보다 [5]더 잘 작동했다.

아키텍처

DNC 시스템 다이어그램

DNC 네트워크는 메모리의 저장 위치를 제어하는 메모리 어텐션 메커니즘과 이벤트의 순서를 기록하는 시간적 어텐션의 추가와 함께 뉴럴 튜링 머신(NTM)의 확장으로 도입되었습니다.이 구조를 통해 DNC는 NTM보다 더 견고하고 추상적이며 Long Short Term Memory(LSTM; 롱 단기 메모리) 등의 일부 이전 버전보다 장기적인 의존 관계를 갖는 작업을 수행할 수 있습니다.메모리는 단순한 매트릭스이며 동적으로 할당되어 무제한으로 액세스 할 수 있습니다.DNC는 엔드 투 엔드로 미분할 수 있습니다(모형의 각 하위 구성요소는 미분할 수 있으므로 전체 모델도 미분할 수 있습니다).를 통해 경사 [3][6][7]강하를 사용하여 효율적으로 최적화할 수 있습니다.

DNC 모델은 Von Neumann 아키텍처와 유사하며, 메모리의 크기 조정성 때문에 Turing [8]Complete입니다.

종래의 DNC

DNC(초기[1] 공개)

독립 변수
입력 벡터
목표 벡터
컨트롤러
컨트롤러 입력 매트릭스


딥(레이어드) LSTM
입력 게이트 벡터
출력 게이트 벡터
게이트 벡터 잊기
상태 게이트 벡터,
숨겨진 게이트 벡터,


DNC 출력 벡터
읽기 및 쓰기 헤드
인터페이스 파라미터


헤드 읽기
키 읽기
장점을 읽다
프리 게이트
읽기 모드,


쓰기 헤드
쓰기 키
쓰기 강도
지우기 벡터
쓰기 벡터
할당 게이트
쓰기 게이트
기억
메모리 매트릭스,
의 행렬 E N× \ E \ \ { } ^ { \ W
사용 벡터
우선 순위 가중치,
시간 링크 매트릭스,
쓰기 가중치
읽기 가중치
벡터 읽기


콘텐츠 기반 어드레싱,
조회 k(\β(\
의 인덱스
사용의 오름차순으로 정렬된
할당가중치
쓰기 콘텐츠 가중치
읽기 콘텐츠 가중치
전진 가중치
역가중치
메모리 보유 벡터
정의들
가중치 행렬, 바이어스 벡터
0 행렬, 1 행렬, 항등 행렬
요소별 곱셈
코사인 유사도
S그모이드 함수
원플러스 함수
( ) x k k (\ {=_ {x_ = j = 1, …, K에 대해 Softmax 함수

내선번호

향상된 기능으로는 스파스 메모리 어드레싱이 있어 시간과 공간의 복잡성을 수천 배 줄일 수 있습니다.이것은 로컬에 민감한 해싱과 같은 대략적인 근접 근접 알고리즘을 사용하거나 [9]UBC의 Fast Library for Ascarate Neighbors와 같은 랜덤k-d 트리를 사용하여 실현할 수 있습니다.Adaptive Computation Time(ACT; 적응형 계산 시간)을 추가하면 계산 시간과 데이터 시간이 분리됩니다.이것은 문제의 길이와 문제의 난이도가 [10]항상 동일하지는 않다는 사실을 사용합니다.합성 구배를 사용한 트레이닝은 Back Propagation through Time(BPTT)[11]보다 훨씬 뛰어난 성능을 발휘합니다.계층 정규화와 Bypass Dropout을 [12]정규화로 사용함으로써 견고성을 향상시킬 수 있습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ a b c Graves, Alex; Wayne, Greg; Reynolds, Malcolm; Harley, Tim; Danihelka, Ivo; Grabska-Barwińska, Agnieszka; Colmenarejo, Sergio Gómez; Grefenstette, Edward; Ramalho, Tiago (2016-10-12). "Hybrid computing using a neural network with dynamic external memory". Nature. 538 (7626): 471–476. Bibcode:2016Natur.538..471G. doi:10.1038/nature20101. ISSN 1476-4687. PMID 27732574. S2CID 205251479.
  2. ^ "Differentiable neural computers DeepMind". DeepMind. Retrieved 2016-10-19.
  3. ^ a b Burgess, Matt. "DeepMind's AI learned to ride the London Underground using human-like reason and memory". WIRED UK. Retrieved 2016-10-19.
  4. ^ Jaeger, Herbert (2016-10-12). "Artificial intelligence: Deep neural reasoning". Nature. 538 (7626): 467–468. Bibcode:2016Natur.538..467J. doi:10.1038/nature19477. ISSN 1476-4687. PMID 27732576.
  5. ^ a b James, Mike. "DeepMind's Differentiable Neural Network Thinks Deeply". www.i-programmer.info. Retrieved 2016-10-20.
  6. ^ "DeepMind AI 'Learns' to Navigate London Tube". PCMAG. Retrieved 2016-10-19.
  7. ^ Mannes, John. "DeepMind's differentiable neural computer helps you navigate the subway with its memory". TechCrunch. Retrieved 2016-10-19.
  8. ^ "RNN Symposium 2016: Alex Graves - Differentiable Neural Computer". YouTube.
  9. ^ Jack W Rae; Jonathan J Hunt; Harley, Tim; Danihelka, Ivo; Senior, Andrew; Wayne, Greg; Graves, Alex; Timothy P Lillicrap (2016). "Scaling Memory-Augmented Neural Networks with Sparse Reads and Writes". arXiv:1610.09027 [cs.LG].
  10. ^ Graves, Alex (2016). "Adaptive Computation Time for Recurrent Neural Networks". arXiv:1603.08983 [cs.NE].
  11. ^ Jaderberg, Max; Wojciech Marian Czarnecki; Osindero, Simon; Vinyals, Oriol; Graves, Alex; Silver, David; Kavukcuoglu, Koray (2016). "Decoupled Neural Interfaces using Synthetic Gradients". arXiv:1608.05343 [cs.LG].
  12. ^ Franke, Jörg; Niehues, Jan; Waibel, Alex (2018). "Robust and Scalable Differentiable Neural Computer for Question Answering". arXiv:1807.02658 [cs.CL].

외부 링크