쿠란어 아랍어 코퍼스

Quranic Arabic Corpus
쿠란어 아랍어 코퍼스
연구 센터:리즈 대학교
초기 릴리스:2009년 11월
언어:쿠란어 아랍어, 영어
주석:구문, 형태학
프레임워크:종속문법
라이센스:GNU 일반 공중 사용권
웹사이트:http://corpus.quran.com/
구에 대한 종속성 구문 트리(67:1)

쿠란어 아랍어 코퍼스는 77,430개의 쿠란어 아랍어로 구성된 주석 언어 자원이다. 이 프로젝트는 코란의 언어를 연구하고자 하는 연구자들에게 형태학적, 통사적 주석을 제공하는 것을 목표로 한다.[1][2][3][4][5]

기능들

문법 분석은 독자들이 각 구절과 문장의 세부적인 의도된 의미를 더 잘 밝혀낼 수 있도록 돕는다. 쿠란의 각 단어에는 복수의 형태학적 특징뿐만 아니라 언어의 일부가 태그되어 있다. 주석을 단 다른 아랍어 코퍼스와 달리 쿠란어 코퍼스가 채택한 문법 틀은 아이랍의 전통적인 아랍어 문법(文法)이다. 이 연구 프로젝트는 리즈 대학카이스 듀크스가 주도하고 있으며,[4] 에릭 앳웰이 감독하는 컴퓨팅 대학 내의 아랍어 컴퓨팅 연구 그룹에 속해 있다.[6]

주석이 달린 말뭉치에는 [1][7]다음이 포함된다.

  • 수동으로 검증된 말장난 부분은 쿠란어 아랍어 말뭉치를 태그했다.
  • 주석을 단 쿠란어 아랍어 나무 .
  • 의존성 그래프를 통한 아랍어 전통 문법의 참신한 시각화.
  • 쿠란을 찾기 위한 형태론적 탐색
  • 기계 판독이 가능한 쿠란어의 형태론적 어휘를 영어로 번역한 것이다.
  • 보조정리자가 조직한 쿠란어 아랍어를 위한 언어의 일부 일치어.
  • 커뮤니티 자원봉사 주석을 위한 온라인 메시지 게시판.

말뭉치 주석은 각 단어에 음성 태그 부분과 형태학적 특징을 할당한다. 예를 들어, 주석에는 어떤 단어가 명사인지 동사인지, 그리고 그것이 남성적인 것인지 여성적인 것인지를 결정하는 것이 포함된다. 이 프로젝트의 첫 단계에서는 본문에 아랍어 컴퓨팅 기술을 적용하여 자동 음성 부분 태그 지정이 수행되었다. 그 후 코란에서 77,430개의 단어 각각에 대한 주석을 두 개의 주석자에 의해 단계별로 검토하였으며, 정확성을 더욱 향상시키기 위한 개선 작업이 여전히 진행 중이다.

주석이 달린 말뭉치를 사용하는 쿠란을 위한 언어 연구로는 아랍어를 위한 히든 마르코프 모델 부분 스피치 태그거 교육,[8] 쿠란 장 자동 분류,[9] 본문의 프로소딕 분석 등이 있다.[10]

또, 이 프로젝트는 쿠란의 새로운 번역을 제작하는 대신, 인정된 영어 출처를 바탕으로 한 단어별 쿠란어 번역을 제공한다.[4]

참고 항목

참조

  1. ^ Jump up to: a b K. Dukes, E. 앳웰과 N. 하바시(2011년). 쿠란어 아랍어의 통사적 주석을 위한 감독된 협업. LREJ(Language Resources and Evaluation Journal) 협력적으로 구성된 언어 자원에 관한 특별 이슈.
  2. ^ ResearchGate에서 쿠란어 아랍어의 통사적 주석을 위한 감독된 협업. 컬럼비아 대학의 니자르 하바시가 업로드했다.
  3. ^ K. Dukes와 T. 벅월터(2010년). 아랍어 전통 문법을 사용한 쿠란의 의존성 나무둑. 제7회 정보시스템 국제회의(INFOS)의 절차서. 이집트 카이로.
  4. ^ Jump up to: a b c 쿠란어 아랍어 코퍼스는 2013-02-23을 무슬림 트리뷴의 웨이백머신보관했다. 2011년 6월 20일.
  5. ^ 에릭 앳웰, 클레어 브리얼리, 카이스 듀크스, 마즈디 사왈하, 압둘 바케 샤라프. 인터넷[permanent dead link] 상의 아랍어와 이슬람 컨텐츠에 대한 인공지능 접근법, 2. 리야드: 킹 사우드 대학교, 2011.
  6. ^ Engineering. "Profile for Dr Eric Atwell - School of Computing - University of Leeds". www.comp.leeds.ac.uk.
  7. ^ K. Dukes and Habash, N. (2011년) 하이브리드 종속성의 한 단계 통계 분석-통합적 통사적 표현. IWPT(International Conference on Parsing Technologies) 아일랜드 더블린.
  8. ^ M. 알바레드, N. 오마르, M. 아브 아지즈(2011년). Small TrainingCorpora를 사용하여 경쟁력 있는 HMM 아랍어 POS Tagger 개발. 인텔리전트 정보 및 데이터베이스 시스템. 스프링거 베를린 하이델베르크
  9. ^ A. M. 샤라프와 E. 앳웰(2011년). 쿠란 장 자동 분류. 제7회 아랍어 국제 컴퓨터 회의(ICCA11). 사우디 아라비아 리야드.
  10. ^ C. 브리얼리, M. 사왈하, E. 앳웰(2012년). 경계 아랍어 구문 구분 예측을 위해 큐란 코퍼스에 주석을 달았다. 웨이백 머신 IVACS 연례 심포지엄에 2018-12-15로 보관. 케임브리지.

외부 링크