본문으로 이동

단발어

위키백과, 우리 모두의 백과사전.

소설 『모비딕』에 사용된 단어의 순위와 빈도. 이 소설에 나타나는 단어 중, 대략 44%는 ‘matrimonial’과 같은, 작품 내에서 단 1번밖에 나타나지 않는 단발어(붉은색)이다. 또한, 대략 17%는 ‘dexterity’와 같은 2번밖에 나타나지 않는 디스 레고메논(푸른색)이다. 지프의 법칙에 따라, 이 도형에 플롯된 단어는 선형에 가깝게 예상될 수 있다.

단발어(單發語) 또는 하팍스 레고메논(ἅπαξ λεγόμενον, 영어: hapax legomenon, (/ˈhæpəks lɪˈɡɒmɪnɒn//ˈhæpæks//ˈhpæks/[1]; 복수형은 하팍스 레고메나(pl. hapax legomena), hapax (pl. hapaxes)로 축약)말뭉치언어학에서 어느 언어로 적힌 모든 텍스트 전체 및 특정 작가의 작품군이나 특정 인물의 텍스트 등에서, 일정 문맥 가운데 단 1회만 출현하는 단어를 가리킨다. 부정확한 용법 탓에 어느 작가의 특정한 한 작품에서만 나타나는 말, 혹은 그 작품에서만 여러차례 오용되는 경우를 포함하기도 한다. 하팍스 레고메논은 그리스어로 ‘한 번만 말해진’이라는 의미의 ‘ἅπαξ λεγόμενον’를 라틴 문자로 표기한 것이다.[2]

현상

[편집]

단발어는 흔한 현상이며, 지프의 법칙으로 예상되듯, 코퍼스에 포함되는 단어의 출현빈도는 그 빈도순위에 반비례한다. 대규모 코퍼스에서는, 모든 단어 가운데 약 40%에서 60%가 단발어이며, 10%에서 15%가 디스 레고메논으로 나타난다고 여겨진다. 이 때문에, 미국 영어의 말뭉치인 브라운 코퍼스(영어판)의 경우, 거의 반수의 5만 단어는 이 코퍼스 범위 내에서는 단발어라고 한다.

단발어는 어느 텍스트 전체에서 그 단어가 출현하는 빈도에 따라서만 규정되는 것이며, 그 성립의 기원이나 구어체에서의 보급정도 등은 고려하지 않는다. 따라서, 전혀 기록되지 않은 것도, 일정 범위에서 통용되는 것도, 널리 기록된 것도 있을 수 있으며, 또한 그것을 정착시키는 계기가 된 작품 속에서 몇번씩이나 쓰일 수 있는 임시어와는 다른 개념이다.

단발어는 유형과 빈도가 1인 단어를 말하는 것으로 어떤 말뭉치에서 출현한 것인지가 중요하다. 즉 기반으로 삼고 있는 말뭉치의 규모와 특성 등이 단발어를 규정하는 중요한 요인이 될 수 있다. 일반적으로 단발어는 어떤 하나의 텍스트에서 한 번 출현한 단어로 정의된다. 즉 하나의 소설 텍스트에서 한 번 출현한 단어도 단발어의 정의를 원척적으로 충족한다. 그러나 단발어는 말뭉치라는 대규모의 텍스트에서 한 번 출현한 단어를 지칭하는 것이다.

관련 용어

[편집]

이와 관련된 표현으로 ‘디스 레고메논’(dis legomenon), ‘트리스 레고메논’(tris legomenon), ‘테트라키스 레고메논’(tetrakis legomenon) 따위가 있으며, ‘디스’(/ˈdɪs/), ‘트리스’(/ˈtrɪs/), ‘테트라키스’(/ˈtɛtrəkɪs/)는 각각 2회, 3회, 4회 그 단어가 나타나는 것을 의미하나, 실제로 쓰이는 일은 적다.[출처 필요]

언어학적 양상

[편집]

단발어의 여러 품사 중 단발명사는 형용사나 부사 등의 품사와 비교해 볼 때 단발어가 해당 품사에서 차지하는 유형과 비중이 가장 높다는 점을 주목할 필요가 있다. 단발어는 지금까지 주로 접사의 생산성을 측정하기 위한 하나의 지표로 사용되어 왔을 뿐, 단발어가 보이는 언어학적 양상에 대해서는 별다른 논의가 이루어지지 않았다. 이는 단발어가 언어학적 개념에 의해 규정된 범주가 아니라 언어 사용상의 특성과 관련되어 있기 때문이라고도 할 수 있다. 그렇다 보니 단발어는 지금가지 매우 제한된 영역에서만 논의되어 왔다.

각주

[편집]

같이 보기

[편집]