CCSID
CCSIDCCSID(Coded Character Set Identifier)는 특정 코드페이지의 특정 부호화를 나타내는 16비트 번호입니다.예를 들어 Unicode는 UTF-8, UTF-16, UTF-32 등의 여러 인코딩 형식(일명 '변환')을 가지고 있지만 실제로는 이 인코딩이 사용되고 있음을 나타내기 위해 CCSID 번호를 수반할 수도 있고 수반하지 않을 수도 있습니다.
코드 페이지와 CCSID의 차이
코드 페이지와 CCSID라는 용어는 동의어가 아닌 경우에도 자주 서로 교환하여 사용됩니다.코드 페이지는 CCSID를 구성하는 요소의 일부일 수 있습니다.IBM의 다음 정의는 이 점을 설명하는 데 도움이 됩니다.
- 글리프는 디스플레이 또는 인쇄물에 표시되는 픽셀 또는 잉크의 실제 물리적 패턴입니다.
- 문자는 특정 기호와 관련된 모든 문양을 포괄하는 개념입니다.예를 들어 "F", "F", "F", "F", "F" 및 "F"와 같이 입력합니다.F"는 모두 다른 문자이지만 같은 문자를 사용합니다.다양한 수식어(굵은 글씨, 기울임꼴, 밑줄, 색상 및 글꼴)는 F의 기본 F-ness를 변경하지 않습니다.
- 문자 집합은 특정 인간이 컴퓨터와 의미 있는 상호작용을 할 수 있도록 하기 위해 필요한 문자를 포함한다.이러한 문자가 컴퓨터에서 [1]어떻게 표시되는지는 지정하지 않습니다.이 레벨은 문자를 다양한 알파벳(라틴어, 아랍어, 히브리어, 키릴어 등) 또는 한자 그룹(예: 중국어, 한국어)으로 구분하는 첫 번째 레벨입니다.Unicode 인코딩 모델의 "문자 레퍼토리"에 해당합니다.
- 코드 페이지는 [1]문자에 대한 코드 포인트 값의 특정 할당을 나타냅니다.Unicode 인코딩 모델의 "코드화된 문자 집합"에 해당합니다.문자의 코드 포인트는 주어진 코드 [1]페이지에서 해당 문자에 대한 컴퓨터의 내부 표현입니다.많은 문자는 다른 코드 페이지에서 다른 코드 포인트로 표시됩니다.특정 문자 집합은 단일 바이트 코드 페이지(최대 256개의 코드 포인트, 따라서 최대 256자)로 적절하게 표현될 수 있지만, 많은 문자 집합이 그 이상을 필요로 합니다.예를 들어 JIS X 0208과 Unicode가 있습니다.
- 부호화 방식은 코드 페이지의 바이트 형식입니다.코드 포인트 값을 컴퓨터의 [2]하나 이상의 바이트 값 시퀀스에 매핑합니다.예를 들어 UTF-8과 UTF-16BE는 같은 Unicode 코드페이지의 2개의 인코딩입니다.(특정 Unicode 문자값을 나타내는 데 필요한 바이트 수, 해당 바이트에 포함되는 방법 및 Unicode 정보의 존재 표시 방법에 따라 달라집니다).한편, IBM의 문자 데이터 표현 아키텍처(CDRA)에서는 일반적으로 ESID(인코딩 체계 식별자)[3]로 표현됩니다.EUC 및 ISO-2022는 부호화 방식의 다른 예입니다.
- 부호화 문자 집합 식별자(CCSID)는 다양한 처리 및 교환 단계를 통해 문자의 의미와 렌더링을 할당하고 유지하기 위해 필요한 모든 정보를 포함한다.이 정보에는 항상 적어도1개의 코드 페이지가 포함되어 있습니다만, 바이트 길이가 다른 복수의 코드 페이지가 포함되는 경우가 있습니다.또, CCSID에는, 다양한 코드 포인트의 처리 방법을 관리하는 부호화 스킴이 관련지어져 있습니다.이 메커니즘을 통해 프로그램은 양방향 방향, 문자 쉐이핑(주로 아랍어 문자) 및 기타 복잡한 인코딩 정보를 인식할 수 있습니다.
예
다음으로 일부 CCSID가 다른 CCSID로 구성되어 있는 예를 나타냅니다.
문자 집합 | 코드 페이지 | CCSID | 부호화 방식 |
---|---|---|---|
01122 | 00897 | 897 | SBCS |
00370 | 00301 | 301 | DBCS |
문자 집합 | 코드 페이지 | CCSID | 부호화 방식 |
---|---|---|---|
01172 | 01041 | 1041 | SBCS |
00370 | 00301 | 301 | DBCS |
문자 집합 | 코드 페이지 | CCSID | 부호화 방식 |
---|---|---|---|
01170 | 00897 | 4993 | SBCS |
00370 | 00301 | 301 | DBCS |
이러한 3개의 바리안트 Shift-JIS CCSID는 모두 Multi-Byte Character Set(MBCS; 멀티바이트 문자 세트)입니다.각 CCSID의 Single-Byte Character Set(SBCS; 싱글바이트 문자 세트) 부분이 다릅니다.Double-Byte Character Set(DBCS; 더블바이트 문자 집합) 부분은 각 CCSID에서 동일합니다.CCSID 5028은 CCSID 4993이라고 하는 갱신 코드페이지 897 을 사용합니다.CCSID 932 에서는, 원래의 코드 페이지 897(CCSID 897)이 사용됩니다.CCSID 942는 다른 2개의 CCSID(1041)와는 다른SBCS를 사용합니다.
또, CCSID 5028 및 4993은, 같은 코드 페이지 ID 를 가지는 이전의 CCSID 와 4096(16 진수의 1000)만큼 다른 것에 주의해 주세요.이것은 CDRA가 업그레이드된 CCSID를 나타내는 일반적인 방법입니다.
이 복잡성에는 몇 가지 이유가 있습니다.
- 대부분의 CCSID는 IBM DB2와 같은 IBM 데이터베이스에서 사용되며 데이터베이스 필드는 SBCS, DBCS 또는 MBCS 문자열만 지원합니다.CCSID 를 사용하면, 어느 것이 사용되고 있는지를 프로그램이 구별할 수 있습니다.
- Euro 통화 기호 소개와 같이 문자를 추가하거나 치환하면 다른 CCSID가 사용되고 있기 때문에 저장된 문자열이 이러한 문자 추가를 지원하는지 여부를 알 수 있습니다.이 버전 관리는 데이터의 무결성에 중요합니다.
- 유사한 CCSID [7]간에 리소스를 재사용할 수 있습니다.
레퍼런스
- ^ a b c "IBM Terminology—Terms C". IBM. Retrieved 2013-01-25.
- ^ "Character Data Representation Architecture". IBM. Appendix A. Encoding Schemes. Retrieved 2019-06-29.
- ^ "Character Data Representation Architecture". IBM. Chapter 3. CDRA Identifiers, section "Long-Form Identification". Retrieved 2019-06-29.
- ^ "Japanese PC Data Mixed including 1880 UDC". Globalization. IBM. Archived from the original on February 20, 2012. Retrieved November 29, 2011.
- ^ "Japanese PC Data Mixed including 1880 UDC, Extended SBCS". Globalization. IBM. Archived from the original on December 1, 2014. Retrieved November 29, 2011.
- ^ "Japanese PC Data Mixed including 1880 UDC (Katakana - PC common set for SBCS)". Globalization. IBM. Archived from the original on November 29, 2014. Retrieved November 29, 2011.
- ^ "Us-en_software_HP". 9 November 2020.
외부 링크
- IBM CDRA(문자 데이터 표현 아키텍처) 용어집
- IBM 세계화 용어
- IBM CDRA에 대한 자세한 설명(CCSID를 둘러싼 아키텍처에 대한 자세한 설명 포함)
- IBM의 CCSID 및 기타 다양한 관련 식별자 목록
- IBM System i 컴퓨터에서 지원되는 CCSID 목록