CCSID

CCSID(Coded Character Set Identifier)는 특정 코드페이지의 특정 부호화를 나타내는 16비트 번호입니다.예를 들어 Unicode는 UTF-8, UTF-16, UTF-32 등의 여러 인코딩 형식(일명 '변환')을 가지고 있지만 실제로는 이 인코딩이 사용되고 있음을 나타내기 위해 CCSID 번호를 수반할 수도 있고 수반하지 않을 수도 있습니다.

코드 페이지와 CCSID의 차이

코드 페이지와 CCSID라는 용어는 동의어가 아닌 경우에도 자주 서로 교환하여 사용됩니다.코드 페이지는 CCSID를 구성하는 요소의 일부일 수 있습니다.IBM의 다음 정의는 이 점을 설명하는 데 도움이 됩니다.

글리프는 디스플레이 또는 인쇄물에 표시되는 픽셀 또는 잉크의 실제 물리적 패턴입니다.

문자는 특정 기호와 관련된 모든 문양을 포괄하는 개념입니다.예를 들어 "F", "F", "F", "F", "F" 및 "F"와 같이 입력합니다.F"는 모두 다른 문자이지만 같은 문자를 사용합니다.다양한 수식어(굵은 글씨, 기울임꼴, 밑줄, 색상 및 글꼴)는 F의 기본 F-ness를 변경하지 않습니다.

문자 집합은 특정 인간이 컴퓨터와 의미 있는 상호작용을 할 수 있도록 하기 위해 필요한 문자를 포함한다.이러한 문자가 컴퓨터에서 ^[1]어떻게 표시되는지는 지정하지 않습니다.이 레벨은 문자를 다양한 알파벳(라틴어, 아랍어, 히브리어, 키릴어 등) 또는 한자 그룹(예: 중국어, 한국어)으로 구분하는 첫 번째 레벨입니다.Unicode 인코딩 모델의 "문자 레퍼토리"에 해당합니다.

코드 페이지는 ^[1]문자에 대한 코드 포인트 값의 특정 할당을 나타냅니다.Unicode 인코딩 모델의 "코드화된 문자 집합"에 해당합니다.문자의 코드 포인트는 주어진 코드 ^[1]페이지에서 해당 문자에 대한 컴퓨터의 내부 표현입니다.많은 문자는 다른 코드 페이지에서 다른 코드 포인트로 표시됩니다.특정 문자 집합은 단일 바이트 코드 페이지(최대 256개의 코드 포인트, 따라서 최대 256자)로 적절하게 표현될 수 있지만, 많은 문자 집합이 그 이상을 필요로 합니다.예를 들어 JIS X 0208과 Unicode가 있습니다.

부호화 방식은 코드 페이지의 바이트 형식입니다.코드 포인트 값을 컴퓨터의 ^[2]하나 이상의 바이트 값 시퀀스에 매핑합니다.예를 들어 UTF-8과 UTF-16BE는 같은 Unicode 코드페이지의 2개의 인코딩입니다.(특정 Unicode 문자값을 나타내는 데 필요한 바이트 수, 해당 바이트에 포함되는 방법 및 Unicode 정보의 존재 표시 방법에 따라 달라집니다).한편, IBM의 문자 데이터 표현 아키텍처(CDRA)에서는 일반적으로 ESID(인코딩 체계 식별자)^[3]로 표현됩니다.EUC 및 ISO-2022는 부호화 방식의 다른 예입니다.

부호화 문자 집합 식별자(CCSID)는 다양한 처리 및 교환 단계를 통해 문자의 의미와 렌더링을 할당하고 유지하기 위해 필요한 모든 정보를 포함한다.이 정보에는 항상 적어도1개의 코드 페이지가 포함되어 있습니다만, 바이트 길이가 다른 복수의 코드 페이지가 포함되는 경우가 있습니다.또, CCSID에는, 다양한 코드 포인트의 처리 방법을 관리하는 부호화 스킴이 관련지어져 있습니다.이 메커니즘을 통해 프로그램은 양방향 방향, 문자 쉐이핑(주로 아랍어 문자) 및 기타 복잡한 인코딩 정보를 인식할 수 있습니다.

예

다음으로 일부 CCSID가 다른 CCSID로 구성되어 있는 예를 나타냅니다.

CCSID 932^[4]

문자 집합	코드 페이지	CCSID	부호화 방식
01122	00897	897	SBCS
00370	00301	301	DBCS

CCSID 942^[5]

문자 집합	코드 페이지	CCSID	부호화 방식
01172	01041	1041	SBCS
00370	00301	301	DBCS

CCSID 5028^[6]

문자 집합	코드 페이지	CCSID	부호화 방식
01170	00897	4993	SBCS
00370	00301	301	DBCS

이러한 3개의 바리안트 Shift-JIS CCSID는 모두 Multi-Byte Character Set(MBCS; 멀티바이트 문자 세트)입니다.각 CCSID의 Single-Byte Character Set(SBCS; 싱글바이트 문자 세트) 부분이 다릅니다.Double-Byte Character Set(DBCS; 더블바이트 문자 집합) 부분은 각 CCSID에서 동일합니다.CCSID 5028은 CCSID 4993이라고 하는 갱신 코드페이지 897 을 사용합니다.CCSID 932 에서는, 원래의 코드 페이지 897(CCSID 897)이 사용됩니다.CCSID 942는 다른 2개의 CCSID(1041)와는 다른SBCS를 사용합니다.

또, CCSID 5028 및 4993은, 같은 코드 페이지 ID 를 가지는 이전의 CCSID 와 4096(16 진수의 1000)만큼 다른 것에 주의해 주세요.이것은 CDRA가 업그레이드된 CCSID를 나타내는 일반적인 방법입니다.

이 복잡성에는 몇 가지 이유가 있습니다.

대부분의 CCSID는 IBM DB2와 같은 IBM 데이터베이스에서 사용되며 데이터베이스 필드는 SBCS, DBCS 또는 MBCS 문자열만 지원합니다.CCSID 를 사용하면, 어느 것이 사용되고 있는지를 프로그램이 구별할 수 있습니다.
Euro 통화 기호 소개와 같이 문자를 추가하거나 치환하면 다른 CCSID가 사용되고 있기 때문에 저장된 문자열이 이러한 문자 추가를 지원하는지 여부를 알 수 있습니다.이 버전 관리는 데이터의 무결성에 중요합니다.
유사한 CCSID ^[7]간에 리소스를 재사용할 수 있습니다.

레퍼런스

^ ^a ^b ^c "IBM Terminology—Terms C". IBM. Retrieved 2013-01-25.
^ "Character Data Representation Architecture". IBM. Appendix A. Encoding Schemes. Retrieved 2019-06-29.
^ "Character Data Representation Architecture". IBM. Chapter 3. CDRA Identifiers, section "Long-Form Identification". Retrieved 2019-06-29.
^ "Japanese PC Data Mixed including 1880 UDC". Globalization. IBM. Archived from the original on February 20, 2012. Retrieved November 29, 2011.
^ "Japanese PC Data Mixed including 1880 UDC, Extended SBCS". Globalization. IBM. Archived from the original on December 1, 2014. Retrieved November 29, 2011.
^ "Japanese PC Data Mixed including 1880 UDC (Katakana - PC common set for SBCS)". Globalization. IBM. Archived from the original on November 29, 2014. Retrieved November 29, 2011.
^ "Us-en_software_HP". 9 November 2020.

외부 링크

IBM CDRA(문자 데이터 표현 아키텍처) 용어집
IBM 세계화 용어
IBM CDRA에 대한 자세한 설명(CCSID를 둘러싼 아키텍처에 대한 자세한 설명 포함)
IBM의 CCSID 및 기타 다양한 관련 식별자 목록
IBM System i 컴퓨터에서 지원되는 CCSID 목록

[IBM_Terminology:_C-1] "IBM Terminology—Terms C". IBM. Retrieved 2013-01-25.

[2] "Character Data Representation Architecture". IBM. Appendix A. Encoding Schemes. Retrieved 2019-06-29.

[3] "Character Data Representation Architecture". IBM. Chapter 3. CDRA Identifiers, section "Long-Form Identification". Retrieved 2019-06-29.

[4] "Japanese PC Data Mixed including 1880 UDC". Globalization. IBM. Archived from the original on February 20, 2012. Retrieved November 29, 2011.

[5] "Japanese PC Data Mixed including 1880 UDC, Extended SBCS". Globalization. IBM. Archived from the original on December 1, 2014. Retrieved November 29, 2011.

[6] "Japanese PC Data Mixed including 1880 UDC (Katakana - PC common set for SBCS)". Globalization. IBM. Archived from the original on November 29, 2014. Retrieved November 29, 2011.

[7] "Us-en_software_HP". 9 November 2020.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

v t 문자 부호화
초기 통신	전신코드 바늘 모스 라틴어 이외의 와분/가나 중국인 키릴 문자 한국인입니다 보도와 머레이 Fieldata ASCII ISO/IEC 646 BCDIC 텔레텍스 및 비디오텍스/텔레텍스트 T.51/ISO/IEC 6937 ITU T.61 ITU T.101 월드 시스템 텔레텍스트 배경 놓다 트랜스코드
ISO/IEC 8859	승인된 부품 - 1 (서유럽) - 2 (중앙유럽) - 3 (말티즈/에스페란토) - 4 (북유럽) -5(키릴 문자) -6 (아랍어) -7(그리스어) -8 (헤브루) -9(터키어) -10 (노르딕) -11(태국) - 13 (발트어) -14 (셀틱) - 15 (신서유럽) -16(로마) 폐기 부품 - 12 (데바나가리) 제안되었지만 승인되지 않음 KOI-8 키릴 문자 사미 적응 웨일스어 바렌츠 키릴 문자 에스토니아어 우크라이나어 키릴 문자
서지학적 용도	MARC-8 앤젤 CCCI/EACC ISO 5426 5426-2 5427 5428 6438 6862
국가 표준	암SCII 브라스키 CNS 11643 DIN 66003 ELOT 927 GOST 10859 GB 2312 GB 12345 GB 12052 GB 18030 HKSCS ISCII JIS X 0201 JIS X 0208 JIS X 0212 JIS X 0213 KOI-7 KPS 9566 KS X 1001 KS X 1002 LST 1564 LST 1590-4 패스 시프트 JIS SI 960 TIS-620 TSCII 가시 SCSII YUSCII
ISO/IEC 2022	ISO/IEC 8859 ISO/IEC 10367 확장 UNIX 코드 / EUC
Mac OS 코드 페이지 ("구체")	아르메니아어 아랍어 바렌츠 키릴 문자 켈트족 중앙유럽어 크로아티아어 키릴 문자 데바나가리 Farsi(페르시아어) 글꼴 X(커밋) 게일어 그루지야어 그리스어 구자라티 구르무키 히브리어 아이슬란드 이누이트 키보드 라틴어(Kermit) 몰타/에스페란토 오감 로마인 루마니아어 사미 터키어 투르크어 키릴 문자 우크라이나어 VT100
DOS 코드 페이지	437 668 708 720 737 770 773 775 776 777 778 850 851 852 853 855 856 857 858 859 860 861 862 863 864 865 866 867 868 869 897 899 903 904 932 936 942 949 950 951 1040 1042 1043 1046 1098 1115 1116 1117 1118 1127 3846 아비콤프 CS 인디케이터 CSX 표시기 CSX+ 표시기 CWI-2 이란 시스템 카메니쿠 마조비아 마이크
IBM AIX 코드 페이지	895 896 912 915 921 922 1006 1008 1009 1010 1012 1013 1014 1015 1016 1017 1018 1019 1124 1133
Windows 코드 페이지	CER-GS 932 936 (GBK) 950 1169 확장 Latin-8 1250 1251 1252 1253 1254 1255 1256 1257 1258 1270 키릴어 + 핀란드어 키릴어 + 프랑스어 키릴어 + 독일어 폴리톤 그리스어
EBCDIC 코드 페이지	37 EBCD의 일본어IC DKOI
DEC 단자(VTX)	다국어(MCS) National Replacement(NRCS) 프랑스계 캐나다인 스위스인 스페인어 영국 네덜란드어 핀란드어 프랑스어 노르웨이어 및 덴마크어 스웨덴어 노르웨이어 및 덴마크어(대체) 8비트 그리스어 8 비트 터키어 SI 960 히브리어 특수 그래픽스 테크니컬(TCS)
플랫폼 고유의	1057 도토리 Adobe Standard(Adobe Standard) 어도비 라틴어 1 암스트라드 CPC 애플 II ATASCII 아타리 ST BIOS Casio 계산기 CDC 콤푸콜라 II CP/M+ DEC 기수 50 DEC MCS/NRCS DG 인터내셔널 Fieldata 보석. GSM 03.38 HP 로마자 HP 포커셜 HP RPL 스퀴즈 LICS LMBCS MSX NEC APC 다음 분. 펫스키 세가 SC-3000 날카로운 계산기 샤프 MZ 싱클레어 QL 기호. 텔레텍스트 TI 계산기 TRS-80 Ventura International WISCII XCCS ZX80 ZX81 ZX 스펙트럼
Unicode/ISO/IEC 10646	UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC GB 18030 BOCU-1 CESU-8 SCSU TACE16 Unicode 인코딩 비교
TeX 조판 시스템	코르크 마개 LY1 OML OMS OT1
기타 코드 페이지	아비콤프 ASMO 449 빅5 APL 기호의 디지털 부호화 ISO-IR-68 ARIB STD-B24 HZ IEC-P27-1 INIS 7비트 8비트 ISO-IR-169 ISO 2033 KOI KOI8-R KOI8-RU KOI8-U 모지쿄 바다 스탠포드/그것의. 트론 통일 한글 코드
제어 문자	모스 프로시그 C0 및 C1 제어 코드 ISO/IEC 6429 JIS X 0211 유니코드 제어, 형식 및 구분 문자 공백 문자
관련 토픽	CCSID HTML 문자 인코딩 Charset 검출 한통일 하드웨어 코드 페이지 MICR 코드 모지바케 가변 폭 부호화
문자 집합

Search

CCSID

네임스페이스

더

목차

코드 페이지와 CCSID의 차이

예

레퍼런스

외부 링크