0501 개론스터디
chapter 02 데이터 표현과 디스크 구성
제 1절 데이터 표현
(3) 문자
문자 코드는 한글, 영어(A〜Z, a〜z), 숫자(0〜9), 특수문자 등의 모양 을 특정 2진 값으로 정해 놓아 표현한다.
1) ASCII 문자 코드
7bit로 구성된 128종의 기호. 제어 부호 33자, 그래픽 기호 33자, 숫자 10자, 알파벳 대소문자 52자로 되어 있다.
2) 엡시딕 코드(EBCDIC)
CodeBCD 코드를 확장한 형태로 확장형 BCD 코드라 하며 IBM이 대형 운영체계에서 사용하기 위해 개발한 알파벳 및 숫자를 위한 바이너리 코드
EBCDIC 파일 내에서 각 알파벳이나 숫자는 8bit의 이진수로 표현되므 로, 총 256개의 문자가 정의된다.
3) 유니코드(Unicode)
나라별 언어를 모두 표현하기 위해 나온 코드 체계
① UCS-2와 UCS-4 : 고정 2byte 인코딩인 UCS-2, 고정 4byte 를 사용하는 UCS-4(사용되진 않음)
② UTF-8 : 처음 부분에 ASCII 코드값과 똑같은 코드 값을 넣음
③ UTF-16 : 고정 크기가 아닌 가변크기
④ UTF-32 : 유니코드를 무조건 4byte로 사용하여 표기하는 인코딩
4) 한글 코드
컴퓨터 내부에서 한글을 표시하기 위해 사용되는 코드
① 조합형 코드 : 초성, 중성 , 종성을 각 5bit를 할당한다. 이론상 한글 11,172자를 모두 표현할 수 있다. 1990년도 중반까지 사용되었다.
② 완성형 코드 : 한글을 보게 되면 조합할 수 있는 모든 글자 수 11,172자 중 많이 쓰이는 글자인 2,350자를 추출하여 배열한 것.
③ 확장 완성형 코드 : : Microsoft에서 완성형 (EUC—KR) 코드에 글자를 추가한 것
(4) 시간 정보
시간 정보는 사건이 발생한 시점에 대한 행위를 파악할 수 있는 중요한 정보이다. 분석 때에는 현지시각의 정보로 변환하여 분석해야 한다.
1) GMT(Greenwich Mean Time)
영국 런던에 있는 그리니치 천문대를 기준으로 한 평균 태양시. 현재 서울의 시간은 GMT +9시간을 사용 중이다.
2) UTC(Universal Time, Coordinated)
1972년 1월 1일 세계 표준시로 규정되어 있다. 태양시와 협정 세계시의 차이를 맞추기 위해 윤초가 사용된다. UTC는 원자시를 사용하기 때문에 시간이 흘러도 변할 가능성이 거의 없다.
3) 시간 정보의 표현방식
① MS-DOS Date/Time : MS-DOS 시스템에서 사용되는 시간 저장 형 식으로 컴퓨터의 현재 날짜와 시간(local time)을 저장한다.
② time_t : 유닉스 운영체제에서 시간을 저장하는 표준 형식. 정수형을 사용하는 1970년 1월 1일 자정(UTC) 이후 경과된 초를 저장한다.
③ time64_t : time_t에 부호 있는 4byte정수형을 사용하는 경우, 2038 년 1월 19일 03:14:07 UTC가 지나면 시간이 1901년 또는 1970년이 되는 문제를 해결하기 위해 8byte를 이용하도록 time_t의 정의를 변경하였다.