본문 바로가기

코딩이야기25

문자 인코딩에 대해서 알아보자 - 3편 그외 많이 보는 인코딩 #자주 만날 수 있는 인코딩들(without 유니코드) ##1. ISO 8859-1 (latin1) ###1) 문자세트 ISO/IEC 8859이 일부인 문 집합으로 약칭 latin-1으로 불린다.ASCII에 포함된 95자의 인쇄 영역은 현대 영어로 정보를 표현하는 데 충분하다. 하지만 로마문자를 쓰는 다른 언어에는 ASCII로 처리할 수 없는 추가적인 기호를 포함하고 있다. 예를 들면 독일어, 에스파냐어, 스웨덴어와 북유럽언어 등이다. ISO/IEC 8859는 기존 8비트로 구성된 바이트의 8번째 비트를 이용하여 128자의 추가적인 문자를 할당하여 이 문제를 해결하고자 하는 목적으로 제안되었다. 그럼에도 불구하고 한 종류의 문자 집합만으로는 해결하고자 했던 문자들을 모두 처리할 수 없어 여러 가지 매핑이.. 2018. 1. 10.
문자 인코딩에 대해서 알아보자 - 2편 유니코드로 알아보기 # 유니코드(Unicode) ## 유니코드의 등장배경 유니코드의 이전상황하나의 언어를 하나의 문자 인코딩으로 매칭되는 시스템이었음.그러나 A인코딩 사용자가 B인코딩 사용자에게 이메일을 보냈을 때, 서로 호환되지 않는 문제가 발생하였음.예를들어 "01"이라는 값을 A인코딩은 "A"로표현하고 B인코딩은 "가"로 표현하기 때문임. 메일을 보낸 측과 동일한 인코딩으로 변환하면 되지 않나는 생각이 들지만, 이 경우에도 하나의 문서에서 2개의 서로 다른 인코딩을 표현하기는 어렵다는 것을 알 수 있음. 이 2가지 문제는 근본적으로 같은 이유에서 발생함.각 문자에 대응하는 유일한 코드값이 있다면 한 페이지에서 여러언어를 표현가능하고 이를 해결하기위한 별도의 복잡합 방법을 사용할 이유가 없기 때문에 더 명확함. 그렇게 .. 2018. 1. 10.
문자 인코딩에 대해서 알아보자 - 1편 문자 인코딩 개념(수정) # 문자 인코딩(character encoding)문자 인코딩은 크게 이렇게 3가지로 구성된다. ## 1. 문자 집합 또는 문자셋(chracter set, charset) 표현하고자 하는 언어의 문자들을 코드화 해놓은 것으로 볼 수 있다. "이런 언어의 문자들을 포함하고 있으며, 해당 문자들에 코드값을 부여했다" 고 보면 된다. 한글을 예로들면,euc-kr에서 사용된 문자집합이 몇몇 한글을 지원하지 않았고, 해당 문자 인코딩으로 이루어진 시스템에서 사용자가 본인의 이름을 사용하지 못했다는 기사를 본적이 있다. https://en.wikibooks.org/wiki/Unicode/Character_reference/0000-0FFF아래 표와 같이 표현된다.유니코드를 나타내는 U+ AC00은 "가"를 나타낸다.. 2018. 1. 3.
파일 시스템(File System) - 6. Disk Scheduling 파일 시스템(File System) - 6. Disk Scheduling 1. 파일의 생성과 확장에 따라 블록을 할당해야하는데, 이것은 Disk Operation이므로 매우 느린 작업임.2. 요청된 순서에 따라서 연산을 수행할때, 블록 접근 순서가 매우 먼거리들로 이루어져있다면 비효율적임3. 이러한 문제를 해결하기 위해서 일정 단위동안 연산을 모아서 재정렬하고 이를 효율적으로 수행함4. 재정렬하는 방법은 FIFO, SSTF(Shortest seek time First), scan(like an elevator), circular scan 등이 있음.5. FIFO는 위에서 제기한 문제점이 있는 방식이고SSTF는 가까운거리만 왔다갔다하고 멀리있는 블록의 경우 기아상태가 발생할 수 있음.SCAN은 시작점 부터.. 2016. 4. 11.