본문 바로가기
웹/HTML

HTML - 엔티티 와 문자셋

by DGDD(Developer) 2023. 6. 19.

엔티티(Entity)


HTML에서 엔티티는 특수 문자를 표현하기 위해 사용되는 코드이다. 왜냐하면 몇 가지 특수 문자는 HTML 코드에서 예약어로 사용되고 있기 때문이다. 이러한 문자를 표현하기 위해 엔티티 코드를 사용하여 HTML에서 이스케이프(escape)할 수 있다. 

*이스케이프(escape) : 특정 문자나 문자열을 다른 형태로 변환하는 것을 의미. 

 

엔티티 코드는 ‘ & ’로 시작하고 ‘ ; ’로 끝나는 형식을 가지며,  이 사이에 문자나 숫자를 기입하여 해당 문자를 대체한다. 

ex)

  •  ‘&lt;’ : ‘ < ’ 기호를 나타낸다
  • ‘&gt;’ : ‘ > ’  기호를 나타낸다
  • ‘&amp;’ : ‘ & ’ 기호를 나타낸다.
  • ‘&quot;’ : ‘ ‘ 기호를 나타낸다.
  • ‘&apos;’ : ‘ ‘ 기호를 나타낸다다

 

<p>This is an example of &lt;p&gt; tag.</p>

모든 엔티티에 대한 자세한 정보는 W3C 공식 사이트에서 확인 가능하다.

 

https://www.w3.org/TR/html4/sgml/entities.html


문자셋(Character set)


웹 브라우저가 HTML 문서를 정확하게 나타내기 위해서 HTML 문서가 저장될 때 사용된 문자셋에 대한 정보를 <head> 태그 내의 <meta>태그에 명시한다.

 

HTML 문서에서는 주로 UTF-8 문자셋을 사용하기 때문에 아래 예시 처럼 <head>안에 UTF-8 문자셋을 명시해준다

 

<!DOCTYPE html>

<html>

<head>

    <meta charset="UTF-8">

    <title>HTML Document</title>

</head>

<body>

    <!-- 내용 -->

</body>

</html>

 

UTF-8 말고도 주로 사용하는 문자셋은 아래와 같다

  • ASCII : 최초의 문자셋 127개의 영문자와 숫자
  • ANSI : 윈도우즈에서 만든 문자셋 , 총 256개의 문자 코드 
  • ISO-8859-1: 256개의 문자 코드를 지원하는 HTML4 기본 문자셋
  • Windows-1252: Microsoft Windows 시스템에서 널리 사용되는 문자셋
  • KOI8-R : 러시아어를 표현하기 위해 주로 사용되는 문자셋(현재는 UTF-8 사용)

 

하지만 권장되는 문자셋이 UTF-8이기 때문에 이런 문자셋이 존재한다는 것만 알면 될 것 같다.

 

' > HTML' 카테고리의 다른 글

HTML - 색 배경 링크  (0) 2023.06.19
HTML - 스타일(Style)  (0) 2023.06.19
HTML - 서식과 인용  (0) 2023.06.19
HTML - 제목과 문단  (0) 2023.06.19
HTML - HTML이란  (2) 2023.06.19