Java Virtual Machine의 줄임말.
JVM은 ‘자바를 실행하기 위한 가상 기계(컴퓨터)’이다.
JVM은 2가지 기본 기능이 있다.
- 자바 프로그램이 어느 기기, 어느 운영체제 상에서도 실행될 수 있게 만들어 준다. -> WORA
- 자바 프로그램의 메모리를 효율적으로 관리 & 최적화해 준다.
💡 WORA
WORA = Write Once, Run Anywhere
‘한 번 쓰고 모든 곳에서 실행한다’라는 뜻으로, 자바의 개발 철학이다.
자바는 WORA를 구현하기 위해 물리적인 머신과 별개의 가상 머신을 기반으로 동작하도록 설계되었다. 그래서 자바 바이트코드를 실행하고자 하는 모든 하드웨어에 JVM을 동작시킴으로써 자바 실행 코드를 변경하지 않고도 모든 종류의 하드웨어에서 동작되게 한 것이다.
Java 소스코드, 즉 원시코드(*.java)는 CPU가 인식을 하지 못하므로 기계어로 컴파일을 해줘야 한다. 하지만 Java는 이 JVM이라는 가상 머신을 거쳐서 OS에 도달하기 때문에 OS가 인식할 수 있는 기계어로 바로 컴파일되는 게 아니라 JVM이 인식할 수 있는 Java bytecode(*.class)로 변환된다.
Java compiler 가 .java 파일을 .class 파일인 Java bytecode로 변환한다. 하지만 .class 파일이 최종적으로 실행되는 파일은 아니다. 자바 파일이 실행이 되려면 자바 컴파일러 다음으로 JVM을 거쳐야 한다.
💡 여기서 Java compiler는 JDK를 설치하면 bin 에 존재하는 javac.exe를 말한다. (JDK에 Java compiler가 포함되어 있다). javac 명령어를 통해 .java를 .class로 컴파일할 수 있다. 이 때, 자바 파일(.java)을 소스 파일이라 하고, 바이트코드(.class)를 목적 파일이라 한다.
소스 파일 : 개발자가 작성하는 고레벨언어인 소스코드로 구성된 파일 ex. *.java, *.c
목적 파일 : 소스파일을 컴파일해서 생긴 파일 ex. 바이트코드, 바이너리 코드
💡 바이트코드란?
가상 컴퓨터(VM)에서 돌아가는 실행 프로그램을 위한 이진 표현법이다.
자바 바이트 코드(Java bytecode)는 JVM이 이해할 수 있는 언어로 변환된 자바 소스코드를 의미한다. WORA를 구현하기 위해 JVM은 사용자 언어인 자바와 기계어 사이의 중간 언어인 자바 바이트코드를 사용한다. 자바 컴파일러에 의해 변환된 코드의 명령어 크기가 1바이트라서 자바 바이트 코드라고 불리고 있다. 자바 바이트 코드는 다시 인터프리터 또는 JIT 컴파일러에 의해 바이너리 코드로 변환된다.
💡 바이너리 코드란?
바이너리 코드 또는 이진 코드라고 한다. 컴퓨터가 인식할 수 있는 0과 1로 구성된 이진코드이다.
💡 기계어란?
0과 1로 이루어진 바이너리 코드이다. 기계어가 이진 코드로 이루어졌을 뿐 모든 이진 코드가 기계어인 것은 아니다. 기계어는 특정한 언어가 아니라 CPU가 이해하는 명령어 집합이며, CPU 제조사마다 기계어가 다를 수 있다.
*소스파일 : 개발자가 작성하는 고레벨언어인 소스코드로 구성된 파일 ex. *.java, *.c
*목적파일 : 소스파일을 컴파일해서 생긴 파일 ex. 바이트코드, 바이너리 코드
즉, CPU가 이해하는 언어는 바이너리 코드, 가상 머신이 이해하는 코드는 바이트 코드이다.
JVM의 특징
1. 스택 기반의 가상 머신
대표적인 컴퓨터 아키텍처인 인텔 x86 아키텍처나 ARM 아키텍처와 같은 하드웨어가 레지스터 기반으로 동작하는 데 비해 JVM은 스택 기반으로 동작한다.
2. 심볼릭 레퍼런스
기본 자료형(primitive data type)을 제외한 모든 타입(클래스와 인터페이스)을 명시적인 메모리 주소 기반의 레퍼런스가 아니라 심볼릭 레퍼런스를 통해 참조한다.
3. 가비지 컬렉션(garbage collection)
클래스 인스턴스는 사용자 코드에 의해 명시적으로 생성되고 가비지 컬렉션에 의해 자동으로 파괴된다.
4. 기본 자료형을 명확하게 정의하여 플랫폼 독립성 보장
C/C++ 등의 전통적인 언어는 플랫폼에 따라 int 형의 크기가 변한다. JVM은 기본 자료형을 명확하게 정의하여 호환성을 유지하고 플랫폼 독립성을 보장한다.
5. 네트워크 바이트 오더(network byte order)
자바 클래스 파일은 네트워크 바이트 오더를 사용한다. 인텔 x86 아키텍처가 사용하는 리틀 엔디안이나, RISC 계열 아키텍처가 주로 사용하는 빅 엔디안 사이에서 플랫폼 독립성을 유지하려면 고정된 바이트 오더를 유지해야 하므로 네트워크 전송 시에 사용하는 바이트 오더인 네트워크 바이트 오더를 사용한다. 네트워크 바이트 오더는 빅 엔디안이다.
💡 자바는 썬 마이크로시스템스가 개발했지만, JVM 명세(The Java Virtual Machine Specification)를 따르기만 하면 어떤 벤더든 JVM을 개발하여 제공할 수 있다. 따라서 대표적인 오라클 핫스팟 JVM 외에도 IBM JVM을 비롯한 다양한 JVM이 존재한다. 안드로이드 스마트폰에 기본 탑재된 Dalvik VM은 JVM이긴 하지만 JVM 명세를 따르지는 않는다. 스택 머신인 다른 JVM과는 달리 Dalvik VM은 레지스터 머신이며, 따라서 독자적인 툴을 이용해 자바 바이트코드를 Dalvik VM용의 레지스터 기반 명령어 코드로 변환한다.
JVM의 구조
JVM은 크게 아래와 같이 이루어져 있다.
- 클래스 로더(Class Loader)
- 실행 엔진(Execution Engine)
- 인터프리터(Interpreter)
- JIT 컴파일러(Just-in-Time)
- 가비지 콜렉터(Garbage collector)
- 런타임 데이터 영역 (Runtime Data Area)
1️⃣ 클래스 로더
JVM 내로 클래스 파일(*.class)을 로드하고, 링크를 통해 배치하는 작업을 수행하는 모듈이다.
런타임 시 동적으로 클래스를 로드하고 jar 파일 내 저장된 클래스들을 JVM 위에 탑재한다.
즉, 클래스를 처음으로 참조할 때, 해당 클래스를 로드하고 링크하는 역할을 한다.
2️⃣ 실행 엔진
클래스를 실행시키는 역할이다.
클래스 로더가 JVM내의 런타임 데이터 영역에 바이트 코드를 배치시키고, 이것은 실행 엔진에 의해 실행된다.
자바 바이트 코드(*.class)는 기계가 바로 수행할 수 있는 언어보다는 비교적 인간이 보기 편한 형태로 기술된 것이다. 그래서 실행 엔진은 이와 같은 바이트 코드를 실제로 JVM 내부에서 기계가 실행할 수 있는 형태로 변경한다.
📌 인터프리터
실행 엔진은 자바 바이트 코드를 명령어 단위로 읽어서 실행한다.
하지만 한 줄씩 수행하기 때문에 느리다는 단점이 있다.
📌 JIT(Just-In-Time) 컴파일러
인터프리터 방식으로 실행하다가 적절한 시점에 바이트 코드 전체를 컴파일하여 기계어로 변경하고, 이후에는 해당 더 이상 인터프리팅 하지 않고 기계어로 직접 실행하는 방식이다.
📌 가비지 콜렉터
더 이상 사용되지 않는 인스턴스를 찾아 메모리에서 삭제한다.
3️⃣ Runtime Data Area
프로그램을 수행하기 위해 OS에서 할당받은 메모리 공간이다.
Runtime Data Area는 크게 5가지 영역으로 구분된다. 스레드마다 생성되는 PC Register, Stack Area, Native Method Stack이 있고, 스레드 공통 영역으로 Method Area와 Heap이 있다.
📌 PC Register
Thread가 시작될 때 생성되는 공간으로, 스레드마다 하나씩 존재한다.
Thread가 어떤 부분을 어떤 명령으로 실행해야 할 지에 대한 기록을 하는 부분으로 현재 수행 중인 JVM 명령의 주소를 갖는다.
💡 프로세스(process)란?
실행 중인 프로그램(program)을 의미한다.
즉, 사용자가 작성한 프로그램이 운영체제에 의해 메모리 공간을 할당받아 실행 중인 것을 말한다.
이러한 프로세스는 프로그램에 사용되는 데이터와 메모리 등의 자원 그리고 스레드로 구성된다.
💡 스레드(thread)란?
스레드(thread)란 프로세스(process) 내에서 실제로 작업을 수행하는 주체를 의미한다.
모든 프로세스에는 한 개 이상의 스레드가 존재하여 작업을 수행한다.
또한, 두 개 이상의 스레드를 가지는 프로세스를 멀티스레드 프로세스(multi-threaded process)라고 한다.
📌 JVM 스택 영역
프로그램 실행 과정에서 임시로 할당되었다가 메소드를 빠져나가면 바로 소멸되는 특성의 데이터를 저장하기 위한 영역이다.
각종 형태의 변수나 임시 데이터, 스레드나 메소드의 정보를 저장한다.
메소드 호출 시마다 각각의 스택 프레임(메서드만을 위한 공간)이 생성된다. 메소드 수행이 끝나면 프레임을 삭제한다.
메소드 안에서 사용되는 값들을 저장한다. 또 호출된 메소드의 매개변수, 지역변수, 리턴 값 및 연산 시 일어나는 값들을 임시로 저장한다.
📌 Native method stack
자바 프로그램이 컴파일되어 생성되는 바이트 코드가 아닌 실제 실행할 수 있는 기계어로 작성된 프로그램을 실행시키는 영역이다.
JAVA가 아닌 다른 언어로 작성된 코드를 위한 공간이다. 성능 향상을 목적으로 사용한다.
Java Native Interface(JNI)를 통해 바이트 코드로 전환하여 저장하게 된다.
일반 프로그램처럼 커널이 스택을 잡아 독자적으로 프로그램을 실행시키는 영역이다.
📌 Method Area (= Class Area = Static Area)
클래스 정보를 처음 메모리 공간에 올릴 때 초기화되는 대상을 저장하기 위한 메모리 공간이다.
Runtime Constant Pool
Static Area에 존재하는 별도의 관리 영역이다.
상수 자료형을 저장하여 참조하고 중복을 막는 역할을 수행한다.
💡 Static Area에 저장되는 데이터
1. Field Information (멤버 변수)
멤버 변수의 이름, 데이터 타입, 접근 제어자에 대한 정보
2. Method Information (메소드)
메소드의 이름, 리턴 타입, 매개변수, 접근 제어자에 대한 정보
3. Type Information (타입)
class인지 interface인지의 여부 저장. Type의 속성, 전체 이름, super 클래스의 전체 이름. (interface이거나 object인 경우 제외된다. 이건 Heap에서 관리함)
📌 Heap 영역
객체를 저장하는 가상 메모리 공간이다. new 연산자로 생성되는 객체와 배열을 저장한다.
Class Area(Static Area)에 올라온 클래스들만 객체로 생성할 수 있다.
Heap은 크게 세 부분으로 나눌 수 있다.
1) Permanent Generation
생성된 객체들의 정보의 주소 값이 저장된 공간이다. 클래스 로더에 의해 load 되는 Class, Method 등에 대한 Meta 정보가 저장되는 영역으로 JVM에 의해 사용된다.
2) New/Young 영역
이곳의 인스턴스들은 추후 가비지 콜렉터에 의해 사라진다.
생명 주기가 짧은 “젊은 객체”를 GC 대상으로 하는 영역이다.
여기서 일어나는 가비지 콜렉트를 Minor GC라고 한다.
- Eden: 객체들이 최초로 생성되는 공간
- Survivor 0, 1: Eden에서 참조되는 객체들이 저장되는 공간
💡 Eden 영역에 객체가 가득 차게 되면 첫 번째 가비지 콜렉트가 발생한다.
Eden영역에 있는 값 등을 Survivor 1 영역에 복사하고 이 영역을 제외한 나머지 객체를 삭제한다.
3) Old 영역
이곳의 인스턴스들은 추후 가비지 콜렉터에 의해 사라진다.
생명 주기가 긴 “오래된 객체”를 GC 대상으로 하는 영역이다.
여기서 일어나는 가비지 콜렉트를 Major GC라고 한다. Minor GC에 비해 속도가 느리다.
New/Young Area에서 일정 시간 참조되고 있는, 살아남은 객체들이 저장되는 공간이다.
Java 실행 방식
- 자바 컴파일러(javac)가 자바 소스코드(.java)를 바이트코드(.class)로 변환한다.
- Class Loader가 바이트코드를 Runtime Data Area에 로드한다.
- 로딩된 바이트코드들은 Execution engine을 통해 해석되어 실행된다.
- 실행 과정 속에서 JVM은 필요에 따라 GC와 같은 관리 작업을 수행한다.
📗 참고