Welcome to vSphere World

2014년 9월 2일 화요일

VMworld 2014 기술 동향 - SDDC, EVO

안녕하세요 EVAN입니다.

회사에서 VMworld 2014를 보내줘서 참 알찬내용 많이 듣고 왔습니다.

VMworld 2014를 참여하고 난 후 앞으로의 VMware 기술동향에 대해서 잠시 살펴보겠습니다.

지금 이순간 용기를 내어 앞으로 나아가라. VMware와 파트너사들 그리고 참여하신 모든 IT리더들에게 말해주고 싶은 것은 기존의 환경을 가져갈것인가 새로운 환경을 적용할 것인가에 대해서는 보존과 변화를 함께하라고 전달하고 있습니다.

VMware CEO인 갤 펫싱어는 VMware가 추구하는 미래를 다음과 같이 크게 3가지로 구분하였습니다.

SDDC : Software Define Data Center
Hybird Cloud : Private Cloud + Public Cloud
End-User Computing

SDDC는 또 다음과 같이 구성되어집니다.

Compute : VMware vSphere
Network : VMware NSX
Storage : VMware Virtual SAN & Virtual Volumes
Management : VMware vRealize

- VMware vCloud Suite 5.8

- vSphere 6.0 Beta

- Virtual Volumes & Virtual SAN 2.0 Beta

- VMware vRealize Suite

위의 내용으로 발표는 시작되었습니다. 개인적으로 VMware는 SDDC(Software Define Data Center)에 상당히 접근해 왔고, 현재는 Hybrid Cloud(Private & Public)를 지원하기 위한 시스템을 준비하고 있었습니다.

SDDC의 요소는 위의 그림대로 3가지로 표현합니다. 그 중 Hyper-Converged Infrastructure에 VMware는 힘을 실어 하드웨어 포함된 어플라이언스 VMware EVO패밀리를 출사하였습니다.

첫번째 모델은 VMware EVO RAIL입니다.

EVO RAIL은 15분만에 설치 및 배포가 가능하며 하드웨어와 소프트웨어가 포함되어 있는 어플라이언스 제품입니다. SDDC가 포함된 하드웨어라고 생각하시면 될 것 같습니다.

EVO RAIL 을 지원하는 하드웨어 업체들입니다.

위에 표시된 하드웨어 벤더들은 모두 VMware와 협업하여 VMware EVO 제품을 제공합니다.

EVO 패밀리의 두번째 모델입니다. VMware EVO : RACK 단 이 제품은 현재 Technical Preview단계입니다. Public클라우드를 타겟으로 서비스할 것으로 예상됩니다.

다음은 VMware가 지향하고 있는 비전을 엿볼수 있는 기능을 확인하였습니다.

VMware EVO RAIL의 디자인입니다. 마치 Nutanix와 비슷한 구성입니다.

하나의 노드에 4개의 어플라이언스가 장착됩니다. 가상머신은 각각 4개의 어플라이언스 위에서 구동이 됩니다. 총 16개의 노드까지 확장이 가능합니다.

100개의 가상머신, 250개의 Desktop가상머신을 수용하며 15분안에 배포가 가능합니다.

EVO의 장점은 구축, 배포 및 확장이 빠르다 입니다.

위의 그림에서 파악되듯이 VMware EVO RAIL은 Private Cloud Infrastructure를 구축하기 위해 사용되어 질것이고 VMware EVO RACK은 Public Cloud Infrastructure를 구축하여 서비스할 예정으로 파악되어집니다.

이 모든 것들은 VMware가 앞으로 추구 하는 Hybrid Cloud를 지원하기 위한 발판으로 보여집니다.

VMWare EVO 시리즈는 구성요소로서 네트워크는 NSX, 스토리지는 vSAN, 컴퓨팅은 VMware vSphere로 장착하여 출격하게 됩니다.

OpenStack을 VMware에 추가하였습니다.

이 부분은 많은 시사점을 말해주는 것 같습니다. VMware Integrated OpenStack에서 확인할 수 있는 내용은 많은 OpenStack위에 올라간 솔루션들을 특별한 솔루션 없이 바로 VMware에서 이관 및 구동이 가능하다는 것을 설명할 수 있습니다.

VMware의 대항마로 설명되는 OpenStack은 무료 클라우드 서비스이며 그위에 올라가는 많은 솔루션들이 현재 공유되고 있습니다.

위에 설명되어 있듯이 VMware의 단일 플랫폼으로 어떠한 어플리케이션도 지원할 수 있다는 설명입니다. 현재 VMware는 Open Source기반의 어플리케이션을 사용하는 고객이라도 특별한 변경사항 없이 바로 VMware로 관리가 가능하다는 점은 가상화 솔루션의 미래를 어느 정도 엿볼 수 있는 기회가 되었습니다.

그리고 VMware는 더 나아가 Google, Docker와 같이 Open Source 가상화 솔루션의 API를 심음으로서 모든 가상화 솔루션을 VMware 위에서 구동할 수 있도록 방향을 잡고 있습니다.

그리고 다음으로 VMware는 Public Cloud에 대해서 설명합니다.

기존 클라우드를 대표하던 PAAS와 DAAS, DRAAS등 새로운 개념을 조합하여 VMware는 설명합니다. DR개념을 Public Cloud에 두어 어디서든 DR이 가능하다는 설명을 하고 있으며, 그 동안 설명하던 클라우드 개념에 추가된 아이디어라고 생각했습니다.

vCloud Air야 말로 진정으로 Hybrid Cloud Platform이라고 VMware는 설명합니다.

내부에 SDDC를 구축하여 외부 개발자들에게 서비스를 할 수 있도록 클라우드환경을 구축하고 그 환경을 DR로도 사용할 수 있기 때문에, Cost 절감이 가능하다는 설명입니다.

그리고 세번째로 VMware가 추구하는 방향은 End User Computing입니다.

Mobie Cloud를 구축하여 컴퓨터, 노트북, 테블릿, 핸드폰, 자동차 등 IT를 사용하는 어느 곳에서도 접근 가능한 시스템을 구축하는 목표를 세웠습니다.

NVIDIA와 Google과 함께하여 Real 3D User Experiences를 제공한다는 내용은 충격적입니다.

정말 3D게임, 포토샵, CAD, 3D Design에 VDI를 이용하여 사용하면서도 전혀 Local Desktop과 비교해도 손색없는 속도를 제공합니다.

이러한 것들을 설명하는 VMware는 진정으로 원하는 서비스는 Hybrid Cloud 입니다. 하지만 현재 사용중인 Private Cloud환경을 포기하라는 말은 하지 않습니다. 함께입니다. 강력한 SDDC를 포함한 하드웨어 어플라이언스로 무장한 Private Cloud와 VMware vRealize Suite를 통해서 Public Cloud와 Private Cloud를 함께 Management하면서 End-User Computing까지 Hybrid Cloud로 서비스를 이어가겠다는 VMware의 당찬 포부를 확인할 수 있었습니다.

2014년 8월 20일 수요일

VMware 장애해결을 위한 로그 수집 방법 - VM-Support

안녕하세요 Evan입니다.
2장은 VM-support에 대한 내용들입니다.
기본적으로 저희 회사 엔지니어분들과 공유하기 위해서 만드는 문서를 블로깅하였습니다.

2장. VM-Support

기본적으로 장애지원을 하다보면 많은 트러블과 마주치게 됩니다.

이럴 때 VM-support를 이용하여 SR요청도 가능하고 개인적으로 로그 분석이 가능하도록 로그를 수집할 수 있습니다.

장애시점에 VM-support를 수집해야 최대한 변경된 부분 없이 분석이 가능하기 때문에 조금 더 수월한 부분이 있습니다..

자 그럼 VM-support를 어떻게 사용하는지 알아봅시다.
기본적으로 사용하는 명령어는 다음과 같습니다..

\vm-support

위의 명령어를 사용하면 하위의 폴더에 다음과 같은 파일이 생성됩니다..
/var/tmp/esx-hostname-2013-08-06—09-43.tgz(수집날짜-수집시간)
그러면 VM-support에 대한 옵션에 대해서 알아봅시다.

[ESXi 5.0기준]
Options:
-h, --help show this help message and exit
-g GROUPS, --groups=GROUPS Gather data from listed groups
-a MANIFESTS, --manifests=MANIFESTS Gather from listed manifests
-e EXCLUDEMANIFESTS, --excludemanifests=EXCLUDEMANIFESTS Exclude the listed manifests
--listmanifests List available manifests
-G, --listgroups List available manifest groups
-t, --listtags List available manifest tags
-p, --performance Gather performance data
-d DURATION, --duration=DURATION Duration of performance monitoring (in seconds)
-i INTERVAL, --interval=INTERVAL Interval between performance snapshots
-v VM, --vm=VM Gather detailed information about this specific VM (ie --vm <path to .vmx file>)
-V, --listvms List currently registered VMs
-w WORKINGDIR, --workingdir=WORKINGDIR Directory to create .tgz in
-D, --dryrun Prints out the data that would have been gathered
-s, --stream stream data to stdout
-q, --quiet Output only the location of the bundle
-E ERRORFILE, --errorfile=ERRORFILE
Prints (non-fatal) errors to specified file (overrides
--quiet and --stream)
--loglevel=LOGLEVEL Set logging to specified level: 0-50 (0=most verbose)
--version Display the vm-support version
-l, --listfiles List all files gathered by vm-support

자 그럼 tgz파일에는 어떠한 내용들이 저장되는 걸까?
압축된 파일을 해제하게 되면 다음과 같은 폴더를 볼 수 있습니다.

자 위의 폴더를 보면 대충 이해가 될 것입니다.
ESX의 폴더내용을 대부분 그대로 수집해 옵니다.
자 그럼 분석을 위해서 꼭 확인해야 하는 부분은 어디일까요?
1. NIC관련부분
2. Storage관련부분
3. Kernel관련부분
4. 성능부분
이 정도면 어느 정도 분석이 가능할 것으로 예상됩니다.
추가로 장애가 어디서 발생했는지 확인이 된다면 어느 부분을 확인 해야 할 지 감이 오실 겁니다.

일단 기본적으로 장애분석을 하기 위해선 기본적으로 시스템의 Flow를 알아야 합니다.
VMware의 Flow는 bare-metal방식의 OS이기 때문에 H/W ->ESX Kernel -> Guest OS 순으로 사용되어집니다.
아래의 그림을 참조하세요.

위와 같이 H/W -> Hypervisor -> GuestOS(VM) 순으로 Driver가 Loading됩니다.
그러면 NIC or Storage측에서 Trouble이 발생하였다면 당연히 H/W쪽에서 봐야겠죠.
ESX에서 확인 할 수 있는 부분은 VMware ESXi 부분이 Kernel이 존재하는 부분입니다.
저 Kernel에서 H/W와의 Communication에 문제가 있는지 없는지 확인한다면 S/W or H/W분간이 수월하겠죠?

아래는 VMware ESXi Architecture입니다.

그림의 내용을 보시면 아시겠찌만 VMkernel에서 모든 것들이 동작합니다.
리소스 스캐쥴 , 스토리지 스택 , 네트워크 스택 , vNIC & Switch , Device drivers등등
VMkernel 위에 hostd , vpxa, DCUI , syslog등등의 것들이 있습니다.
VMware의 Architecture 만 이해하더라도 기술지원 시 어느 부분을 확인해야 하는지 감이 빨리 오실겁니다.
Architecture를 이해하더라도 관련 로그가 어디에 있는지 모른다면 분석이 어렵겠죠?
VM-support파일을 다시 한번 확인하겠습니다.
\var\log 폴더를 보게 되면 아래와 같이 로그파일이 저장되어 있습니다.

그리고 각종 디바이스들의 정보를 확인하는 부분은 아래의 폴더에 가시면 확인 가능합니다.
\commands

위의 그림에서 보시면 아시겠지만 필요한 H/W와 구성정보가 모두 수집되어 저장되어있습니다.
필요한 정보를 위에서 확인하시면 되겠죠.
이 외에도 더 있겠지만 기본적으로 두 개의 폴더만 확실히 파악하고 있어도 로그분석이 어느정도 가능하다고 여겨집니다.
로그분석을 하게되면 시스템의 구동순서를 확인할 수 있고 자연스레 Flow가 눈에 들어오게됩니다.
정상로그를 많이 봐 둬야 문제가 발생했을 때 원인파악이 더욱 수월하겠죠?

Collecting diagnostic information using the vm-support command in VMware ESX/ESXi (1010705)

VMware KB : http://kb.vmware.com/selfservice/microsites/search.do?cmd=displayKC&docType=kc&externalId=1010705&sliceId=1&docTypeID=DT_KB_1_1&dialogID=348314660&stateId=1%200%20348322392

VMware vSphere 5의 새로운 기능 - FDM소개

안녕하세요 Evan 입니다.

제가 블러깅한 내용 중 1장 HA관련 내용 중 FDM에 대해서 추가할 내용이 있어 다시 블로깅합니다.

FDM이란?

- 기존 버전의 vSphere에서는(4버전이하) AAM을 사용하여 Cluster구성을 하였습니다.

5버전 이상에서 새로운 녀석이 나왔습니다.

바로 FDM(Fault Domain Manger)라는 녀석입니다. 기존의 Primary/Secondary 컨셉을 기존버전에서 사용되었습니다.

5버전에서 FDM을 사용하면서 Master / Slave 컨셉으로 변경되었습니다.

하나의 Master와 여러개의 Slave를 운영하면서 서로의 Heartbeat을 체크하게 됩니다.

아래의 그림을 봅시다.

HA그룹에 총 4 node의 ESX서버가 있습니다. HA로 구성하게 되면 서로의 Node에 FDM이 설치되게 됩니다.

하나의 Master와 3개의 Slave가 생성되었죠.

서로 Heartbeat통신을 하면서 상태체크를 하게 됩니다.

Master가 죽게 되면 Slave중 하나가 Master가 되어 기존의 Master정보를 넘겨받게 됩니다.

Slave가 죽게 되면 Master가 Slave의 정보를 가져오게 되겠죠~

vSphere 5 버전의 Heartbeat은 기존 버전에서 없던 Heartbeat이 추가되었습니다.

바로 스토리지 간의 Heartbeat 이죠.

ESX의 Heartbeat이 죽었다고 바로 HA가 진행되지 않습니다. Storage Heartbeat역시 문제가 발생되어야 비로소 HA가 진행되겠죠.

VMware vSphere HA 기술문서(5.1 기준)

안녕하세요 Evan입니다.

VMware HA에 대한 내용입니다. 원본은 VMware vSphere 5.1 Clustering Deepdive에서 발췌한 내용들과 제가 공부한 내용을 위주로 블로깅했습니다.

1장 HA(High Availability)

1. FDM ( Fault Domain Manager )

è 호스트의 리소스 정보를 커뮤니케이션함, VM status, 다른 호스트의 상태(클러스터그룹안에 있는) ,FDM은 Heartbeat 메커니즘을 핸들링함.

(VM placement, VM restarts, Loging & much more)

è AAM은 멀티 Agent를 사용(MASTER가 여러 개임)

FDM은 싱글 Agent를 사용(MASTER가 하나, WatchDog 프로세서를 이용)

Failure 관련 이벤트를 에이전트가 감지하면, Watchdog은 이것을 감지하여 Pick up 준비를 하고 재부팅 후에 HA의 장애없는 호스트에게 넘겨준다.

Agent는 네트워크 중단이 된 호스트에 APD(All Path Down)을 남긴다.

호스트는 자동적으로 다른 Path로 통신을 한다(이중화 구성이 되어있다면)

è vSphere5.0 에서는 FQDN을 지원한다. FDM역시 지원한다. 더 이상 vCenter에 IP로 등록할 필요가 없다.(이전의 vSphere(5버진이하)는 27characters로 제한되어있었다.)

Best Practice에는 HOST등록이 FQDN으로 등록하라고 나온다.

더 이상 HA는 DNS에 의존하지 않는다.

è FDM의 중요 변화는 Loging이다. HA Log파일을 syslog로 보내지 않는다.

vSphere5.0이 기본적인 로깅 메커니즘을 싱글 로그파일에 생성하는데 그것은 FDM.log이며 모든 Operation로그가 쌓인다.

위치는 /var/log에 있다.

물론 syslog는 configured and log files are offloaded 관련 로그를 저장한다.

2. HOSTD

è HOST의 중요한 agent중 하나

è VM들의 Power On 같은 기능을 실행할 수 있도록 한다.

è FDM은 Hostd와 vCenter에 다이렉트로 통신한다. 그래서 vpxa에 의존하지 않는다.

è 이것은 불필요한 오버해드를 방지하고 HA가 Power-on요청을 더 빠르게 응답할 수 있도록 안정적으로 지원한다.

è Hostd는 재부팅으로 인해 서비스가 아직 올라오지 않아 사용하지 못하는 경우에는 FDM관련 프로세서에 참여하지 않는다.(FDM서비스가 정상적으로 올라와야 hostd 서비스 작동)

è FDM은 hostd의 정보에 의존한다(예를들어 호스트에 등록되어 있는 VM정보들)

그리고 hostd api를 이용하여 VM을 관리한다.

è FDM은 hostd에 의존한다.(hostd가 작동하지 않는다면, FDM은 모든 기능을 종료하거나 hostd의 서비스가 동작할 때 까지 기다린다)

위의 그림을 보면 FDM와 HOSTD는 함께 동작하는 Agent들이다.

FDM은 vCenter와 통신을 하고 HostD는 host와 통신을 하는 것으로 보여진다.

FDM > HOSTD > HOST > vCenter의 순으로 중요도가 나눠지는 것 같다.

2014년 8월 19일 화요일

VMware vSphere 5.5 Installation hangup on IBM X3650 M4 - 해결됨

안녕하세요 Evan입니다.

어제 저희 동료가 IBM X3650 M4 8대에 VMware vSphere 5.5 Update1 Customizing for IBM 이미지로 설치를 진행하던 중 특정 부분에서 계속 멈추는 현상이 발생하였습니다.

imgpayld.tgz를 로드하지 못하고 멈춰버립니다.
혹시 몰라 한시간 가량 기다려 봤지만, 문제는 해결되지 않았습니다.

금일 오후에 방문해 함께 점검할 예정인데요, 참고로 저는 IBM 하드웨어 엔지니어 경험이 있기 때문에 이런 문제는 껌씹는것 처럼 제겐 쉬운문제입니다. -_-;;;

여튼 검색을 해보니 이런저런 내용들이많이 나오내요.
일단 해결방법들은 다음과 같습니다.

1. CD를 다시 구웠더니 해결.(기존 이미지 문제)
2. USB로 설치해서 해결
3. vSphere Version을 변경해서 해결(5.5->5.1)
4. 아직 적용해보진 못했지만 오늘 적용해볼것들

- vSphere 5.1 update 2 for IBM(customizing Image)로 설치
- vSphere 5.5 Update 1 Original Image로 설치
- UEFI에서 MEMORY Mapping 관련 옵션 변경 (2G -> 3G)
이 부분은 IBM Retain TIP에서 확인하였습니다.

일단 금일 작업 후에 결과를 업데이트 하도록 하겠습니다.

관련링크 :

http://www-947.ibm.com/support/entry/portal/docdisplay?lndocid=migr-5095507

--------------------------------------------------------------------------------------------------------
작업하고 왔습니다.
일단 IBM Retain TIP적용해서 해결되었습니다.
자세한 사양은 아래 사진을 확인하세요.

System Setting -> Devices and I/O Ports -> MM Config Base -> 2G를 3G로 변경 후 설치가 정상적으로 이루어짐.

ESXi 5.5 Update1 for IBM customizing CD로 설치 하였고 IBM X3650 M4(7915M3K) 장비입니다.

위의 PSOD는 UEFI에서 CPU 메뉴 중 Execute 어쩌고 저쩌고 항목이 있는데 Disable 해놨더니 PSOD가 발생하였습니다. 참조하세요. Default설정은 Enable입니다.

2014년 8월 18일 월요일

탐색기 대체 프로그램 " Clover 3"

안녕하세요 Evan입니다.

내 컴퓨터에 있는 자료 및 폴더를 정리하던 중 탐색기가 좀 더 편리했으면 해서 탐색기 프로그램을 찾아봤습니다.

헐퀴 근데 이게 왠걸...
좋은 프로그램을 찾았습니다.

Clovar 3

크롬같이 생겼내요...-_-; 탐색기를 대체하여 동작되기 때문에 상당히 편리합니다.
폴더가 탭형식으로 되어있기 때문에 즐겨찾기 및 파일 복사가 상당히 수월합니다.

아래는 제가 사용하는 화면입니다.

다운로드 : http://ejie.me/

익스플로어 혹은 크롬에서 특정 사이트가 계속 올라올때 조치사항

안녕하세요 Evan입니다.
정보검색 하면서 이것저것 많이 설치를 하게 되는데요 가끔 특정 프로그램을 설치하게 되면
특정 사이트가 계속 올라오게 됩니다.
첫페이지를 다르게 설정해도 그녀석이 계속올라올때 정말 짜증나죠.

저도 그런상황에서 좀 사용하다 화딱지가 나서 싹 날려버렸습니다.
혹시 저와같은 상황때문에 화가 나는 분들이 계시다면 날려버리는 법을 공유해드리오니 스트레스를 한방에 날려버리세요.ㅎㅎ

1. 익스플로어의 경우

1. Tools -> Internet Option -> Home Page 변경 (여기에 첫화면에 계속올라오는 녀석을 날려버리세요)
2. Histoy & Cookie file Delete
3. Search -> 첫화면에 올라오는 녀석과 관련된것 싸그리 지움

2. 크롬의 경우

1. Setting(설정) -> On startup -> set page( 첫 화면 관련 내용 삭제)

2. Search -> manage search engines-> 첫 화면 관련 내용 삭제

3. advanced setting -> Privacy -> Clear browsing data -> Cookie & cached image & histroy 삭제

이렇게 관련 내용을 삭제해도 계속 올라오는 경우는 아래의 내용을 적용합니다.

1. regedit에서 관련 내용 삭제

2. Shortcut 파일 삭제

익스플로어나 클롬을 설치된 위치에 가서 exe파일을 실행하면 문제없이 설정한 첫 페이지가 나온다면, shortcut을 의심해야합니다.

기본적으로 Windows 7을 기준으로 할때 프로그램을 실행시키고 PIN으로 하단바에 고정을 시켰을 때, Shortcut이 생성되며, 위치는 다음과 같습니다.

익스플로어
C:\Users\Administrator(로그인명)\AppData\Local\Microsoft\Internet Explorer
크롬
C:\Users\Administrator\AppData\Local\Google\Chrome

.ink파일이 있다면 우측마우스 속성을 열어보세요
아래와 같이 Target에 문제되는 첫화면이 박혀있을 겁니다.
이 부분을 제거하시든 .ink파일을 삭제하시면 문제는 해결됩니다. ^^