metagenome assembly

Short read of good quality are subjected to assembly to obtain longer metagenome sequences. There are two steps involved in  assembly (i) contiging and (ii) scafolding.

  • contigs – contiguous stretch of sequences assembled from overlapping reads, containing paired-end reads
  • scaftig – assembled contigs using paired-end information, consisting of contigs and gaps of known length

Assembly statistics

  • N50 – the length of the shortest contig such that the sum of contigs of equal length or longer is at least 50% of the total length of all contigs. At least half the nucleotides in this assembly belong to contigs of size N50 length or longer. The higher N50, the more efficient the metagenome assembly
  • median –  a middle length in increasing length order of contigs
  • mean – a mathematical average of all contig lengths

EMBL IT 인프라

EMBL 하이델베르크는 연구자들이 자유롭게 이용할 수 있는 High Performance Computing (HPC) server를 제공하고 있는데 metagenome/transcriptome analysis pipeline과 metabolic modelling tools을 개발, 설치 및 이용 목적으로 현재 이용 가능한  computing resources를 정리해 보았다.

EMBL HPC Cluster

총 3000 CPU와 27 TB 메모리로 구성되어 있는 클러스터. 총 24개의 IBM BladeCenter로 구성되어 있으며, 각각은 336개의 blade servers, 11개의 Dell R910 servers, 그리고 2개의 Dell R710 서버로 이루어져 있고, 모든 서버는 RedHat 기반의 CentOS로 운영되고 있다. EMBL high performance storage와 연결되어 있으며 IBM platform의 LSF central queuing system을 통해 접근이 가능하다.

Large Memory and GPU system

대용량 메모리를 필요로 하는 application의 경우 8개의 Dell R910 서버로 구성된 bigmem을 사용할 수 있는데, 이 시스템은 1TB RAM과 40개의 Intel Xeon CPU로 이루어져 있다. GPU processing을 목적으로 12개의 Intel Xeon CPUs와 3개의 Nvidia Kepler K20m GPUs를 갖춘 독립 서버(gpu000)가 존재하는데 EMBL user account로 submaster를 통해 서버에 접속 할 수 있다.

Virtual Servers

Custom web applications 이나 specialized databases 사용을 목적으로 하는 그룹이나 프로젝트는 소프트웨어를 테스트하고 다음 테스트를 위해 서버를 쉽게 reset 할 수 있는 중소형 규모의 서버를 필요로 하는 경우가 많은데 이러한 목적에 부합하기 위해서 EMBL은 VMware ESXi cluster를 운영 중이다. 다양한 Linux distro나 windows가 virtual instance로 설치가 가능하여 “business critical” types of service를 제공하는데 이러한 virtual server의 장점은 새로운 서버 지원이 매우 쉽고 빠르다는 점, snapshot technology를 통해 이전 상태의 저장과 복원이 가능하다는 점, CPUs, memory, disk, network resources를 유연하게 virtual server로 할당이 가능하다는 점들이다.  추가적으로 virtual server는 server 이상이나 점검이 필요한 경우 클러스터 내의 다른 host로 이동이 가능해서 physical hardware를 아주 효율적으로 사용하여 비용 절감의 효과가 크다고 할 수 있다. 현재 ESXi 인프라는 80 CPUs와 1 TB RAM으로 이루어진 4개의 server로 구성되어 있고 NetAPP NFS filter가 data storage back-end로 사용되고 있다.

운영체제

 

linuxApple-OS-X

 

지난 달 직장을 옮기면서 가장 먼저 했던 일은 늘 그렇듯 새 컴퓨터를 주문하는 것이었다. 3년 전 우분투를 접하게 된 이후 만족하며 사용하고 있었지만 이곳저곳 깔려있는 흰색 알루미늄 바디의 맥북프로를 보고 이제 정말 맥으로 옮겨타야 하는 시기인가에 다시 한 번 고민하게 되었다. 하지만 결론은 역시 리눅스였고, 왜 다시 리눅스였는지에 대한 지극히 주관적인 이유를 나름 정리해보았다.

 

첫째, 익숙함.

달리 표현하자면 게으름이라고도 할 수 있겠다. 지난 달 ipad를 잠깐 동안 사용할 기회가 있었는데 완전 지옥이었다. 기본적인 쇼컷들도 모두 달라서 웹서핑 조차 헤메기를 한참. 단축키를 써서 작업을 하게 되는 경우가 많은데 작업환경이 바뀌고 새로 배우면서 익숙해 지는데 시간적으로 너무 큰 손실이라는 생각이 들었다. 리눅스에 눌러 앉은 가장 중요한 이유다.

 

둘째, 비용.

내가 지불하는 것은 아니지만 비용 문제를 생각하지 않을 수 없었다. 맥 제품을 사용하기 시작하면 스마트폰을 시작해 집에 있는 컴퓨터까지 모두 교체를 고려해야 할 순간이 올 수 있기 때문이다. 기본적으로 비슷한 성능의 하드웨어를 두배 가까이 지불하고 사는 것을 용납할 수가 없었다. 다양한 소프트웨어도 포함되어 있다지만 그만한 가격 가치가 있는지 내 관점에서는 이해가 되지 않았다. 맥북 프로 한대 가격으로 지금 내 오피스에는 Asus zenbook 과 크리스마스 특별 가격에 산 dell workstation이 자리 잡고 있다.

 

셋째, 자유로움.

사실 나는 컴퓨터 전공자도 아니고 필요에 의해 프로그래밍을 시작한 케이스인데 완성된 제품을 프로토콜 대로 따라하기 보다는 터미널에서 커맨드라도 한번 더 쳐보고 하는 것들이 어느새 큰 재미로 다가와 있었다. 그리고 이런 경험들이 내가 프로그램을 만들 때 많은 영감도 주고 즐기면서 배울 수 있는 환경을 제공해 주지 않나 싶다.

 

언젠가 또 다시 맥의 유혹이 다가 올지 모르지만 현재까지 내가 리눅스를 아끼는 이유는 이걸로 충분한 거 같다. 최근에 출시되는 우분투 기반의 리눅스 디스트로들은 누구나 사용할 수 있는 유저 인터페이스와 안정성, 그리고 아름다움(?)을 제공하고 있기 때문에 집에서 썩고 있는 낡은 컴퓨터 또는 노트북이 있다면 한 번쯤 설치하고 경험해 보기를 강력 추천하는 바이다. 이 세상에 버릴 컴퓨터는 없다는 것을 느끼게 될 것이다.

우분투 홈페이지: http://www.ubuntu.com/