龙空技术网

生物信息就该这么学(1):从Linux开始

基因学苑 153

前言:

眼前看官们对“circosubuntu”大约比较重视,你们都需要知道一些“circosubuntu”的相关知识。那么小编在网摘上收集了一些关于“circosubuntu””的相关知识,希望同学们能喜欢,大家快快来了解一下吧!

我们将推出一个新的专栏:生物信息就该这么学,涵盖生物信息学习的点点滴滴,欢迎关注。

生信平台搭建(一):购买云服务器

前面预告了我们的硬核技能,服务器的搭建。从这次开始我们就一步步开始学习了。掌握生物信息平台搭建这项技能并不会直接让你发文章,但是好处还是有的。至于到底有什么好处,我没法直接告诉你,很多东西是不可名状的。当你把整个过程跟下来以后,你自然会懂的,至于觉得这些东西没用的人,路过即可。正所谓:“夏虫不可语于冰,笃于时也;井蛙不可语于海,拘于虚也;曲士不可语于道,束于教也”。

生信平台搭建(二):远程登录和设置

获取了云服务器的IP地址,账户,密码之后就可以开始进行远程登录了。其实现在云服务器网页版控制台可以登录,但是这里推荐使用本地端工具进行远程登录,有时候告诉你太多东西,反而让你更加困惑。

生信平台搭建(三):配置软件源和使用yum

登录服务器之后就可以进行配置了,首先,第一项工具就是修改软件源。之前centos是采用国外官方源,现在程序已经可以很智能的选择附近的源,这样下载速度会快很多。另外就是添加一下epel源,epel是fedora使用的软件源,为什么要添加这个呢,一些最新的测试内容都会放在这个源里面,例如R软件,因此,这一步是非常必要的。

生信平台搭建(四):利用yum进行基础环境配置

配置完epel源,其实就可以开始进行配置了。由于生物软件开发环境千差万别,因此需要多种依赖,例如gcc,java,zlib,glibc,compat等等,这些我们可以提前配置好。否则在编译软件的时候,经常就会报错,提起XXX can not find,libXXX缺少等。这些都可以利用yum解决。yum最大的好处就是解决了依赖问题。yum会将软件安装到固定位置,因此,只能使用管理员账户进行操作。

生信平台搭建(五):安装perl模块

perl模块也是生物信息分析中经常需要配置的东西,尽管很多人觉得python很流行,但是依然有大量的生物软件依赖于perl模块,如果配置不正确就无法运行,典型的就是circos,里面调用大量perl的模块,缺少任何一个都无法运行。因此配置perl模块是很重要的一项工作。

生信平台搭建(六):python模块安装

与perl模块类似,现在有越来越多的生物软件采用python语言开发,因此,生物信息分析中也经常需要配置python模块。总得来说,python的模块安装更加容易一些,有很多非常好用的python模块管理工具,例如pip,easy_install,conda等。但是因为python2与python3不兼容,这就给python的模块管理以及很多生物软件的安装带来了极大的困扰,很多时候是因为python版本不匹配,造成模块安装失败。

生信平台搭建(七):R语言与Rstudio安装

随着生物数据越来越多,生物统计学的作用越来越明显了。因此,R语言在生物数据分析和挖掘中扮演着越来越重要的作用,越来越多的分析都可以直接使用R软件来完成。虽然R语言可以在windows和MacOS等图形化界面下使用,也很方便,但是使用Linux版本的R,可以充分利用服务器大的资源,并且命令行版本更适合批量化和自动化。

生信平台搭建(八):R包的安装

安装完R和Rstudio之后,接下来很重要的工作就是安装R包以及bioconductor的包,由于Rstudio不能采用root账户登录,因此,需要在Linux的R中进行安装,这样R包会安装在根目录下,这样所有服务器里的用户都可以访问,也就是只需要安装一次,所有用户,均可使用。

生信平台搭建(九):目录设置

到这里,我们已经利用yum完成了基础配置,利用cpanm安装了perl模块,利用pip安装了python模块,并且安装了很多R的扩展包,可以说,已经完成了生物信息分析平台基础设施的建设,地基已经搭建完了,接下来就开始搭建框架了,也就是工作目录的设置。

生信平台搭建(十):生物软件安装

工作目录设置明白之后我们就可以开始安装软件了,并且我们前面已经对系统进行了很多基础配置,例如gcc,java,cmake,zlib,glibc等这些都安装完成,其实现在大量软件都可以直接使用root账户进行编译了。虽然现在有bioconda可以非常方便的安装6000多个软件。但由于bioconda会将软件安装目录搞的很乱,因此,多数情况下我还是喜欢安装。

生信平台搭建(十一):用户管理

服务器与普通PC一个最大的特点就是,PC是个人电脑,而服务器对外服务,因此,服务器支持多账户多任务。也就是同一时间可以多个账户同时登陆,同时使用系统。这就需要严格的用户管理机制。

生信平台搭建(十二):bashrc详解

上次内容我们创建了一些普通账户,接下来的一些操作使用普通账户来进行,root账户比较微信,如果不小心“rm -rf /"那么将损失惨重,这次我们使用普通该账户登录,登录之后,进行个性化的设置。

生信平台搭建(十三):bioconda

bioconda是一个管理生物信息软件的一个工具软件,我经常和别人讲其类似于苹果的App store,可以在里面进行搜索,下载,安装,升级,删除等等操作,目前已经是最好的生物软件管理工具了,尽管前面我提到因为bioconda的目录很乱,我不喜欢用,但还是非常推荐给大家。bioconda最大的一个好处是普通账户也可以安装很多工具,比如之前如果缺少个库,管理员一条命令就完成了,但是普通用户自己编译比登天还难,还得修改bashrc。

生信平台搭建(十四):bioconda虚拟环境

有了无所不能的bioconda之后相当于打开了一个新世界,你可以用conda快速安装上千款生物软件,不过bioconda也有一些缺点,除了安装目录比较混乱之外,由于需要不同的python版本,会导致一些软件相互干扰,无法运行。因此,bioconda提供一种“虚拟环境”的解决方案。虚拟环境提供了一种隔离机制,比虚拟机和docker都更加方便。这样有一个好处是,非常方便复述文献的结果。

生信平台搭建(十五):Aspera

这次内容我们来介绍一款快速下载的工具aspera,Asprea是一款非常神奇的工具,它可以极大的提高数据传输的效率,不过aspera不能使用root账户来使用,因此,我们切换到普通用户来使用。

生信平台搭建(十六):NCBI三大工具的安装与使用

做生物信息怎么能离开ncbi数据库呢,这次我们来介绍一下ncbi数据库的使用,平时使用网页也可以操作NCBI数据库,但是毕竟当数据增多的时候,使用网页还是比较麻烦的,这个时候就可以使用ncbi自带的工具软件,blast+,sratoolkit,edirect。

生信平台搭建(十七):lftp下载基因组数据

下载基因组或者数据库有很多种方法,比如得到数据地址之后,可以使用wget,curl命令进行下载,也可以使用图形化的filezilla,不过当数据比较大的时候,不如直接使用ftp命令直接访问ftp地址进行下载。lftp是一个很好ftp访问工具。

生信平台搭建(十八):docker安装与使用

我们默认使用的是CentOS系统,如果有些软件只支持ubuntu系统,这个改如何解决呢?还有就是很多软件依赖环境会相互干扰,比如需要不同版本依赖?这些情况下可以使用虚拟机,不过传统的虚拟机都过于臃肿,占用过多资源,docker就在这种情况下应运而生。docker属于轻量级的虚拟机。这样就将各个应用程序相互独立,每个应用程序打包成一个docker虚拟镜像。可以说,docker可以解决所有问题,但是docker运行起来比较麻烦。

生信平台搭建(十九):搭建私有在线blast

服务器里已经安装完了blast+,以及下载了NCBI的数据库,其实就可以搭建一个私有的在线blast了,这个工作并不难。我们现在就可以在这个小的云服务器行构建出来,只需要配置要固定的网络程序即可,提供在线blast界面的程序包括viroBlast,SequenceServer以及wwwblast,这里我们来安装以下viroBlast。

生信平台搭建(二十):个性化设置

这是我们本系列内容最后一个篇章,如果能够从前面一直跟到现在,基本上已经完成了生物信息平台框架的工作,基础环境,生物软件,生物数据库,下载测试数……完成这些内容其实就可以开始分析了,后面只不过需要根据具体分析内容在逐步完善即可。

一文完成生物信息服务器环境配置

Linux系统最大的难度就是环境问题,安装软件经常遇到“Error:缺少XXX”文件的报错,这是因为系统配置的原因。所以,配置好Linux系统基础环境之后,后面在安装各种软件就一马平川,丝般顺滑了。本文基于CentOS 7系列系统进行配置,代码已经经过反复测试。一台新安装的服务器,运行如下代码即可快速完成基础环境搭建工作。

一次搞定常用30款生物软件的安装代码

现在很多生物软件都可以通过bioconda来进行管理,非常的方便。不过bioconda会对软件进行一些处理,有些时候还是直接使用源代码编译的软件更加方便,查找起来比较容易,包括目录下软件的相互调用,文档,测试数据,数据库位置的,比较清晰。本文将介绍常用的30款生物软件安装代码,从数据下载,到安装配置,一次搞定。

标签: #circosubuntu #生物信息系统ubuntu