用MEGA构建进化树，不会还有人不会吧！（二）

云生信学生物信息学 05-01 112

前言：

现在大家对“贝叶斯算法原理创建树”都比较注重，我们都想要学习一些“贝叶斯算法原理创建树”的相关内容。那么小编也在网摘上搜集了一些对于“贝叶斯算法原理创建树””的相关知识，希望大家能喜欢，大家一起来学习一下吧！

尔云间一个专门做科研的团队

原创小果生信果

欢迎点赞+收藏+关注[给你小心心]

上次小果带大家在数据库下载了fasta序列并将其导入MEGA中进行序列比对，结果输出后保存了mas文件，本期我们接上期继续：

筛选模型

双击保存的mas文件，点击Data➡Phylogenetic Analysi

回到主界面➡点击MODELS➡Find Best DNA/Protein Models（ML）…

这一步是为了寻找用来构建进化树最合适的模型，默认参数即可。

结束后会弹出一个界面，在BIC这一列中给出了模型得分，越靠前的越好，第一个是K2+G，但是软件不支持组合模型，所以选择排名最靠前的单个模型即可，这里小果选择了K2.

构建进化树

在主界面点击PHYLOGENY（树状图标）➡选第二个NJ邻接法建树

*最大似然法 (Maximum Likelihood) 和邻接法 (Neighbor-Joining) 是两种常见的建树方法两种方法之间的主要区别在于，最大似然法需要计算所有可能的树形状，因此对于大型数据集来说计算量很大，并且可能会受到计算资源的限制。而邻接法则是一种启发式方法，能够处理更大的数据集，但它没有考虑所有可能的树形状，可能会得到不同的树形状，取决于其启发式算法的选择和特定数据集的属性。总的来说，最大似然法对于小型和中型数据集是一个更准确的方法，而邻接法则则适用于更大的数据集。当然，你可以根据自己的偏好和分析目的选择建树方法。

在Test of Phylogeny中选择bootstrap（bootstrap是一种常用的重复抽样方法，用于评估构建的进化树的可靠性和统计显著性）我们在步长检验次数选择1000次（默认500）。

Model选择筛选出的模型即可，这里用到刚刚选择的K2

在Gaps/MissingData Treatment处选择Partial deletion，Site CoverageCutoff选择50。

*在分子序列中存在一些缺失的数据点或空缺的位置。这种缺失数据可能会对系统发育分析结果产生影响，因此需要对缺失数据进行处理。Partial deletion是其中一种方法，它将含有缺失数据的序列删除，但保留在其它序列中完整的数据点。Site Coverage Cutoff是指在Partial deletion方法中，允许保留的数据点的最小比例或阈值。例如，选择50表示只有在某个数据点上的数据在至少50%的样本中都有观测值时，才会将该数据点纳入分析。这个阈值的选择会影响结果的可靠性和准确性，较低的阈值可能会导致较多的噪音和偏差，较高的阈值可能会削减掉太多的数据点，可能会影响结果的精度和有效性。

点击OK，稍等片刻树就画好了。

MEGA可以对进化树进行可视化和编辑。可以添加标签、改变颜色和样式等。最终的进化树可以导出为多种格式，如PDF、PNG、SVG等。

以上就是基于MEGA软件构建进化树的详细步骤，怎么样，是不是很简单呢？

后记：

如果有绘制进化树的需求，小果强烈安利本公司的云生信平台，打开链接，在云生信·迎新春一栏找到“进化树”，动动手指直接上传自己的数据就出图啦！下图是用平台示例数据做的图哟~

怎么样是不是很简单呢！快来注册账号吧~

生信人R语言学习必备

立刻拥有一个Rstudio账号

开启升级模式吧

（56线程，256G内存，个人存储1T）

往期代码：

【1】lncRNA的拷贝数变异下游相关分析

【2】R可视化：ggstatsplot包—科研界的美图秀秀

【3】随机森林算法用于分类预测和筛选诊断标志物

【4】基于本地Java版GSEA的输出结果整合多个通路到一张图

【5】基于岭回归模型和基因表达矩阵估算样本对药物反应的敏感性

【6】基于R包NMF对样本进行分型分析

【7】DALEX包用于探索、解释和评估模型；分析不同特征变量对响应变量的影响

【8】根据肿瘤突变负荷TMB进行KM生存分析寻找最佳的cutoff

【9】基于单样本富集分析算法评估组织中的免疫细胞浸润水平

【10】代码分享│什么？你还在用散点图来可视化数据之间的相关性

【11】代码分享│诊断列线图、校准曲线、决策曲线和临床影响曲线的构建

【12】代码分享│你了解基因的动态变化模式吗

【13】代码分享│生物信息分析之SCI热门图表-复杂热图

【14】代码分享│生物信息分析之SCI热门图表-火山图

【15】代码分享│生物信息分析之SCI热门图表-箱型图和小提琴图

【16】代码分享│深度学习-人工神经网络（ANN）的构建

【17】代码分享│R可视化：高分文章绘图之基于RCircos包的多类型圈图绘制

【18】代码分享│R可视化：基因与功能之间的关系--GO功能富集网络图绘制

【19】代码分享│生物信息分析之SCI热门图表—KM曲线和tROC曲线

【20】代码分享│R可视化：肿瘤预后模型之Cox回归分析后用R语言绘制森林图

【21】代码分享│生物信息分析之SCI热门图表—相关性热图和散点图

【22】代码分享│生信分析之R语言分析相关性及可视化的N种风格

【23】代码分享│TCGA数据获取有困难，不会预处理，学习起来

【24】代码分享│机器学习-支持向量机递归特征消除（SVM-RFE）的构建

【25】代码分享│R可视化：对两个矩阵进行相关性可视化分析

【26】GEO数据库多数据集差异分析整合利器RRA，再也不用纠结去除批次效应

【27】你与生信大佬的距离，只差2分钟搞定预后模型构建和性能评估

【28】9+SCI纯生信，模型构建中的“流量明星”，你不得不知的LASSO

【29】手把手教你画美观大气的lasso回归模型图，为你的SCI增砖添瓦

【30】R可视化：clusterProfiler包做组间比较GO富集图

【31】代码分享|R可视化：复杂热图绘制技巧之热图中添加柱状图

【32】代码分享——基于基因突变信息分析肿瘤突变负荷

【33】代码分享│富集不到想要的通路？别放弃呀，试试GSEA

【34】代码分享│还在用PCA做降维聚类吗？最强降维模型tSNE--你值得拥有

【35】代码分享│GSVA：原来功能通路也能做差异分析！

【36】代码分享│Slingshot：你不知道的单细胞拟时序分析还有它

【37】基于基因功能注释信息挖掘关键作用基因

【38】基于癌症分类预测的标志物特征提取的SVM-RFE分析代码

【39】依据表型数据基于无监督聚类算法对研究群体进行分层聚类分析

【40】基于稳健排序整合算法对多数据集进行整合及可视化

【41】基于基因表达谱估算样本免疫基质评分和肿瘤纯度

【42】自动化绘制LASSO算法回归模型图

【43】用于临床诊断和临床决策影响的DCA分析

【44】基于样本预后生存信息和临床因素用于评价不同模型的一致性指数软件

【45】用于探索、解释和评估模型的DALEX残差分析软件

【46】基于细菌群落功能丰度结果进行差异功能分析及可视化

【47】基于基因差异分析结果绘制其在染色体上的分布

【48】利用逐步回归法筛选特征基因构建Cox风险模型分析

【49】基于Immune Subtype Classifier进行肿瘤免疫亚型分类

【50】不同物种之间的同源基因名称转换分析

【51】基于逐步多因素cox回归筛选预后标记基因并构建风险评分模型

【52】基于表达信息挖掘与关注基因密切相关的基因

【53】基因组学基因名称修正分析

【54】基于Spearman算法构建关联网络

【55】基于线性建模方法对代谢组和转录组数据整合分析

【56】基于lasso回归模型方法筛选特征基因

【57】基于线性建模方法对代谢组和转录组数据整合分析

【58】基于参数型经验贝叶斯算法和支持向量机（SVM）筛选疾病亚型特征基因

【59】基于LDA(线性判别分析)算法的微生物biomarker的筛选

【60】基于R包xCell计算64种免疫细胞相对含量及下游可视化

【61】基于甲基化数据评估肿瘤纯度及下游可视化

【62】基于DiffCorr包识别不同表型下的差异共表达关系对

【63】基于逆累计分布函数识别显著偏差通路

【64】基于差异基因对通路的影响挖掘关键通路

【65】基于高通量数据的样本相似性分析

需要以上代码私信小果哦！

“生信果”，生信入门、R语言、生信图解读与绘制、软件操作、代码复现、生信硬核知识技能、服务器、生物信息学的教程，以及基于R的分析和可视化等原创内容，一起见证小白和大佬的成长。

本文地址：http://www.longkongtuishu.com/ca154BA1sDFEBDF0.html

标签： #贝叶斯算法原理创建树 #生物信息系统进化树构建

用MEGA构建进化树，不会还有人不会吧！（二）

一篇文章教你搞定传说中的“随机森林”

用MEGA构建进化树，不会还有人不会吧！

用MEGA构建进化树，不会还有人不会吧！（二）