零基础入门转录组上游分析——第二章(数据的准备)

张开发
2026/4/10 8:59:51 15 分钟阅读

分享文章

零基础入门转录组上游分析——第二章(数据的准备)
零基础入门转录组上游分析——第二章数据的准备目录零基础入门转录组上游分析——第二章数据的准备1. 准备原始数据2. 准备参考基因组3. 准备参考基因组注释文件我这里使用的虚拟机是vmwarewokstation版本16.0.0 linux系统是ubantu64位版本20.04.3 本文选用的是模式生物——C57BL/6J小鼠小鼠的基因组研究已经比较透彻因此本文的转录组分析又被称为有参转录组 转录组数据主要由三个成分组成原始数据参考基因组以及参考基因组的注释信息1. 准备原始数据原始数据一般是送样给公司检测后得到XXX.fq.gz文件如图所示Windows界面并且我这里是双端测序在.fq.gz前面还会有1/2的数字标识原始数据的命名方式根公司有关不同的公司命名不同后期可以自己修改命名。如下图是修改命名后的文件Windows界面红线以上是药物处理组6个样本红线以下是对照组6个样本现在我们已经有了修改命名后的原始数据需要将这些文件复制到linux系统中供后续分析使用接下来打开linux操作系统我们可以看到桌面下什么文件夹都没有。打开终端通过cd Desktop/指令切换到桌面目录下如下图所示输入指令mkdir 00_raw_data和mkdir 01_ref创建两个文件夹1raw_data文件夹用来存放原始数据2ref文件夹用来存放参考基因组。关闭终端这时我们就能看到桌面下多了两个新的文件夹。之后双击中打开00_raw_data文件夹直接将windows系统里的原始文件拖拽到00_raw_data文件夹中这样原始数据就准备好了2. 准备参考基因组这里我们选用Ensembl数据库Ensembl数据库链接地址ftp://ftp.ensembl.org/pub打开网址后我们可以看到一大堆英文命名的文件夹对应每个物种的英文名我们用的是C57BL/6J对应的英文名是Mus musculus因此往下找到名为**mus_musculus/**的文件夹。点开文件夹后接下来我们打开dna文件夹这个文件夹里会存放C57BL/6J小鼠每条染色体参考基因组以及所有染色体汇总的参考基因组文件。这里我们选择所有染色体汇总的参考基因组如图所示文件下载方式1鼠标左键点击一下这个蓝色的链接就能获取下载这种下载方式会下载到windows本地存储中。2另一种下载方式是右键点击蓝色链接后有一个复制链接地址复制到转到linux终端中输入wget 复制的链接可直接下载到Linux中。如果是第一种下载方式跟准备原始数据一样直接拖拽到Linux桌面下创建的01_ref文件夹中即可。如果选择第二种下载方式最好先切换到01_ref文件夹路径下再输入wget指令。如图所示3. 准备参考基因组注释文件这里我们还是选用Ensembl数据库打开网址后我们先回退到上级目录在上级目录中我们重点关注两个文件夹一个是fasta文件夹这个就是刚才下载参考基因组的文件夹另外一个就是gtf文件夹这里存放着物种参考基因组注释文件我们点击图中gtf文件夹。点开后摁ctrlf搜索mus_musculus/即可找到C57小鼠的参考基因组注释文件夹点开文件夹后我们可以看到有5个文件第四个文件就是我们所需要的参考基因组注释文件。文件下载方式依然是两种1直接下载到本地下载到本地的也需要拖拽到linux中01_ref文件夹下。2在linux系统中切换到01_ref目录下用wget指令下载。结语以上就是零基础入门转录组上游分析——第二章数据的准备的所有过程如果有什么需要补充或不懂的地方大家可以私聊我或者在下方评论。如果觉得本教程对你有所帮助希望广大学习者能够点赞收藏加关注关于我们我们的团队是领航生信如果大家想要系统学习常规SCI生信套路和流程或者了解更多生信相关知识可以在下方公众号链接找到我们~~~祝大家能够开心学习轻松学习在学习的路上少一些坎坷~~~目录部分跳转链接零基础入门生信转录组数据分析——导读

更多文章