如何处理高通量测序数据?求救啊
1、随着第二代DNA测序技术的发展,人们揭示了越来越多不同物种的参考基因组序列和不同生物个体基因组序列。然而,如何存储和管理数量巨大的不同生物个体的基因组数据,已成为生物学家面临的一个重要挑战。 本文提出了一种新颖的压缩工具GRS (Genome ReSequencing),用来储存并分析有参考基因组序列的基因组重测序数据。和以前的方法相比,GRS能够处理没有单核苷酸多态性参考序列和其他变异信息图谱的基因组序列数据,并根据参考基因组序列自动重建个体基因组序列。 通过对第一个韩国人个体基因组序列数据的测试,GRS能够实现159倍左右的压缩效率,从原始2986。8 MB大小压缩至18。8 ...全部
1、随着第二代DNA测序技术的发展,人们揭示了越来越多不同物种的参考基因组序列和不同生物个体基因组序列。然而,如何存储和管理数量巨大的不同生物个体的基因组数据,已成为生物学家面临的一个重要挑战。
本文提出了一种新颖的压缩工具GRS (Genome ReSequencing),用来储存并分析有参考基因组序列的基因组重测序数据。和以前的方法相比,GRS能够处理没有单核苷酸多态性参考序列和其他变异信息图谱的基因组序列数据,并根据参考基因组序列自动重建个体基因组序列。
通过对第一个韩国人个体基因组序列数据的测试,GRS能够实现159倍左右的压缩效率,从原始2986。8 MB大小压缩至18。8 MB。通过对水稻和拟南芥测序数据的测试,水稻基因组数据从原来的361。
0 MB大小压缩至4。4 MB,拟南芥基因组数据从115。1 MB压缩至6。5 KB。该压缩工具可以通过http://gmdd。shgmo。org/Computational-Biology/GRS访问。
2、染色质免疫沉淀后对其进行大规模高通量并行测序(ChIP-Seq)是用于研究蛋白质和基因组DNA相互作用的的重要手段。本文设计了一种可以用来分析来自Illumina双端测序ChIP-Seq数据的新算法,并开发出其对应的分析工具SIPeS(从双端测序数据中鉴定结合位点)。
我们获得了拟南芥AMS转录因子(一个参与拟南芥花粉发育过程的基因)ChIP-Seq实验;SIPeS分析结果与现有的分析方法CisGenome和MACS相比,有更高的结合位点识别分辨率。根据双端测序数据,SIPeS可以准确的计算出有效基因组长度(mappable genome length/effective genome length),并且通过使用动态基线(dynamic baseline)的方法有效地分辨出紧密相邻的结合位点,特别是对于拟南芥等基因密度较大的基因组时非常有效。
该分析工具可以通过http://gmdd。shgmo。org/Computational-Biology/ChIP-Seq/download/SIPeS访问,目前版本为2。0。
3、蛋白质的相互作用参与生物体生命活动的各个方面,虽然目前有超过10个以上的公用拟南芥蛋白质相互作用数据库。
但是,这些数据库存在某些缺陷,包括使用没有统一标准类型的相互作用证据,缺乏统一的蛋白质或基因标识符以及使用没有标准定义的其它信息等。为了有效地整合来自不同相互作用数据库的数据,并最大限度地利用这些数据,本文提出了一个交互式的生物信息学网络工具,ANAP(拟南芥网络分析流水线)。
ANAP是根据拟南芥蛋白质相互作用数据整合及其相互作用网络研究而开发的,它可以方便地进行蛋白质相互作用网络分析。ANAP集成了11个拟南芥蛋白质相互作用数据库,其中共包括201699对唯一的蛋白质相互作用对,15208个标识符(包括11931个TAIR的AGI号),89种相互作用检测方法,73种参与拟南芥蛋白质相互作用的物种,6161篇参考文献。
ANAP可以用来作为构建蛋白质相互作用网络的知识库,根据用户的输入,支持蛋白质直接和间接相互作用分析。它有一个直观的图形界面,便于网络的可视化,并为每对相互作用提供详细的证据。此外,通过连接相应TAIR数据库,ANAP可以很方便在生成的相互作用网络中浏览相关基因或蛋白质的功能注释,并且可以比较方便的连接至相关基因或蛋白质对应的AtGenExpress可视化工具(AVT),拟南芥1001基因组GBrowse(1001基因组),蛋白质知识库(UniProtKB),京都基因与基因组百科全书(KEGG)以及Ensembl基因组浏览器(EnsemblGenomes)去更好的进行相互作用网络分析。
该工具可以通过http://gmdd。shgmo。org/Computational-Biology/ANAP/ANAP_V1。0访问。
4、转基因作物的安全性评价是转基因作物研究到其商业化过程中的关键步骤,其中分子特征是安全评价中最基本和最重要的部分,包括评价外源插入位点,旁侧序列及插入拷贝数等。
相对于常规使用的检测方法,如Southern杂交,聚合酶链式反应,原位杂交,基因组步移等,建立和发展新的高通量转基因作物分子特征分析方法是有益和必要的。这里,我们在双端测序技术基础上开发了一个准确的高通量方法用以评估转基因水稻全基因组水平的分子特征。
对于转基因水稻T1C-19,利用我们建立的方法,可以清楚的发现位于4号和11号染色体上的外源插入位点,该结果同时较好的得到了常规PCR和Sanger测序方法的验证。收起