自编码网络
下面这个部分,我们将介绍变分图自编码网络,为了让大家更好的理解,我们从自编码网络开始一点点的介绍。这些自编码的网路,其实主体的流程都是比较接近的,大致分为两步,encoding和decoding,也就是编码和解码。我认为,编码的过程就是数据压缩的过程,也就是一个信息提取、精炼的过程。那么,我怎么去判断我提取的这个信息到底准确与否呢,我再去解码,看看能不能尽量的和原先的信息尽量的接近。
那么自编码网路能干嘛呢,我们可以用来做特征提取,信息去噪,数据降维,信息补全,等等吧。对于更高级的编码、解码的网络我们可以用来做图片生成、语言生成(这两个问题,我也不是十分了解,有一些应用,比如从低清晰度的图片生成高清的图片,语言生成大致是解决一些seq2seq的问题,也许比如你跟机器人对话、把中文流畅的翻译成英语等等,如果这部分我说的不对,还请大家批评指正),用图自编码我们可以做链路预测。
文献分享:Jumper Enables Discontinuous Transcript Assembly in Coronaviruses
今天介绍一篇还未正式发布,公布在bioRxiv上的文章,是一个全新的生物信息学问题,关于冠状病毒的转录组拼接. 我个人而言,非常喜欢这项工作,完全从一个实际的生物学问题出发,然后构建严谨的数学模型,每一步都有数学推导,没有玄学的地方,为了求解模型,利用各种性质进行简化、变形. 最终的结果也非常优秀. 下面与诸君奇文共赏!
文献分享:MECAT:fast mapping, error correction, and de novo assembly for single-molecule sequencing reads
这篇博客介绍MECAT这个软件,是中山大学的肖传乐老师2017年发表在Nature Method上的工作,用于三代Pacbio测序的基因组组装。MECAT的主要创新点在于前面提出了一系列针对Pacbio long read的序列比对方法,所以使得后续的组装非常迅速。
文献分享:Assembly of long, error-prone reads using repeat graphs Assembly
这篇博客向大家介绍三代基因组组装软件Flye,这是Pavel A. Pevzner在2019年发表在nature biotech上的工作. Flye通过构建repeat gragh来表示基因组,同时在解决repeat问题上提出了一个非常好的思路.
文献分享:De Novo Repeat Classification and Fragment Assembly
我们知道基因组拼接中,一个难点就是在Assemble graph中repeats区域的路径选择问题.当然了,这个问题的解决是非常复杂的.这篇文章其实非常早了,是2004年非常著名的Pavel(这个人全名叫Pavel A. Pevzner,在重新整理这篇文章的时候我发现GR网站上里面名字居然是Paul A. Pevzner,而在Pubmed上是我们熟悉的名字,可能是因为这个人是俄罗斯人,后来自己更换了英文对应的音译)发表在Genome Research上的文章.
为什么分享这篇古老的文章呢,因为这篇文章是19年发表的Flye中repeat graph的思想来源,能够解释Flye里面很多处理方法的原理.简单说一下这篇文章的内容,这篇文章分为两个部分,第一个部分是解决了所谓的repeat representation问题(repeat classification),第二部分,借由上面的思想提出了一个组装基因组的方法FragmentGluer.
7.1.2 同步运算的并行变量转换算法
这一节课介绍无约束问题的PVT算法,PVT算法是PVD算法的扩展,或者说是一个框架,可以在其中设计算法某些位置的参数(下面的矩阵 $A_l^i$),然后得到不同的具体的并行算法。
100 post articles, 13 pages.