<center>We must know, we will know !</center><br> <center>万物并作，吾以观复</center> - Haonan's blog

下面这个部分，我们将介绍变分图自编码网络，为了让大家更好的理解，我们从自编码网络开始一点点的介绍。这些自编码的网路，其实主体的流程都是比较接近的，大致分为两步，encoding和decoding，也就是编码和解码。我认为，编码的过程就是数据压缩的过程，也就是一个信息提取、精炼的过程。那么，我怎么去判断我提取的这个信息到底准确与否呢，我再去解码，看看能不能尽量的和原先的信息尽量的接近。

那么自编码网路能干嘛呢，我们可以用来做特征提取，信息去噪，数据降维，信息补全，等等吧。对于更高级的编码、解码的网络我们可以用来做图片生成、语言生成（这两个问题，我也不是十分了解，有一些应用，比如从低清晰度的图片生成高清的图片，语言生成大致是解决一些seq2seq的问题，也许比如你跟机器人对话、把中文流畅的翻译成英语等等，如果这部分我说的不对，还请大家批评指正），用图自编码我们可以做链路预测。

今天介绍一篇还未正式发布，公布在bioRxiv上的文章，是一个全新的生物信息学问题，关于冠状病毒的转录组拼接. 我个人而言，非常喜欢这项工作，完全从一个实际的生物学问题出发，然后构建严谨的数学模型，每一步都有数学推导，没有玄学的地方，为了求解模型，利用各种性质进行简化、变形. 最终的结果也非常优秀. 下面与诸君奇文共赏！

这个教程是总结前一段时间自己学习并且动手深度学习的过程. 主要包括pytorch的安装、网络模型的搭建、以及训练，并且涉及将代码放在GPU上运行.

这篇博客介绍MECAT这个软件，是中山大学的肖传乐老师2017年发表在Nature Method上的工作，用于三代Pacbio测序的基因组组装。MECAT的主要创新点在于前面提出了一系列针对Pacbio long read的序列比对方法，所以使得后续的组装非常迅速。

这篇博客向大家介绍三代基因组组装软件Flye，这是Pavel A. Pevzner在2019年发表在nature biotech上的工作. Flye通过构建repeat gragh来表示基因组，同时在解决repeat问题上提出了一个非常好的思路.

我们知道基因组拼接中，一个难点就是在Assemble graph中repeats区域的路径选择问题.当然了，这个问题的解决是非常复杂的.这篇文章其实非常早了，是2004年非常著名的Pavel（这个人全名叫Pavel A. Pevzner，在重新整理这篇文章的时候我发现GR网站上里面名字居然是Paul A. Pevzner，而在Pubmed上是我们熟悉的名字，可能是因为这个人是俄罗斯人，后来自己更换了英文对应的音译）发表在Genome Research上的文章.

为什么分享这篇古老的文章呢，因为这篇文章是19年发表的Flye中repeat graph的思想来源，能够解释Flye里面很多处理方法的原理.简单说一下这篇文章的内容，这篇文章分为两个部分，第一个部分是解决了所谓的repeat representation问题（repeat classification），第二部分，借由上面的思想提出了一个组装基因组的方法FragmentGluer.

今天我们讨论并行算法，首先我们来形象的介绍一下这三个算法

这一节课介绍无约束问题的PVT算法，PVT算法是PVD算法的扩展，或者说是一个框架，可以在其中设计算法某些位置的参数（下面的矩阵 $A_l^i$），然后得到不同的具体的并行算法。

We must know, we will know !
万物并作，吾以观复

自编码网络

文献分享：Jumper Enables Discontinuous Transcript Assembly in Coronaviruses

Pytorch深度学习——网络搭建、模型训练

文献分享：MECAT：fast mapping, error correction, and de novo assembly for single-molecule sequencing reads

文献分享：Assembly of long, error-prone reads using repeat graphs Assembly

文献分享：De Novo Repeat Classification and Fragment Assembly

优化问题的并行算法

7.1.2 同步运算的并行变量转换算法