生信人员为什么是全实验室最靓的崽?
生信人员为什么如此高产,经常可以发20分以上的文章,他们生产的数据的过程其实和生产力的三要素不谋而合,生产力包括什么呢?它包括劳动资料,劳动对象,劳动者。
我们一个个来说。
劳动资料,也约摸等于生产工具,他们的生产工具是贵的一皮的高通量测序仪,这也是其高大上的一个原因。目前测序仪只有少数几家能生产,测序仪已经进化到第三代,测序成本虽然大大降低,但是对于一些单细胞的RNA测序做起来,动辄一做几千个细胞,这都是在烧钱那,一般的实验室烧不起,厉害(有钱)的实验室才能做到。
虽然Illumina占据了75%的市场,但华大已经有了自主产权的国产测序仪MGISEQ-T7。
为什么测序仪难做呢?
基因测序仪很复杂,涉及到光机电、生化反应、软件计算等不同领域。除了要生产出高精密的测序仪,还要配备有效的试剂盒,以及成套的解决方案。而且还面临着强大的对手的挑战。只有做的更快、更优、更长甚至更便宜才有获取市场的可能。
劳动对象,也是你要对谁做实验,科研人员可以对细胞的基因组,转录组,蛋白组等进行挖掘分析。什么?你问这些组是什么东西?那么,想了解这些东西的伙伴可以先了解一下生物界的定海神针——中心法则,这个短片通俗易懂地介绍了基因的前世今生,对你理解这个问题会有帮助。
基因的故事
每个人都有一套独一无二的基因,它在产生你的眼睛鼻子耳朵(美貌)前,会经历转录经历翻译一系列的过程,而科学家们将不同层面的大数据捕获收集起来,形成了每个组,也即是基因组,转录组,蛋白组。当然这可比高中学的要高深多了,比如有时实验中出现mRNA升高但蛋白量下降的情况,按理来说蛋白量随mRNA升高而升高,但是却反过来了,这背后的原因就有可能是翻译的效率下降。
为什么说这是大数据呢?比如一个人的基因有31.6亿个DNA碱基对,2万多个基因,而中间产生的数据更加复杂,还不包括表观遗传、非编码区的功能数据等等,加上会更多。所以一般生信人员都深谙热图等统计学的展示手段。因为他们有着Linux、R语言等计算机编程语言,所以这些都是飒飒随(简单)的东西。
红色表示基因表达上调,蓝色表示基因下调。
最后一个是劳动者啦,那就是苦逼的实验狗和秃头的生物程序猿啦。简单的来说,进测序仪之前,是实验人员的工作,拿到测序原数据后,就是生物程序员的活了。如果要做10000+个细胞的单细胞测序,实验人员要不停地重复重复,步骤虽简单,但重复量之多,容易让人睡着。。。从而容易出错。当然你愿意的话也可以用高通量的机器来操作。生信人员要做到不仅是会处理数据(虽然这已经很难了),但是更难地他们还要在一堆数据中找到差异的部分,还要乞求这些数据有生物学上的功能。
写在最后
上面讲的都是战术,利用生信的战略来做组学研究,当然是要多组学的综合研究,才能多重确认结果,提供更加丰富的解释。
生产力要高,三个要素缺一不可。科学技术是先进生产力的集中体现和重要标志,是第一生产力。放在生信上面,简单的来说,就是程序猿处理测序仪产生的各种组数据。
生信员有时候也很嚣张,面对如此,下次见面你就和他说,数据处理好了吗?bug解决了吗?