聚类分析通常是将生态群体中的同种生物通过分子标记的手段从遗传角度为其划分类群,以明确其生物个体之间亲缘关系的分析方式。最常用的分子标记手段也就是SSR(Simple Sequence Repeat,简单序列重复)分子标记技术,又称微卫星标记(Microsatellite Marker),是一种基于 DNA 中短串联重复序列的分子标记技术,广泛应用于遗传学、育种学、生态学等领域。这种基于SSR技术的聚类分析,在生物体样本到最终呈现出的聚类图这一过程中,要经过很多步骤,从生物样本DNA的提取、样品送测全基因组测序、SSR位点分析、SSR引物序列设计、SSR引物合成、聚丙烯酰胺凝胶电泳、电泳条带分析,到0/1矩阵统计、生物信息学软件分析、导入数据在线生成聚类树等,是一个相对需要很高的技术含量的过程。并且此过程中还需要大量的遗传学知识体系。

一、一般配合力(General Combining Ability,GCA)

一般配合力指一个亲本与其他多个遗传背景不同的亲本杂交后, F₁代在某一性状上的平均表现值与该性状的群体总平均值偏差。一般配合力本质上反映的是亲本自身携带的加性遗传效应,也就是由等位基因累加作用产生的可稳定遗传的效应的总和。因为加性效应可通过亲本传递给后代,所以 GCA 高的亲本,往往能稳定提升与其他多数亲本杂交后代的平均表现

二、一般配合力相对效应值

一般配合力相对效应值是在GCA基础上,将其转化为“相对值”后的指标,具体指:
某一亲本的GCA值与群体中所有亲本的平均GCA值或某一指定对照亲本的GCA值的差值,用于直观比较不同亲本的GCA优劣。简单来说,它是 “某亲本GCA相对于群体平均水平的效应偏差”。GCA 的计算需基于 “完全双列杂交”“不完全双列杂交” 等试验设计(即一个亲本与多个其他亲本杂交,获得足够多的 F₁组合)。通过统计模型(如最小二乘法)估算每个亲本的 GCA 值后,再通过与群体平均值对比,得到相对效应值。

例如:假设群体中 3 个亲本 A、B、C 的 GCA 值分别为 2.5、1.0、-0.5(单位为某性状的度量值,如产量 kg / 亩),群体平均 GCA 为(2.5+1.0-0.5)/3 = 1.0,则:

A 的相对效应值 = 2.5 – 1.0 = +1.5(高于平均);

B 的相对效应值 = 1.0 – 1.0 = 0(等于平均);

C 的相对效应值 = -0.5 – 1.0 = -1.5(低于平均)。

通过具体实例不难发现,GCA相对效应值是正数,则说明F₁代在该性状上的平均表现值高于群体总平均值,说明该亲本在这一性状上的影响较优。反之,GCA相对效应值为负数,则影响较差。因此我们在对亲本群体进行GCA评分排序时必须采用倒序排序法,最终才能以高评分来判断优良配合力的亲本。也就是说,在某一性状中,GCA相对效应值最小的亲本排名为1,得分也为1,如果排名为10,那么得分也为20。排名越靠前得分越低,最后综合亲本在所有性状中的GCA名次倒序计分后,对比出得分最高的亲本,则为一般配合力最强的亲本。

通过统计性状数据、计算一般配合力、计算一般配合力相对效应值、一般配合力倒序排名计分等步骤,我们可以确定亲本综合所有性状对后代整体的影响是否产生超亲优势,判断是否为优良亲本。

三、特殊配合力(Specific Combining AbilitySCA

需注意,一般配合力与特殊配合力是相对概念,二者共同构成杂种后代的表现。一般配合力由加性遗传效应主导,可稳定遗传,反映亲本的 “普遍适配性”, 特殊配合力由非加性遗传效应(如显性、上位性)主导,反映某一特定杂交组合(如 A×B)的 F₁表现与亲本一般配合力预期值的偏差,不具有普遍适用性。育种中优先选择 GCA 相对效应值高的亲本,可提升多数杂交组合的基础表现。

四、遗传效应

遗传效应分为加性遗传效应、非加性效应(显性效应、上位性效应)。

1.加性遗传效应是指等位基因对性状的影响可以直接累加,且效应大小仅取决于等位基因的种类和数量,与基因的组合方式无关。这种效应能稳定遗传给后代, 加性遗传效应的核心是等位基因对性状的贡献具有可累加性和可预测性,其效应不依赖于特定的基因组合,因此能稳定传递给后代。加性效应并不否定基因间可能存在的协同作用(如多基因控制同一性状时的共同作用),但强调每个基因的效应可以被单独拆分和累加。

2.显性效应指同一对同源染色体上的等位基因之间的相互作用所产生的效应,即杂合子Aa的表型效应与显性纯合子AA、隐性纯合子aa的平均效应存在偏差。如豌豆的高茎(A)对矮茎(a)为显性,AA 和 Aa 均表现为高茎,aa 表现为矮茎。此时,Aa 的表型效应(高茎)并非 AA 和 aa 效应的平均值(若 AA 株高 1.5m,aa 株高 0.5m,平均值为 1.0m,但 Aa 实际株高 1.5m),而偏差部分(0.5m)即为显性效应。

3.上位性效应指非同源染色体上的非等位基因之间的相互作用,即一个基因的表达会影响另一个或多个基因的表型效应。上位性效应不局限于一对基因,可发生在多对基因之间。上位性效应是杂种优势的主要来源,玉米、水稻、油菜等多数作物的杂种优势主要都由非加性遗传效应决定。

五、遗传差异系数

六、变异系数(Coefficient of VariationCV

变异系数是统计学中用于衡量数据离散程度的相对指标,它通过将数据的标准差与平均值的比值进行标准化,来消除数据量级和单位的影响,从而更客观地比较不同数据集的波动程度。变异系数的本质是相对离散度,计算公式为:

CV =(标准差 / 平均值)× 100%

标准差(Standard Deviation)是衡量数据集中各个数据与平均值之间离散程度的指标,数值越大表示数据越分散,反之则越集中。总体的计算思路分四步:平均值、平均值偏差、方差、标准差。举例:假设一组数据为:2, 4, 6, 8, 10(共 5 个数据,视为总体)

1.计算平均值:μ =(2+4+6+8+10)/5 = 30/5 = 6

2.计算偏差:2-6=-4,4-6=-2,6-6=0,8-6=2,10-6=4

偏差平方:(-4)²=16,(-2)²=4,0²=0,2²=4,4²=16

3.方差:σ² = (16+4+0+4+16)/5 = 40/5 = 8

4.总体标准差:σ = √8 ≈ 2.828

Excel/Google Sheets中输入公式 =STDEVP(数据范围)则可直接计算出标准差。需要注意的是,当选取的数据是总体中的部分数据时,计算方差时要采用数据个数减1的数值作为分母,以实现自由度校正,使标准差更准确一些。

作者 叶归风

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注