序列记录
用于序列记录的NCBI数据模型
NCBI代表基于分子生物学中心法则的数据模型中的序列记录。序列,包括基因组DNA,信使RNA和蛋白质产物,用实际的序列字母“实例化”,并且被分配标识符(例如,登录号)以供参考。特征携带关于给定区域的生物学的信息,其具有涉及特定序列的特定间隔的位置。某些特征也可能指向特定变换的产品序列。
基因特征指示可遗传的核酸区域的位置,其赋予可测量的表型。基因组DNA上的mRNA特征代表在转录和剪接后保留的信息的外显子和非翻译区。编码区(CDS)特征具有对翻译的蛋白质的产物参考。
由于信使RNA序列并不总是与基因组区域一起提交,因此CDS特征(其模拟核糖体在转录物分子上的行程)传统上在基因组序列上注释,具有编码外显子区间的位置。
功能在限定符中显示特定的生物注释。例如,基因的名称显示在/gene限定符中。为了方便用户,可以从底层数据动态生成限定符。因此,成熟肽的序列可以从前体蛋白上的mat_peptide特征的位置提取并显示在/肽限定符中,即使未实例化成熟肽。
INSDSeq XML中的序列记录
可以在GenBank或GenPept平面文件的XML版本中检索序列记录。查询:
|
|
返回一组INSDSeq对象:
|
|
INSDSeq XML提供生物特征和限定符(此处以GenPept格式显示):
|
|
在结构化功能表中:
|
|
功能和限定符名称在数据值中指示,而不是XML元素标记,并且需要-if和-equals来选择所需的对象和内容。 xtract -insd参数简化了此过程,如下所示。
生成限定符提取命令
因为从INSDSeq XML获取特定限定符值比以前的情况稍微复杂一些,所以xtract -insd参数可用于生成提取指令。
在单独的命令中运行xtract -insd会打印一个新的xtract语句,然后可以在必要时对其进行复制,编辑并粘贴到其他查询中。在多步骤管道中运行-insd命令可动态执行构造的查询。
提供可选(完整/部分)位置指示,功能键,然后提供一个或多个限定符名称:
|
|
创建一个新的xtract语句,该语句将生成具有完整位置的成熟肽特征的限定符值表。该语句以记录加入和查找指定类型的功能的说明开头:
|
|
然后,每个限定符都会生成附加到不断增长的查询中的自定义提取代码。例如:
|
|
在海洋蜗牛毒肽的查询中加入xtract -insd命令:
|
|
生成一个表格,其中包含登录号,计算肽长度,产品名称和肽序列的列:
|
|
将结果管道化为一系列UNIX命令:
|
|
按产品名称过滤,将结果限制为指定的肽段长度,删除多余的加入,按肽长度对表格进行排序,删除长度列,并对齐列以进行更清晰的打印:
|
|
对于缺少特定限定符的记录:
|
|
短划线作为占位符插入:
|
|