IPA

2019-09-09

2019-04-19

附录

设置联系地址和脚本名称

EDirect自动从系统获取用户的电子邮件地址，以便有人在失控脚本导致Entrez服务器出现问题时通知，但是如果需要其他联系地址（例如，系统管理员或软件开发人员）可以在管道或脚本的开头显式设置：

1	econtact -email author_email_address -tool name_of_script

这样，如果脚本中的无限循环意外滥用NCBI资源，NCBI就会有关于联系人的信息。（为方便起见，还可以在所有电子实用程序调用操作中设置首选电子邮件地址和软件工具名称。）

命令行参数

下面列出了EDirect功能的参数：

使用esearch在索引条款上开始新的Entrez搜索：

查询规范

1 2	-db Database name -query Query string

文件订单

1	-sort Result presentation order

日期

-days        Number of days in the past
-datetype    Date field abbreviation
-mindate     Start of date range
-maxdate     End of date range

按现场限制

1 2	-field Query words individually in field -pairs Query overlapping word pairs

拼写检查

1	-spell Correct misspellings in query

杂项参数

1	-label Alias for query step

elink函数查找相关文章或相关记录：

目标数据库

1
2
3

related    Neighbors in same database
-target     Links in different database
-name       Link name (e.g., pubmed_protein_refseq)

直接记录选择

1 2	-db Database name -id Unique identifier(s)

高级控制

1
2
3

-cmd        Command type (returns eLinkResult XML)
-mode       "ref" uses LinkOut provider's web site
-holding    Name of LinkOut provider

批量处理

1	-batch Bypass Entrez history mechanism

杂项参数

1	-label Alias for query step

使用efilter通过索引术语限制搜索或链接结果：

查询规范

1	-query Query string

文件订单

1	-sort Result presentation order

日期

-days        Number of days in the past
-datetype    Date field abbreviation
-mindate     Start of date range
-maxdate     End of date range

按现场限制

1 2	-field Query words individually in field -pairs Query overlapping word pairs

拼写检查

1	-spell Correct misspellings in query

出版过滤器

-pub         abstract, clinical, english, free, historical,
             journal, medline, preprint, published, review,
             structured
-journal     pnas, "j bacteriol", ...
-released    last_week, last_month, last_year, prev_years

序列过滤器

-country     usa:minnesota, united_kingdom, "pacific ocean", ...
-feature     gene, mrna, cds, mat_peptide, ...
-location    mitochondrion, chloroplast, plasmid, plastid
-molecule    genomic, mrna, trna, rrna, ncrna
-organism    animals, archaea, bacteria, eukaryotes, fungi,
             human, insects, mammals, plants, prokaryotes,
             protists, rodents, viruses
-source      genbank, insd, pdb, pir, refseq, swissprot, tpa

基因过滤器

1 2	-status alive -type coding, pseudo

SNP过滤器

1 2	-class acceptor, donor, frameshift, indel, intron, missense, nonsense, synonymous

杂项参数

1	-label Alias for query step

记录检索功能是efetch：

格式选择

1
2
3

-format        Format of record or report
-mode          text, xml, asn.1, json
-style         withparts, conwithfeat

直接记录选择

1 2	-db Database name -id Unique identifier or accession number

序列范围

1
2
3

-seq_start     First sequence position to retrieve
-seq_stop      Last sequence position to retrieve
-strand        Strand of DNA to retrieve

基因范围

1 2	-chr_start Sequence range from 0-based coordinates -chr_stop in gene docsum GenomicInfoType object

序列标志

1
2
3

-complexity    0 = default, 1 = bioseq, 3 = nuc-prot set
-extend        Extend sequence retrieval in both directions
-extrafeat     Bit flag specifying extra features

杂

1 2	-raw Skip database-specific XML modifications -json Convert adjusted XML output to JSON

xtract函数用于处理XML数据：

处理标志

-strict          Remove HTML and MathML tags
-mixed           Allow mixed content XML
-accent          Excise Unicode accents and diacritical marks
-ascii           Unicode to numeric HTML character entities
-compress        Compress runs of spaces
-stops           Retain stop words in selected phrases

数据源

1 2	-input Read XML from file instead of stdin -transform File of substitutions for -translate

探索参数层次结构

-pattern         Name of record within set
-group             Use of different argument
-block               names allows command-line
-subset                control of nested looping

勘探建筑

Object           DateRevised
Parent/Child     Book/AuthorList
Heterogeneous    "PubmedArticleSet/*"
Exhaustive       "History/**"
Nested           "*/Taxon"
Recursive        "**/Gene-commentary"

条件执行

-if              Element [@attribute] required
-unless          Skip if element matches
-and             All tests must pass
-or              Any passing test suffices
-else            Execute if conditional test failed
-position        [first|last|outer|inner|even|odd|all]
-select          Select record subset by conditions

字符串约束

-equals          String must match exactly
-contains        Substring must be present
-is-within       String must be present
-starts-with     Substring must be at beginning
-ends-with       Substring must be at end
-is-not          String must not match

数字约束

-gt              Greater than
-ge              Greater than or equal to
-lt              Less than
-le              Less than or equal to
-eq              Equal to
-ne              Not equal to

格式定制

-ret             Override line break between patterns
-tab             Replace tab character between fields
-sep             Separator between group members
-pfx             Prefix to print before group
-sfx             Suffix to print after group
-plg             Prologue to print once before elements
-elg             Epilogue to print once after elements
-rst             Reset -sep through -elg
-clr             Clear queued tab separator
-pfc             Preface combines -clr and -pfx
-deq             Delete and replace queued tab separator
-wrp             Wrap elements in XML object
-def             Default placeholder for missing fields
-lbl             Insert arbitrary text

元素选择

-element         Print all items that match tag name
-first           Only print value of first item
-last            Only print value of last item
-NAME            Record value in named variable

-element Constructs

Tag              Caption
Group            Initials,LastName
Parent/Child     MedlineCitation/PMID
Recursive        "**/Gene-commentary_accession"
Unrestricted     "PubDate/*"
Attribute        DescriptorName@MajorTopicYN
Range            MedlineDate[1:4]
Substring        "Title[phospholipase | rattlesnake]"
Object Count     "#Author"
Item Length      "%Title"
Element Depth    "^PMID"
Variable         "&NAME"

特殊元素操作

Parent Index     "+"
Object Name      "?"
XML Subtree      "*"
Children         "$"
Attributes       "@"

数字处理

-num             Count
-len             Length
-sum             Sum
-min             Minimum
-max             Maximum
-inc             Increment
-dec             Decrement
-sub             Difference
-avg             Average
-dev             Deviation
-med             Median
-bin             Binary
-bit             Bit Count

字符串处理

-encode          URL-encode <, >, &, ", and ' characters
-upper           Convert text to upper-case
-lower           Convert text to lower-case
-title           Capitalize initial letters of words
-year            Extract first 4-digit year from string
-translate       Substitute values with -transform table

文字处理

-terms           Partition text at spaces
-words           Split at punctuation marks
-pairs           Adjacent informative words
-reverse         Reverse words in string
-letters         Separate individual letters
-clauses         Break at phrase separators
-indices         Index normalized words

序列处理

1 2	-revcomp Reverse-complement nucleotide sequence -nucleic Subrange determines forward or revcomp

序列坐标

1
2
3

-0-based         Zero-Based
-1-based         One-Based
-ucsc-based      Half-Open

命令生成器

1	-insd Generate INSDSeq extraction commands

-insd参数顺序

Descriptors      INSDSeq_sequence INSDSeq_definition INSDSeq_division
Flags            [complete|partial]
Feature(s)       CDS,mRNA
Qualifiers       INSDFeature_key "#INSDInterval" gene product

杂

-head            Print before everything else
-tail            Print after everything else
-hd              Print before each record
-tl              Print after each record

重新格式化

1	-format [copy\|compact\|flush\|indent\|expand]

修改

1
2
3

-filter          Object
                       [retain|remove|encode|decode|shrink|expand|accent]
                         [content|cdata|comment|object|attributes|container]

验证

1	-verify Report XML data integrity problems

摘要

1 2	-outline Display outline of XML structure -synopsis Display count of unique XML paths

文档

1	-examples Examples of EDirect and xtract usage

einfo函数返回有关Entrez索引字段的信息：

数据库选择

1 2	-db Database name -dbs Get all database names

数据摘要

1 2	-fields Print field names -links Print link names

EDirect提供了几个附加功能：

epost

-db        Database name
-id        Unique identifier(s) or accession number(s)
-format    uid or acc
-input     Read from file instead of stdin
-label     Alias for query step

eproxy

1 2	-alias File of aliases -pipe Read aliases from stdin

econtact

1 2	-email Contact person's address -tool Name of script or program

nquire

1 2	-get Uses HTTP GET instead of POST -url Base URL for external search

此外，-email和-tool在所有E-utilities调用函数中都可用于覆盖默认值，-http get将强制使用GET而不是POST，-alias将指定快捷键关键字和查询字符串或URL的文件sections和-help将打印每个函数的参数列表。

对于调试，-silent将禁止链接失败重试消息，-verbose将在每一步显示字段值，-debug将打印内部URL查询和每个步骤的XML结果，-base将指定特定的服务器质量保证测试。

EFetch格式

每个数据库的EFetch -format和-mode值如下所示：

ESearch排序

下面列出了几个数据库的ESearch -sort值：

ELink命令

ELink -cmd选项生成结果为LinkSet XML：

-cmd	Result
neighbor	Neighbors or links
neighbor_score	Neighbors with computed similarity scores
acheck	All links available
ncheck	Existence of neighbors
lcheck	Existence of external links (LinkOuts)
llinks	Non-library LinkOut providers
llinkslib	All LinkOut providers
prlinks	Primary LinkOut provider,or URL for single UID with -mode ref

EInfo数据

EInfo字段数据包含多个术语列表索引属性的状态标志：

<Field>
  <Name>ALL</Name>
  <FullName>All Fields</FullName>
  <Description>All terms from all searchable fields</Description>
  <TermCount>138982028</TermCount>
  <IsDate>N</IsDate>
  <IsNumerical>N</IsNumerical>
  <SingleToken>N</SingleToken>
  <Hierarchy>N</Hierarchy>
  <IsHidden>N</IsHidden>
  <IsTruncatable>Y</IsTruncatable>
  <IsRangable>N</IsRangable>
</Field>

UNIX实用程序

下面介绍了几个有用的UNIX文本处理过滤器类，带有选定的参数：

按内容处理：

sort	Sorts lines of text
-f	Ignore case
-n	Numeric comparison
-r	Reverse result order

-k  |  Field key (start,stop or first)
-u  |  Unique lines with identical keys

-b  |  Ignore leading blanks
-s  |  Stable sort
-t  |  Specify field separator

uniq | Removes repeated lines

-c  |  Count occurrences
-i  |  Ignore case

-f  |  Ignore first n fields
-s  |  Ignore first n characters

-d  |  Only output repeated lines
-u  |  Only output non-repeated lines

grep | Matches patterns using regular expressions

-i  |  Ignore case
-v  |  Invert search
-w  |  Search expression as a word
-x  |  Search expression as whole line

-e  |  Specify individual pattern

-c  |  Only count number of matches
-n  |  Print line numbers

常用表达：

Characters
  .     Any single character (except newline)
  \w    Alphabetic [A-Za-z], numeric [0-9], or underscore (_)
  \s    Whitespace (space or tab)
  \     Escapes special characters
  []    Matches any enclosed characters
Positions
  ^     Beginning of line
  $     End of line
  \b    Word boundary
Repeat Matches
  ?     0 or 1
  *     0 or more
  +     1 or more
  {n}   Exactly n

修改内容：

sed     Replaces text strings
  -e    Specify individual expression
tr      Translates characters
  -d    Delete character
rev     Reverses characters on line

格式内容：

列按内容宽度对齐列

1 2	-s Specify field separator -t Create table

expand将列对齐到指定位置

1	-t Tab positions

fold以特定宽度包裹线条

1	-w Line width

按位置筛选：

cut删除部分线条

-c    Characters to keep
-f    Fields to keep
-d    Specify field separator
-s    Suppress lines with no delimiters

head打印第一行

1	-n Number of lines

tail打印最后一行

1	-n Number of lines

杂：

wc计算单词，行或字符

1
2
3

-c    Characters
-l    Lines
-w    Words

xargs构造参数

1	-n Number of words per batch

文件压缩：

tar存档文件

1
2
3

-c    Create archive
-f    Name of output file
-z    Compress archive with gzip

gzip压缩文件

1 2	-k Keep original file -9 Best compression

解压缩.zip存档

1	-p Pipe to stdout

gzcat解压缩.gz归档和管道到stdout
目录和文件导航：

cd更改目录

/     Root
~     Home
.     Current
..    Parent
-     Previous

ls列出文件名

-1    One entry per line
-a    Show files beginning with dot (.)
-l    List in long format
-R    Recursively explore subdirectories
-S    Sort files by size
-t    Sort by most recently modified

pwd打印工作目录路径
通过键入“man”后跟命令名称，可以获得包含详细说明和示例的其他文档。

终端键盘快捷键

可以在终端会话中使用控制和转义序列来浏览命令历史记录并移动光标以编辑当前输入的命令：

命令历史：

Ctrl-n 下一个命令
Ctrl-p 上一个命令
向前移动光标：

Ctrl-e 到行尾
Ctrl-f 由一个字符组成
Esc-f 一个论点
向后移动光标：

Ctrl-a 到行首
Ctrl-b 一个字符
Esc-b 一个论点
删除：

Esc-Del以前的论点上一个角色
Ctrl-d 下一个字符
Ctrl-k 到行尾
Ctrl-u 整行
Ctrl-w 上一个单词
Esc-Del 以前的论点
Esc-d 下一个参数
自动完成：

Tab 选项卡完成目录或文件名
程序控制：

Ctrl-c 退出正在运行的程序
^x^y 运行最后一个命令将x替换为y
（注意，通过按住Control，按下另一个键并释放Control来键入控制序列，同时通过按Escape然后按另一个键来键入Escape序列。）

展开全文 >>

Entrez Direct--XML Processing

2019-04-18

XML处理

除了-first和-last命令之外，xtract还有其他元素变体，它们返回所选数据值的变换版本。它还有一些方法可以很容易地将提取的值包装在XML标记中，以便通过xtract进行进一步处理。

数据转换

数字评估命令使用具有相同标签名称的一组数据。例如，-num将计算命名对象的数量（将-element“#Author”快捷方式转换为-num Author）。可以使用-sum添加XML对象中的整数值，并且可以使用-avg计算其算术平均值。选定内容中的字符数由-len返回（-element“％Title”实现为-len Title）。

文本和字符串命令适用于单个字符串值。使用-words将句子分隔为标点符号，或使用-upper将句子转换为大写。 -year命令返回数据中遇到的第一个四位数令牌，因此它可以使用整数Year或半结构化MedlineDate字符串正常工作。将-year应用于“PubDate/*”将检查所有内部对象的值，无论标记名称如何，并且是获取PubMed出版年份的一般解决方案。

通过运行xtract -help可以看到完整的元素变体集。

顺序处理

数据分析经常涉及文本或数字处理的几个连续步骤。例如，检查PubMed摘要随时间的增长需要隔离每个摘要的单个单词，计算每篇文章的单词，按年度过滤结果，然后计算每年的平均单词数。各个操作都受到xtract函数的支持，因此将中间值包装在XML中可以消除对单独脚本执行计算的需要。

对选定日记中发布的文章运行搜索查询，将结果限制为带有摘要的文章，获取单个PMID，以及从本地数据缓存中获取记录：

1
2
3

esearch -db pubmed -query "PNAS [JOUR]" -pub abstract |
  efetch -format uid |
  fetch-pubmed

返回一个XML PubmedArticleSet，其中包含超过115,000个PubmedArticle记录。下一步将提取出版年份和文章摘要中的单个词。原始XML中的所需字段是：

...
<PubDate>
  <Year>2018</Year>
  ...
</PubDate>
...
<Abstract>
  <AbstractText>Ammonia plays a key role in the ....</AbstractText>
</Abstract>
...

将PubmedArticleSet管道化为提取命令的初始版本：

1
2
3

xtract -stops -pattern PubmedArticle \
    -year "PubDate/*" \
    -pfc "\n" -sep "\n" -words Abstract/AbstractText

在单独的行上打印年份和每个单独的抽象单词：

2018
ammonia
plays
a
key
role
in
the
neutralization
of
atmospheric
acids
...

用XML包装结果

自定义参数使得可以将中间值（例如，每个抽象的单个单词和每篇文章的单词计数）包装回XML格式，因此可以将它们发送到另一个xtract命令以进行下一个处理步骤。将PubmedArticleSet管道化为：

xtract -stops -head "<Set>" -tail "</Set>" -hd "<Rec>" -tl "</Rec>" \
    -pattern PubmedArticle \
    -pfx "<Year>" -sfx "</Year>" -year "PubDate/*" \
    -pfx "<Abst>" -sfx "</Abst>" -sep "</Abst><Abst>" \
    -words Abstract/AbstractText

允许将提取的值写为结构化XML片段（显示为重新格式化以便于阅读）：

<Set>
  <Rec>
    <Year>2018</Year>
    <Abst>ammonia</Abst>
    <Abst>plays</Abst>
    <Abst>a</Abst>
    <Abst>key</Abst>
    <Abst>role</Abst>
    <Abst>in</Abst>
    <Abst>the</Abst>
    <Abst>neutralization</Abst>
    <Abst>of</Abst>
    <Abst>atmospheric</Abst>
    <Abst>acids</Abst>
    ...

-wrp参数是一个方便，它只设置XML对象名称，设置所有适当的自定义参数，如上所示：

1
2
3

xtract -stops -wrp Set,Rec -pattern PubmedArticle \
    -wrp "Year" -year "PubDate/*" \
    -wrp "Abst" -words Abstract/AbstractText

使包装中间值变得容易。

然后将结果传送到下一步，使用-num计算每篇文章摘要中的单词数：

1
2
3

xtract -wrp Set,Pub -pattern Rec \
    -wrp "Year" -element Year \
    -wrp "Num" -num Abst

再次将结果包装为结构化XML：

<Set>
  <Pub><Year>2018</Year><Num>198</Num></Pub>
  <Pub><Year>2018</Year><Num>167</Num></Pub>
  <Pub><Year>2018</Year><Num>242</Num></Pub>
  ...

使用“>countsByYear.xml”重定向输出会将结果保存在文件中，以用于所有后续处理。

XML子集的选择

xtract -select参数允许按数据值记录子集，例如发布年份。它充当“-if”语句，后跟条件语句，但没有 - 元素，因为它的目的是传递满足条件的所有记录的全部内容。

这比每年运行单独的esearch查询更方便，速度更快，并且可以查看未被Entrez索引的数据元素。它在下面的循环中用于将处理的查询结果限制为一年一次，将相关子集传递给第二个xtract命令：

for yr in {1960..2018}
do
  cat countsByYear.xml |
  xtract -wrp Raw -pattern Pub -select Year -eq "$yr" |
  xtract -pattern Raw -lbl "$yr" -avg Num
done

将-avg应用于单词count以计算当前年度每篇文章的平均抽象单词数：

1969    121
1970    119
1971    126
...
2016    207
2017    206
2018    205

可以通过重定向到文件来保存此结果，也可以将其传送到：

1 2	tee /dev/tty \| xy-plot pnas.png

将数据打印到终端，然后以图形格式显示结果。最后一步应该是：

1	rm countsByYear.xml

删除中间文件。

展开全文 >>

Entrez Direct--Local Data Cache

2019-04-18

本地数据缓存

Entrez Direct用户通常使用efetch获取所选数据记录，这会调用efetch.fcgi网络服务器。当需要几千条记录时，此解决方案很有效，但它不能扩展到更大的数据集，其中下载所需的时间成为限制因素。

随机存取档案

作为替代方案，整个PubMed记录集可以通过文件传输协议获得，并且可以通过检索每日更新文件来保持最新。可以通过xtract对发布文件进行解压缩和管道传输以进行批量分析，但它们不提供对单个记录的随机访问。

计算机文件系统技术的最新进展现在允许将所有这些已发布的期刊文章引用重新打包为廉价的500千兆字节外部固态驱动器上的单个文件，使用文件夹层次结构来组织2800万个PubMed记录。此方法使用PMID中的数字对作为目录结构中的节点，从而提供对任何记录的直接和快速访问。例如，PMID 12345678将作为压缩的XML文件存储在/Archive/12/34/56/12345678.xml.gz中。

EDirect现在包含一个存档发布的脚本，可以完全自动化下载，更新，提取和存储过程。专用固态驱动器的路径将传递到命令行上的脚本：

1	archive-pubmed -path /Volumes/alexandria

它可以每天或每周重新运行，以使存档保持最新。填充存档后，可以将PMID传送到fetch-pubmed脚本，以便从本地数据缓存中检索PubmedArticle XML记录。fetch-pubmed需要Archive子目录的路径才能找到数据。例如：

1
2
3

esearch -db pubmed -query "cancer AND regulation" |
  efetch -format uid |
  fetch-pubmed -path /Volumes/alexandria/Archive

如果在用户的.bash_profile配置文件中设置了环境变量，则任一脚本都不需要-path参数：

1	export EDIRECT_PUBMED_MASTER=/Volumes/alexandria

假设在后续示例中设置了EDIRECT_PUBMED_MASTER。

本地查询索引

类似的分而治之策略可用于创建适用于大数据挖掘查询的本地信息检索索引。第二个新脚本index-pubmed会自动执行此活动。（它是存档发布的超集，也可以定期运行。）

对于选定的PubMed文本字段（标题和主要摘要），索引过程会删除特定前缀后的连字符，删除重音符号和变音符号，在标点符号处拆分单词，更正编码工件以及拼写出希腊字母以便于搜索科学术语。然后它准备带有术语位置的倒排索引，并使用它们来构建分布式术语列表和发布文件。

例如，包含“癌症”的术语列表将位于/Postings/c/a/n/c/canc.trm。因此，对癌症的查询仅需要加载总指数的非常小的子集。

该设计支持有效的布尔表达式评估（例如，“(literacy AND numeracy) NOT (adolescent OR child)”），不受限制的通配符截断（例如，“therap*”），短语查询（例如，“selective serotonin reuptake inhibitor”），和邻近搜索（例如，“vitamin c ~ ~ common cold”）。

本地搜索命令

短语搜索脚本控制对本地索引的访问。实际的基础工作由rchive程序完成。术语计数由-count（将通配符扩展组合为单个数字）或-counts（扩展通配符并显示单个术语和计数）返回。使用-query返回与搜索表达式匹配的PMID。

例如，使用截断的短语检查术语列表：

1	phrase-search -count "catabolite repress*"

翻译为：

1	rchive -path /Volumes/alexandria/Postings -count "catabolite repress*"

并返回单个单词的总计数：

1 2	4325 catabolite 104977 repress*

使用-counts而不是-count返回扩展的术语和单个帖子计数：

4325     catabolite
12002    repress
1        repressa
5        repressable
1        repressae
1        repressant
2        repressants
1        repressc
1        represse
26322    repressed
1        repressedm
...

使用短语搜索：

1 2	phrase-search -query "selective serotonin reuptake inhibitor*" \| fetch-pubmed

为包含该短语的记录生成PMID列表，然后从本地存档中检索相关的PubmedArticle XML。使用[STEM]附加查询使用已通过Porter2词干分析算法处理的单词来评估相同的表达式。

展开全文 >>

Entrez Direct--Automation

2019-04-17

自动化

脚本中的Entrez命令

冒险尝试进入编程领域时，可以在需要独立处理一个步骤的每个输出行时编写shell脚本，而不是将输出完整地传输到下一个命令。（最简单的shell脚本只是一组命令的副本，这些命令被输入到终端中以供执行。）

在脚本中，可以通过将语句括在反引号（“`”）字符中来将变量设置为命令的结果。变量名称以美元符号（“$”）作为前缀，以将其值用作另一个命令中的参数。注释以井号（“＃”）开头并被忽略。引用字符串中的引号通过反斜杠（“\”）“转义”输入。子例程可用于收集公共代码或简化脚本的组织。

例如，执行包含以下内容的脚本文件：

#!/bin/bash -norc
  parse_fields() {
    echo "$1" |
    xtract -pattern Field \
      -pfx "[" -sfx "]" -element Name \
      -pfx "" -sfx "" -element FullName Description |
    sort -t $'\t' -k 2,2f | column -s $'\t' -t
  }
  dbs=`einfo -dbs | sort`
  for db in $dbs
  do
    eix=`einfo -db $db`
    flds=`parse_fields "$eix"`
    echo "$db"
    echo ""
    echo "$flds"
    echo ""
    sleep 1
  done

将获得Entrez数据库列表：

annotinfo
assembly
bioproject
...

然后为每个单独的数据库返回索引搜索字段的缩写，名称和描述：

...
  mesh
  [ALL]   All Fields         All terms from all searchable fields
  [FILT]  Filter             Limits the records
  [MESH]  MeSH Terms         MeSH Terms
  [MHUI]  MeSH Unique ID     NLM MeSH Browser Unique ID
  [MULT]  Multi              Multi
  [PREV]  Previous Indexing  Previous Indexing
  [TYPE]  Record Type        Record type
  [REG]   Registry Number    Registry Number
  [NOTE]  Scope Note         Scope Note
  [ALSO]  See Also           See Also
  [SUBS]  Substance Name     Substance Name
  [WORD]  Text Word          Free text
  [TN]    Tree Number        Tree Number
  [UID]   UID                Unique number assigned to publication
  ...

shell脚本命令：

sleep 1

在循环中的步骤之间添加一秒延迟，并可用于帮助防止高级脚本过度使用Entrez服务器。

Xargs/Sh Loop

通过创造性地使用UNIX xargs和sh命令，有时可以避免编写脚本来循环遍历数据。在“sh -c”命令字符串中，姓氏和首字母参数（由“xargs -n 2”成对传递）在“$0”和“$1”变量中替换。sh字符串中的所有命令都在每个名称上单独运行：

1
2
3

echo "Garber ED Casadaban MJ Mortimer RK" |
  xargs -n 2 sh -c 'esearch -db pubmed -query "$0 $1 [AUTH]" |
  xtract -pattern ENTREZ_DIRECT -lbl "$1 $0" -element Count'

这会为每位作者生成PubMed文章计数：

1
2
3

ED Garber       35
MJ Casadaban    46
RK Mortimer     85

While Loop

“while”循环也可用于独立处理数据行。给定一个包含genus-species名称的文件“organisms.txt”，UNIX“cat”命令：

1	cat organisms.txt

写入文件的内容：

Arabidopsis thaliana
Caenorhabditis elegans
Danio rerio
Drosophila melanogaster
Escherichia coli
Homo sapiens
Mus musculus
Saccharomyces cerevisiae

这可以通过管道连接到一次读取一行的循环：

while read org
  do
    esearch -db taxonomy -query "$org [LNGE] AND family [RANK]" < /dev/null |
    efetch -format docsum |
    xtract -pattern DocumentSummary -lbl "$org" \
      -element ScientificName Division
  done

查找每个生物的分类学姓氏和BLAST分部：

Arabidopsis thaliana        Brassicaceae          eudicots
Caenorhabditis elegans      Rhabditidae           nematodes
Danio rerio                 Cyprinidae            bony fishes
Drosophila melanogaster     Drosophilidae         flies
Escherichia coli            Enterobacteriaceae    enterobacteria
Homo sapiens                Hominidae             primates
Mus musculus                Muridae               rodents
Saccharomyces cerevisiae    Saccharomycetaceae    ascomycetes

（“</dev/null”输入重定向构造阻止esearch从stdin“排空”剩余的行。）

For Loop

嵌入“for”循环的生物体名称可以获得相同的结果：

for org in \
    "Arabidopsis thaliana" \
    "Caenorhabditis elegans" \
    "Danio rerio" \
    "Drosophila melanogaster" \
    "Escherichia coli" \
    "Homo sapiens" \
    "Mus musculus" \
    "Saccharomyces cerevisiae"
  do
    esearch -db taxonomy -query "$org [LNGE] AND family [RANK]" |
    efetch -format docsum |
    xtract -pattern DocumentSummary -lbl "$org" \
      -element ScientificName Division
  done

File Exploration

for循环也可用于浏览计算机的文件系统：

for i in *
  do
    if [ -f "$i" ]
    then
      echo $(basename "$i")
    fi
  done

访问当前目录中的每个文件。星号（“”）字符表示所有文件，可以用任何模式（例如“.txt”）替换以限制文件搜索。 if语句“-f”运算符可以更改为“-d”以查找目录而不是文件，“ -s”选择大小大于零的文件。

Processing in Groups

由于Entrez链接服务器中的技术限制，可能需要使用将唯一标识符或序列登录号拆分为较小组的函数对大量记录执行elink操作：

JoinIntoGroupsOf() {
    xargs -n "$@" echo |
    sed 's/ /,/g'
  }
  alias join-into-group-of='JoinIntoGroupsOf'

以下示例将一次处理200个加入的组中的序列记录：

...
  efetch -format acc |
  join-into-groups-of 200 |
  xargs -n 1 sh -c 'epost -db nuccore -format acc -id "$0" |
  elink -target pubmed |
  efetch -format abstract'

展开全文 >>

Entrez Direct--Advanced Topics

2019-04-17

高级主题

在别名文件中存储常用短语

可以将长或复杂的搜索短语保存在文件中，以避免必须为每个查询重新键入（或复制和粘贴）全文。文件的每一行都有一个快捷键，一个制表符和一个扩展的搜索词。在使用井号（“＃”）前缀后，将它们放在括号中，以引用快捷方式。

例如，给定名为“q_aliases”的文件包含：

1 2	jour_filt [MULT] AND ncbijournals [FILT] trans_imm (transposition OR target) immunity

在esearch语句中：

esearch -alias q_aliases -db nlmcatalog -query "Science (#jour_filt)" |
efetch -format docsum |
xtract -pattern DocumentSummary -element ISOAbbreviation \
  -subset ISSNInfo -sep "|" -element issn,issntype

将扩展开为：

1	esearch -db nlmcatalog -query "Science [MULT] AND ncbijournals [FILT]"

查询生成：

J. Zhejiang Univ. Sci.  1009-3095|Print 1009-3095|Linking
J King Saud Univ Sci  1018-3647|Print 2213-686X|Electronic  1018-3647|Linking
Science (80- )  0193-4511|Print 0193-4511|Linking
Science 0036-8075|Print 1095-9203|Electronic  0036-8075|Linking

别名文件也可以在管道或脚本开头的单独指令中读取：

1	eproxy -alias q_aliases

为了获得最大的灵活性，可以将单独的eproxy命令连接在一起以加载多个快捷方式文件，只要快捷方式字符串都是唯一的。

其他EDirect选项

可以为ESearch和EFilter指定一个-sort参数来指定检索记录时的结果顺序：

1
2
3

esearch -db pubmed -query "opsin gene conversion" -sort "last author" |
  efetch -format docsum |
  xtract -pattern DocumentSummary -element Id LastAuthor PubDate Title

ELink可以使用“-name pubmed_pubmed_citedin”返回引用列表的链接，但仅适用于PubMed Central（PMC）中保留全文的出版物。例如，查询：

esearch -db pubmed -query "Beadle GW [AUTH]" |
  elink -related -name pubmed_pubmed_citedin |
  efetch -format docsum |
  xtract -pattern Author -element Name |
  sort-uniq-count-rank |
  head -n 10

生成十个被引用最多的作者的排名列表：

14  Hawley RS
13  Beadle GW
9 Glass NL
8 Ephrussi B
7 Mitchell MB
7 PERKINS DD
7 Tatum EL
6 Miller DE
6 Mitchell HK
6 Sekelsky J

类似地，“ -name pubmed_pubmed_refs”再次返回文章的引用列表，对于存放在PMC中的出版物也是如此。

ELink有几种命令模式，可以使用-cmd参数指定这些模式。当不使用默认的“neighbor_history”命令时，elink将返回一个eLinkResult XML对象，每个UID的链接在不同的块中显示。例如：

1
2
3

esearch -db pubmed -query "Hoffmann PC [AUTH] AND dopamine [MAJR]" |
  elink -related -cmd neighbor |
  xtract -pattern LinkSetDb -element Id

将在后续列中显示第一列中的原始PMID和相关文章PMID：

1504781    11754494    3815119    1684029    14614914    12128255    ...
1684029    3815119     1504781    8097798    17161385    14755628    ...
2572612    2903614     6152036    2905789    9483560     1352865     ...
...

当elink命令“prlinks”与“ref”模式一起使用时，它可以直接从发布者获取包含或引用全文文章的HTML。 UNIX“xargs”命令为每个标识符分别调用elink：

epost -db pubmed -id 22966225,19880848 |
  efilter -query "freetext [FILT]" |
  efetch -format uid |
  xargs -n 1 elink -db pubmed -cmd prlinks -mode ref -http get -id

elink -batch标志将绕过大型查询的Entrez历史记录机制。

Xtract专题

标准格式的自闭标签：

1	<Na-strand/>

或替代形式：

1	<Na-strand></Na-strand>

没有文本内容，因此无法使用-element命令进行选择。如果标记包含属性：

1
2
3

<Seq-interval_strand>
    <Na-strand value="plus"/>
  </Seq-interval_strand>

它可以通过匹配指定的值来选择：

1
2
3

-group Seq-interval_strand \
    -block Seq-interval_strand -if Na-strand@value -equals plus -lbl "+" \
    -block Seq-interval_strand -if Na-strand@value -equals minus -lbl "-"

-pattern，-group，-block和-subset命令提供了一个嵌套的循环组织器层次结构，用于探索XML对象。每个模式可以包含多个组，每个组可以包含多个块，并且每个块可以具有多个子集。

使用不同的参数名称允许循环嵌套的线性表示，并提供足够的灵活性来从Entrez中的XML记录中识别和提取任意数据。

在伪代码中绘制草图可以阐明相对嵌套级别。提取命令：

xtract -pattern PubmedArticle \
    -block Author -element Initials,LastName \
    -block MeshHeading \
      -if QualifierName \
        -element DescriptorName \
        -subset QualifierName -element QualifierName

可以用伪代码表示为计算机程序：

for each Pubmed record {
    for each Author {
      print Initials LastName
    }
    for each MeSH term {
      if Subheadings are present {
        print Term Name
        for each Subheading {
          print Subheading Name
        }
      }
    }
  }

额外的参数（-division，-branch，-section和-unit）保留用于提供额外的组织级别，如果将来需要处理复杂的，深度嵌套的XML数据。按排名顺序排列的完整命令是：

-pattern
-division
-group
-branch
-block
-section
-subset
-unit

使用-block启动xtract探索，并使用-group和-subset进行扩展，会留下可在任何需要的地方使用的其他级别名称，而无需重新设计整个命令。

查询外部Web服务

EDirect nquire函数可用于从任意URL获取数据。查询是从命令行参数构建的。例如：

1 2	nquire -url "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi" \ -db pubmed -term insulin

读取URL然后标记/值对以生成电子实用程序查询：

1	https://eutils. ... .gov/entrez/eutils/esearch.fcgi?db=pubmed&term=insulin

路径可以分为组件，与斜杠组合，因此：

1	-url https://eutils.ncbi.nlm.nih.gov entrez/eutils efetch.fcgi

转换为：

1	https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi

标签之间的多个值与逗号组合。从而：

1	-db nuccore -id U54469 V00328 -rettype fasta

转化为：

1	db=nuccore&id=U54469,V00328&rettype=fasta

以连字符（或减号）开头的值可以通过在其前面添加反斜杠来区分标记，因此：

1	nquire -url http://api.geonames.org/countryCode -lat 41.796 -lng "\-87.577"

将被发送为：

1	http://api.geonames.org/countryCode?lat=41.796&lng=-87.577

并且将返回“US”作为芝加哥内部的坐标，其具有负（西半球）经度值。

-alias参数可以读取快捷键和URL别名的文件。以下别名始终可用：

1 2	ncbi_url https://www.ncbi.nlm.nih.gov eutils_url https://eutils.ncbi.nlm.nih.gov/entrez/eutils

所以命令：

1 2	nquire -url "(#eutils_url)" esearch.fcgi \ -db gds -term "GSE22309 [ACCN] AND gse [ETYP]" -retmax 200

将运行ESearch查询并返回eSearchResult XML对象。

可以重新格式化具有不一致的换行和缩进的原始XML，以便通过管道传输来更容易地目视检查数据结构和内容：

1	xtract -format

展开全文 >>

Entrez Direct--Complex Objects

2019-04-17

复杂对象

异构数据

XML对象可以包含异构的组件组合。例如：

1	efetch -db pubmed -id 21433338,17247418 -format xml

返回书籍和期刊记录的混合：

<PubmedArticleSet>
  <PubmedBookArticle>
    <BookDocument>
    ...
    </PubmedBookData>
  </PubmedBookArticle>
  <PubmedArticle>
    <MedlineCitation>
    ...
    </PubmedData>
  </PubmedArticle>
</PubmedArticleSet>

“Parent/*”构造用于访问各个组件，即使它们可能具有不同的名称。将XML输出管道化为：

1	xtract -pattern "PubmedArticleSet/" -element ""

单独打印每个XML组件的全部内容：

1 2	<PubmedBookArticle><BookDocument> ... </PubmedBookData></PubmedBookArticle> <PubmedArticle><MedlineCitation> ... </PubmedData></PubmedArticle>

使用“父/子”构造可以隔离具有相同名称的对象，这些对象因其在XML层次结构中的位置而不同。例如：

efetch -db pubmed -id 21433338,17247418 -format xml |
xtract -pattern "PubmedArticleSet/*" \
  -group "BookDocument/AuthorList" -tab "\n" -element LastName \
  -group "Book/AuthorList" -tab "\n" -element LastName \
  -group "Article/AuthorList" -tab "\n" -element LastName

为书/章作者，书籍编辑和文章作者写单独的行：

1
2
3

Fauci	Desrosiers
Coffin	Hughes	Varmus
Lederberg	Cavalli	Lederberg

只需用个别参数进行探索：

1	-group BookDocument -block AuthorList -element LastName

将访问编辑器（在BookDocument / Book / AuthorList）以及作者（在BookDocument / AuthorList），并按照XML中的外观顺序打印名称：

1	Coffin Hughes Varmus Fauci Desrosiers

（在这个特定的例子中，书籍作者列表可以通过使用-if“@Type”-equals作者或-if“@Type”-equals编辑器来区分，但是通过“父/子”进行探索是一种基于位置的一般方法。）

递归定义

由efetch返回的某些XML对象是递归定义的，包括TaxaSet中的Taxon（-db分类法）和Entrezgene中的Gene-commentary（-db gene）。因此，它们可以具有相同XML标记的嵌套对象。

检索一组分类记录：

1	efetch -db taxonomy -id 9606,7227 -format xml

对于分类谱系中的每个等级，使用嵌套的Taxon对象（下面标有行引用）生成XML：

    <TaxaSet>
1     <Taxon>
        <TaxId>9606</TaxId>
        <ScientificName>Homo sapiens</ScientificName>
        ...
        <LineageEx>
2         <Taxon>
            <TaxId>131567</TaxId>
            <ScientificName>cellular organisms</ScientificName>
            <Rank>no rank</Rank>
3         </Taxon>
4         <Taxon>
            <TaxId>2759</TaxId>
            <ScientificName>Eukaryota</ScientificName>
            <Rank>superkingdom</Rank>
5         </Taxon>
          ...
        </LineageEx>
        ...
6     </Taxon>
7     <Taxon>
        <TaxId>7227</TaxId>
        <ScientificName>Drosophila melanogaster</ScientificName>
        ...
8     </Taxon>
    </TaxaSet>

Xtract跟踪XML对象嵌套，以确定第1行的开始标记实际上是由第6行的</ Taxon>停止标记关闭，而不是第3行遇到的第一个</ Taxon>。

当一个递归对象被赋予一个探索命令时，使用-element命令选择数据：

1
2
3

efetch -db taxonomy -id 9606,7227,10090 -format xml |
xtract -pattern Taxon \
  -element TaxId ScientificName GenbankCommonName Division

不检查内部对象中的字段，仅返回主条目的信息：

1
2
3

9606	Homo sapiens	human	Primates
7227	Drosophila melanogaster	fruit fly	Invertebrates
10090	Mus musculus	house mouse	Rodents

“*/Child”构造将跳过外部开始标记：

1
2
3

efetch -db taxonomy -id 9606,7227,10090 -format xml |
xtract -pattern Taxon -block "*/Taxon" \
  -tab "\n" -element TaxId,ScientificName

单独访问下一级嵌套对象：

131567	cellular organisms
2759	Eukaryota
33154	Opisthokonta
33208	Metazoa
...

可以使用双星斜杠前缀完全探索递归对象：

esearch -db gene -query "DMD [GENE] AND human [ORGN]" |
efetch -format xml |
xtract -pattern Entrezgene -block "**/Gene-commentary" \
  -tab "\n" -element Gene-commentary_type@value,Gene-commentary_accession

无论嵌套深度如何，它都会访问每个子对象：

genomic	NC_000023
mRNA	XM_006724469
peptide	XP_006724532
mRNA	XM_011545467
peptide	XP_011543769
mRNA	XM_006724473
peptide	XP_006724536
mRNA	XM_006724475
...

展开全文 >>

Entrez Direct--Sequence Coordinates

2019-04-17

序列坐标

基因位置

为了使用基因位置通过efetch或UCSC浏览器检索相应的染色体子区域，必须理解序列坐标约定。

以GenBank或GenPept格式显示的序列记录使用“基于一个”的坐标系，序列位置编号从“1”开始：

    1 catgccattc gttgagttgg aaacaaactt gccggctagc cgcatacccg cggggctgga
   61 gaaccggctg tgtgcggcca cagccaccat cctggacaaa cccgaagacg tgagtgaggg
  121 tcggcgagaa cttgtgggct agggtcggac ctcccaatga cccgttccca tccccaggga
  181 ccccactccc ctggtaacct ctgaccttcc gtgtcctatc ctcccttcct agatcccttc
  ...

根据这个惯例，位置是指序列字母本身：

C A T G C C A T T C.
1 2 3 4 5 6 7 8 9 10
并且最后一个碱基或残基的位置等于序列的长度。上述ATG起始密码子位于2至4位，包括端点。

但是，对于计算机程序，使用“从零开始”的坐标可以简化用于计算序列位置的算术。基于0的表示中的ATG密码子位于1到3位置。（UCSC浏览器使用混合半开表示，其中起始位置从0开始，停止位置从1开始。）

NCBI的软件通常在输入时将位置转换为0坐标，执行所需的任何计算，然后将结果转换为基于1的表示以进行显示。通过简单地从基于1的值中减去1或将基数加到1来完成这些变换。

协调转换

检索特定基因的文档：

1 2	esearch -db gene -query "BRCA2 [GENE] AND human [ORGN]" \| efetch -format docsum

以0为基础的坐标返回该基因的染色体位置：

  ...
  <GenomicInfoType>
    <ChrLoc> 13 </ ChrLoc>
    <ChrAccVer> NC_000013.11 </ ChrAccVer>
    <ChrStart> 32315479 </ ChrStart>
    <ChrStop> 32399671 </ ChrStop>
    <ExonCount> 27 </ ExonCount>
  </ GenomicInfoType>
  ...

将文档摘要管道化为xtract命令：

1	xtract -pattern GenomicInfoType -element ChrAccVer ChrStart ChrStop

获取加入的和基于0的坐标值：

1	NC_000013.11 32315479 32399671

EFetch具有-seq_start和-seq_stop参数来检索基因片段，但是这些参数希望序列子范围在基于1的坐标中。

为解决此问题，另外两个efetch参数-chr_start和-chr_stop允许直接使用基于0的坐标：

1 2	efetch -db nuccore -format gb -id NC_000013.11 \ -chr_start 32315479 -chr_stop 32399671

并且无需编写UNIX shell命令来增加两个值。

Xtract具有数字提取命令以协助进行坐标转换。使用-inc参数选择字段：

1	xtract -pattern GenomicInfoType -element ChrAccVer -inc ChrStart ChrStop

获取入口和基于0的坐标，然后递增位置以生成从1开始的值：

1	NC_000013.11 32315480 32399672

EDirect了解所有相关Entrez数据库（例如，gene，snp，dbvar）中序列位置的策略，并提供了将这些转换为其他约定的其他快捷方式。例如：

1	xtract -pattern GenomicInfoType -element ChrAccVer -1-based ChrStart ChrStop

了解基因ChrStart和ChrStop字段是基于0的，看到所需的输出是基于1的，并转换命令以使用-inc参数转换坐标。同理：

1	-element ChrAccVer -ucsc-based ChrStart ChrStop

保留基于0的起始值不变但增加原始停止值以生成可以传递给UCSC浏览器的半开放表单：

1	NC_000013.11 32315479 32399672

展开全文 >>

Entrez Direct--Sequence Records

2019-04-16

序列记录

用于序列记录的NCBI数据模型

NCBI代表基于分子生物学中心法则的数据模型中的序列记录。序列，包括基因组DNA，信使RNA和蛋白质产物，用实际的序列字母“实例化”，并且被分配标识符（例如，登录号）以供参考。特征携带关于给定区域的生物学的信息，其具有涉及特定序列的特定间隔的位置。某些特征也可能指向特定变换的产品序列。

基因特征指示可遗传的核酸区域的位置，其赋予可测量的表型。基因组DNA上的mRNA特征代表在转录和剪接后保留的信息的外显子和非翻译区。编码区（CDS）特征具有对翻译的蛋白质的产物参考。

由于信使RNA序列并不总是与基因组区域一起提交，因此CDS特征（其模拟核糖体在转录物分子上的行程）传统上在基因组序列上注释，具有编码外显子区间的位置。

功能在限定符中显示特定的生物注释。例如，基因的名称显示在/gene限定符中。为了方便用户，可以从底层数据动态生成限定符。因此，成熟肽的序列可以从前体蛋白上的mat_peptide特征的位置提取并显示在/肽限定符中，即使未实例化成熟肽。

INSDSeq XML中的序列记录

可以在GenBank或GenPept平面文件的XML版本中检索序列记录。查询：

1	efetch -db protein -id 26418308,26418074 -format gpc

返回一组INSDSeq对象：

<INSDSet>
  <INSDSeq>
    <INSDSeq_locus>AAN78128</INSDSeq_locus>
    <INSDSeq_length>17</INSDSeq_length>
    <INSDSeq_moltype>AA</INSDSeq_moltype>
    <INSDSeq_topology>linear</INSDSeq_topology>
    <INSDSeq_division>INV</INSDSeq_division>
    <INSDSeq_update-date>24-JUL-2016</INSDSeq_update-date>
    <INSDSeq_create-date>10-DEC-2002</INSDSeq_create-date>
    <INSDSeq_definition>alpha-conotoxin ImI precursor, partial [Conus imperialis]</INSDSeq_definition>
    <INSDSeq_primary-accession>AAN78128</INSDSeq_primary-accession>
    <INSDSeq_accession-version>AAN78128.1</INSDSeq_accession-version>
    <INSDSeq_other-seqids>
      <INSDSeqid>gb|AAN78128.1|</INSDSeqid>
      <INSDSeqid>gi|26418308</INSDSeqid>
    </INSDSeq_other-seqids>
    <INSDSeq_source>Conus imperialis</INSDSeq_source>
    <INSDSeq_organism>Conus imperialis</INSDSeq_organism>
    <INSDSeq_taxonomy>Eukaryota; Metazoa; Lophotrochozoa; Mollusca; Gastropoda; Caenogastropoda; Hypsogastropoda; Neogastropoda; Conoidea; Conidae; Conus</INSDSeq_taxonomy>
    <INSDSeq_references>
      <INSDReference>
      ...

INSDSeq XML提供生物特征和限定符（此处以GenPept格式显示）：

FEATURES             Location/Qualifiers
     source          1..17
                     /organism="Conus imperialis"
                     /db_xref="taxon:35631"
                     /country="Philippines"
     Protein         <1..17
                     /product="alpha-conotoxin ImI precursor"
     mat_peptide     5..16
                     /product="alpha-conotoxin ImI"
                     /note="the C-terminal glycine of the precursor is post
                     translationally removed"
                     /calculated_mol_wt=1357
                     /peptide="GCCSDPRCAWRC"
     CDS             1..17
                     /coded_by="AY159318.1:<1..54"
                     /note="nAChR antagonist"

在结构化功能表中：

...
<INSDFeature>
  <INSDFeature_key>mat_peptide</INSDFeature_key>
  <INSDFeature_location>5..16</INSDFeature_location>
  <INSDFeature_intervals>
    <INSDInterval>
      <INSDInterval_from>5</INSDInterval_from>
      <INSDInterval_to>16</INSDInterval_to>
      <INSDInterval_accession>AAN78128.1</INSDInterval_accession>
    </INSDInterval>
  </INSDFeature_intervals>
  <INSDFeature_quals>
    <INSDQualifier>
      <INSDQualifier_name>product</INSDQualifier_name>
      <INSDQualifier_value>alpha-conotoxin ImI</INSDQualifier_value>
    </INSDQualifier>
    <INSDQualifier>
      <INSDQualifier_name>note</INSDQualifier_name>
      <INSDQualifier_value>the C-terminal glycine of the precursor is
         post translationally removed</INSDQualifier_value>
    </INSDQualifier>
    <INSDQualifier>
      <INSDQualifier_name>calculated_mol_wt</INSDQualifier_name>
      <INSDQualifier_value>1357</INSDQualifier_value>
    </INSDQualifier>
    <INSDQualifier>
      <INSDQualifier_name>peptide</INSDQualifier_name>
      <INSDQualifier_value>GCCSDPRCAWRC</INSDQualifier_value>
    </INSDQualifier>
  </INSDFeature_quals>
</INSDFeature>
...

功能和限定符名称在数据值中指示，而不是XML元素标记，并且需要-if和-equals来选择所需的对象和内容。 xtract -insd参数简化了此过程，如下所示。

生成限定符提取命令

因为从INSDSeq XML获取特定限定符值比以前的情况稍微复杂一些，所以xtract -insd参数可用于生成提取指令。

在单独的命令中运行xtract -insd会打印一个新的xtract语句，然后可以在必要时对其进行复制，编辑并粘贴到其他查询中。在多步骤管道中运行-insd命令可动态执行构造的查询。

提供可选（完整/部分）位置指示，功能键，然后提供一个或多个限定符名称：

1	xtract -insd complete mat_peptide "%peptide" product peptide

创建一个新的xtract语句，该语句将生成具有完整位置的成熟肽特征的限定符值表。该语句以记录加入和查找指定类型的功能的说明开头：

xtract -pattern INSDSeq -ACCN INSDSeq_accession-version \
  -group INSDFeature -if INSDFeature_key -equals mat_peptide \
    -unless INSDFeature_partial5 -or INSDFeature_partial3 \
      -clr -pfx "\n" -element "&ACCN"

然后，每个限定符都会生成附加到不断增长的查询中的自定义提取代码。例如：

1
2
3

-block INSDQualifier \
  -if INSDQualifier_name -equals peptide \
    -element INSDQualifier_value

在海洋蜗牛毒肽的查询中加入xtract -insd命令：

esearch -db pubmed -query "conotoxin" |
elink -target protein |
efilter -query "mat_peptide [FKEY]" |
efetch -format gpc |
xtract -insd complete mat_peptide "%peptide" product peptide

生成一个表格，其中包含登录号，计算肽长度，产品名称和肽序列的列：

AGO59814.1    32    del13b conotoxin       DCPTSCPTTCANGWECCKGYPCVRQHCSGCNH
AAO33169.1    16    alpha-conotoxin GIC    GCCSHPACAGNNQHIC
ADB65788.1    20    conotoxin Cal 16       LEMQGCVCNANAKFCCGEGR
AAN78128.1    12    alpha-conotoxin ImI    GCCSDPRCAWRC
AAF23167.1    31    BeTX toxin             CRAEGTYCENDSQCCLNECCWGGCGHPCRHP
ADB65789.1    20    conotoxin Cal 16       LEMQGCVCNANAKFCCGEGR
AAN78279.1    21    conotoxin Vx-II        WIDPSHYCCCGGGCTDDCVNC
ABW16858.1    15    marmophin              DWEYHAHPKPNSFWT
...

将结果管道化为一系列UNIX命令：

grep -i conotoxin |
awk -F '\t' -v 'OFS=\t' '{if ( 10 <= $2 && $2 <= 30 ) print}' |
sort -t $'\t' -u -k 3,4 |
sort -t $'\t' -k 2,2n -k 3,3f |
cut -f 1,3- |
column -s $'\t' -t

按产品名称过滤，将结果限制为指定的肽段长度，删除多余的加入，按肽长度对表格进行排序，删除长度列，并对齐列以进行更清晰的打印：

AAN78128.1  alpha-conotoxin ImI            GCCSDPRCAWRC
AAN78127.1  alpha-conotoxin ImII           ACCSDRRCRWRC
ADB43130.1  conotoxin Cal 1a               KCCKRHHGCHPCGRK
ADB43131.1  conotoxin Cal 1b               LCCKRHHGCHPCGRT
AAO33169.1  alpha-conotoxin GIC            GCCSHPACAGNNQHIC
ADB43128.1  conotoxin Cal 5.1              DPAPCCQHPIETCCRR
AAD31913.1  alpha A conotoxin Tx2          PECCSHPACNVDHPEICR
ADB43129.1  conotoxin Cal 5.2              MIQRSQCCAVKKNCCHVG
ADD97803.1  conotoxin Cal 1.2              AGCCPTIMYKTGACRTNRCR
ADB65789.1  conotoxin Cal 16               LEMQGCVCNANAKFCCGEGR
AAD31912.1  alpha A conotoxin Tx1          PECCSDPRCNSSHPELCGGRR
AAN78279.1  conotoxin Vx-II                WIDPSHYCCCGGGCTDDCVNC
ADB43125.1  conotoxin Cal 14.2             GCPADCPNTCDSSNKCSPGFPG
ADD97802.1  conotoxin Cal 6.4              GCWLCLGPNACCRGSVCHDYCPR
CAH64846.1  four-loop conotoxin            CRPSGSPCGVTSICCGRCSRGKCT
AAD31915.1  O-superfamily conotoxin TxO2   CYDSGTSCNTGNQCCSGWCIFVCL
AAD31916.1  O-superfamily conotoxin TxO3   CYDGGTSCDSGIQCCSGWCIFVCF
AAD31920.1  omega conotoxin SVIA mutant 1  CRPSGSPCGVTSICCGRCYRGKCT
AAD31921.1  omega conotoxin SVIA mutant 2  CRPSGSPCGVTSICCGRCSRGKCT
ABE27010.1  conotoxin fe14.1               SPGSTICKMACRTGNGHKYPFCNCR
ABE27011.1  conotoxin fe14.2               SSGSTVCKMMCRLGYGHLYPSCGCR
ABE27007.1  conotoxin p114.1               GPGSAICNMACRLGQGHMYPFCNCN
ABE27008.1  conotoxin p114.2               GPGSAICNMACRLEHGHLYPFCHCR
ABE27009.1  conotoxin p114.3               GPGSAICNMACRLEHGHLYPFCNCD
...

对于缺少特定限定符的记录：

esearch -db protein -query "RAG1 [GENE] AND Mus musculus [ORGN]" |
efetch -format gpc |
xtract -insd source organism strain |
sort -t $'\t' -u -k 2,3

短划线作为占位符插入：

P15919.2  Mus musculus  -
AAO61776.1  Mus musculus  129/Sv
NP_033045.2 Mus musculus  C57BL/6
XP_006499075.1  Mus musculus  C57BL/6J
EDL27655.1  Mus musculus  mixed
BAD69530.1  Mus musculus castaneus  -
BAD69531.1  Mus musculus domesticus BALB/c
BAD69532.1  Mus musculus molossinus MOA

展开全文 >>

Entrez Direct--Structured Data

2019-04-12

数据结构

XML格式的优点

能够以结构化XML格式获取Entrez记录并轻松提取基础数据，使用户能够提出现有分析软件无法解决的新问题。

XML的优点是许多信息都位于定义明确的数据层次结构中的特定位置。访问按名称提供的各个数据单元，例如：

<PubDate>2013</PubDate>
  <Source>PLoS One</Source>
  <Volume>8</Volume>
  <Issue>3</Issue>
  <Pages>e58144</Pages>

需要匹配相同的通用模式，仅由元素名称不同。这比从长而复杂的字符串解析单位要简单得多：

1	1. PLoS One. 2013;8(3):e58144 ...

XML的缺点是数据提取通常需要编程。但是EDirect依赖于XML值表示的通用模式来提供解释XML数据的简化方法。

将XML数据转换为表格形式

xtract函数使用命令行参数来指导XML数据的选择性转换为制表符分隔的表。 -pattern参数将结果划分为行，而将数据放入列中则由-element控制。一个简单的例子：

1	xtract -pattern ENTREZ_DIRECT -element Count

将打印当前查询中的记录数。

Xtract使用单独的参数进行元素选择，路径探索，条件处理和报告格式化，使用分而治之策略来控制数据转换。

元素选择查找每个指示项目的每次出现，在遇到它们时打印值。探索控制限制按上下文选择，一次呈现一个指定的对象。条件处理按内容过滤，要求存在（或不存在）特定数据值以便继续。最后，自定义格式可以覆盖默认输出的常规表格布局。

本节其余部分将讨论这种灵活方法的细节和分支。

提取参数

选择参数（-element，-first和-last）从指示的元素名称中提取和打印数据值：

1	-element Id -first Name Title

探测参数（-pattern，-group，-block和-subset）将数据提取限制为XML的指定区域，一次访问一个所有相关对象。这为数据收集设置了上下文，消除了提供数据元素的完整路径的需要，并从“在哪里找到它”中提升为“寻找什么”的概念：

1 2	-pattern DocumentSummary -block Author

每个模式可以有多个组，每个组可以有多个块，每个块可以有多个子集。此设计允许嵌套探索复杂的分层数据，这些数据由命令行参数语句的线性链控制。

条件处理参数按对象名称和值（-if和-unless）或项目位置（-position）限制探索语句：

1 2	-if Source -equals "J Bacteriol" -position first

这些命令在探测参数后立即发出。

格式化参数（-ret，-tab，-sep，-pfx，-sfx和-def）允许对默认行/列表显示进行大量自定义：

1	-pfx "\n[" -sfx "]\t" -sep " " -tab "" -ret "\n\n" -def "-"

并适用于后续的选择陈述。
（“\n”转义序列表示换行符，而“\t”指定制表符。）

XML文档摘要

Entrez为每条记录提供结构化XML格式的文档摘要。将查询管道化为“efetch -format docsum”：

esearch -db pubmed -query "Garber ED [AUTH] AND PNAS [JOUR]" |
elink -related |
efilter -query "mouse" |
efetch -format docsum

将生成XML文档摘要集：

<DocumentSummarySet status="OK">
<DocumentSummary>
<Id>19650888</Id>
  <PubDate>2009 Aug 3</PubDate>
  <EPubDate>2009 Aug 3</EPubDate>
  <Source>BMC Microbiol</Source>
  <Authors>
    <Author>
      <Name>Cano V</Name>
      <AuthType>Author</AuthType>
      <ClusterID></ClusterID>
    </Author>
    <Author>
      <Name>Moranta D</Name>
      <AuthType>Author</AuthType>
      <ClusterID></ClusterID>
    </Author>
    <Author>
      <Name>Llobet-Brossa E</Name>
      <AuthType>Author</AuthType>
      <ClusterID></ClusterID>
    </Author>
    <Author>
      <Name>Bengoechea JA</Name>
      <AuthType>Author</AuthType>
      <ClusterID></ClusterID>
    </Author>
    <Author>
      <Name>Garmendia J</Name>
      <AuthType>Author</AuthType>
      <ClusterID></ClusterID>
    </Author>
  </Authors>
  ...

将文档摘要管道输出到：

1	xtract -outline

将给出XML层次结构的缩进概述：

DbBuild
  DocumentSummary
    Id
    PubDate
    EPubDate
    Source
    Authors
      Author
        Name
        AuthType
        ClusterID
      Author
        Name
        ...

大纲视图提供了一个清晰，整洁的XML层次结构图，可用于设计适当的实际数据提取命令。从-outline输出复制并粘贴到xtract参数可以帮助避免印刷错误。从而：

esearch -db pubmed -query "Garber ED [AUTH] AND PNAS [JOUR]" |
  elink -related |
  efilter -query "mouse" |
  efetch -format docsum |
  xtract -pattern DocumentSummary -element Id SortFirstAuthor Title

返回PubMed标识符（PMID），第一作者姓名和文章标题：

19650888  Cano V  Klebsiella pneumoniae triggers a cytotoxic effect on airway epithelial cells.
19248821  Fukumoto N  Hypoalgesic behaviors of P/Q-type voltage-gated Ca2+ channel mutant mouse, rolling mouse Nagoya.
18822497  Trishin AV  [Protective activity of secreted proteins of Streptococcus pneumoniae and Klebsiella pneumoniae].
18486404  Yu WL Comparison of prevalence of virulence factors for Klebsiella pneumoniae liver abscesses between isolates with capsular K1/K2 and non-K1/K2 serotypes.
18433330  Hsieh PF  Serum-induced iron-acquisition systems and TonB contribute to virulence in Klebsiella pneumoniae causing primary pyogenic liver abscess.
...

使用xtract“-synopsis”而不是-outline显示每个元素的完整路径。将这些结果管道化为“sort-uniq-count”（见下文）会生成一个唯一路径计数表。

使用UNIX实用程序处理结果

许多UNIX实用程序可以处理制表符分隔的表。例如：

esearch -db pubmed -query "Garber ED [AUTH] AND PNAS [JOUR]" |
 elink -related |
 efilter -query "mouse" |
 efetch -format docsum |
 xtract -pattern DocumentSummary -element Id SortFirstAuthor Title |
 sort -t $'\t' -k 2,2f -k 3,3f

按作者名称排序前一个示例的结果，然后按标题按字母顺序排序（如果同一作者有多个出版物）：

17474906  Benghezal M Inhibitors of bacterial virulence identified in a surrogate host model.
19650888  Cano V  Klebsiella pneumoniae triggers a cytotoxic effect on airway epithelial cells.
17102561  Chatterjee S  How reliable are models for malaria vaccine development? Lessons from irradiated sporozoite immunizations.
17142396  Fresno S  A second galacturonic acid transferase is required for core lipopolysaccharide biosynthesis and complete capsule association with the cell surface in Klebsiella pneumoniae.
16735743  Fresno S  The ionic interaction of Klebsiella pneumoniae K2 capsule and core lipopolysaccharide.
...

不必总是重新键入一系列常见的后处理指令，经常使用的UNIX命令组合可以放在一个函数中，存储在别名文件（例如用户的.bash_profile）中，并按名称执行。（以下两个函数现在作为脚本包含在EDirect软件中。）例如：

WordAtATime() {
    sed 's/[^a-zA-Z0-9]/ /g; s/^ *//' |
    tr 'A-Z' 'a-z' |
    fmt -w 1
  }
  alias word-at-a-time='WordAtATime'
  SortUniqCountRank() {
    sort -f |
    uniq -i -c |
    perl -pe 's/\s*(\d+)\s(.+)/$1\t$2/' |
    sort -t $'\t' -k 1,1nr -k 2f
  }
  alias sort-uniq-count-rank='SortUniqCountRank'

标题可以传递给一对这些UNIX别名命令：

esearch -db pubmed -query "Casadaban transposition immunity" |
  elink -related |
  efetch -format docsum |
  xtract -pattern DocumentSummary -element Title |
  word-at-a-time |
  sort-uniq-count-rank

生成一个单词出现次数表，按频率排序：

250 of
141 the
103 transposition
82  and
81  mu
76  in
62  a
59  tn3
45  dna
42  for
39  transposon

输出格式自定义

-pattern对象之间的换行符可以用-ret覆盖，字段之间的制表符可以用-tab替换。

-sep参数用于区分同一类型的多个元素，并独立于-tab参数控制它们的分隔。例如：

esearch -db gene -query "deuteranopia" |
  efetch -format xml |
  xtract -pattern Entrezgene \
    -element Gene-track_geneid Gene-ref_locus \
    -sep "|" -element Gene-ref_syn_E

将基因的所有同义词组合成一个列，由竖线分隔：

1
2
3

5956  OPN1LW  CBP|RCP|ROP|CBBM|COD5
2652  OPN1MW  CBD|GCP|GOP|CBBM|COD5|OPN1MW1
611 OPN1SW  BCP|BOP|CBT

-sep值也适用于以逗号分组的不相关元素项。否则，-tab值描述各个字段。

组或字段前面带有-pfx值，后跟-sfx值，这两个值最初都是空的。

可以使用-def参数标记缺少的数据值。例如：

esearch -db pubmed -query "deuteranopia" |
efetch -format xml |
xtract -pattern PubmedArticle -def "-" \
  -first MedlineCitation/PMID Author/LastName Keyword

在缺少指定元素的列中插入破折号。

Pubmed Article XML Records

PubmedArticle对象（对于-db pubmed）具有比DocumentSummary更详细的结构：

1
2
3

esearch -db pubmed -query "tetrachromacy" |
  efetch -format xml |
  xtract -outline

提供更多信息，包括作者姓名，日期和摘要：

PubmedArticle
    MedlineCitation
      PMID
      DateCompleted
        Year
        Month
        Day
      DateRevised
        Year
        Month
        Day
      Article
        Journal
          ISSN
          JournalIssue
            Volume
            Issue
            PubDate
              Year
              Month
              Day
          Title
          ISOAbbreviation
        ArticleTitle
        Pagination
          MedlinePgn
        Abstract
          AbstractText
          CopyrightInformation
        AuthorList
          Author
            LastName
            ForeName
            Initials
            AffiliationInfo
              Affiliation
          Author
            LastName
            ...

使用此信息来创建新的xtract语句：

1
2
3

esearch -db pubmed -query "tetrachromacy" |
efetch -format xml |
xtract -pattern PubmedArticle -element MedlineCitation/PMID LastName

得出每个记录的所有作者的表格：

25827838  Yewers  McLean  Moussalli Stuart-Fox  Bennett Knott
25609782  Olsson  Lind  Kelber
24967877  Benson  Manning Brainard
23393278  Sabbah  Troje Gray  Hawryshyn
20884587  Jordan  Deeb  Bosten  Mollon
18230593  Koshitaka Kinoshita Vorobyev  Arikawa
17685813  Wachtler  Doi Lee Sejnowski
16086150  Goldsmith Butler
12795212  Bonnardel Varela
11511668  Ventura Zana  de Souza  DeVoe
9839454 Vorobyev  Osorio  Bennett Marshall  Cuthill
9461554 Wilkie  Vissers Das Degrip  Bowmaker  Hunt
8351822 Jordan  Mollon

（请注意，“-element MedlineCitation/PMID”使用“父/子”构造来防止显示稍后可能在CommentsCorrections对象中出现的其他PMID项。）

如果合适，可以使用-first或-last参数代替-element。

XML集的探索

可以通过efetch直接检索单个PubmedArticle对象：

1	efetch -db pubmed -id 20643751 -format xml

生成的XML具有作者，其中包含姓氏和首字母的单独字段：

<AuthorList CompleteYN="Y">
<Author ValidYN="Y">
<LastName>Inamdar</LastName>
<ForeName>Arati A</ForeName>
<Initials>AA</Initials>
<AffiliationInfo>
<Affiliation>Department of Plant Biology and Pathology, Rutgers, The State University of New Jersey, New Brunswick, New Jersey 08901, USA. inamdar@rci.rutgers.edu</Affiliation>
</AffiliationInfo>
</Author>
<Author ValidYN="Y">
<LastName>Masurekar</LastName>
<ForeName>Prakash</ForeName>
<Initials>P</Initials>
</Author>
<Author ValidYN="Y">
<LastName>Bennett</LastName>
<ForeName>Joan Wennstrom</ForeName>
<Initials>JW</Initials>
</Author>
</AuthorList>
...

在没有给出关于上下文的任何指导的情况下，带有“Initials”和“LastName”参数的-element语句：

1
2
3

efetch -db pubmed -id 1413997,6301692,781293 -format xml |
xtract -pattern PubmedArticle -element MedlineCitation/PMID \
  -element Initials LastName

将分别探索每个参数的当前记录，从而打印所有作者姓名首字母，后跟所有作者姓氏：

1
2
3

1413997 RK  CR  JS  Mortimer  Contopoulou King
6301692 MA  NR  Krasnow Cozzarelli
781293  MJ  Casadaban

插入-block语句会重定向数据探索，以便一次考虑每个作者。后续元素语句仅查看当前作者的值：

1
2
3

efetch -db pubmed -id 1413997,6301692,781293 -format xml |
xtract -pattern PubmedArticle -element MedlineCitation/PMID \
  -block Author -element Initials LastName

恢复首字母和姓氏的正确关联：

1
2
3

1413997 RK  Mortimer  CR  Contopoulou JS  King
6301692 MA  Krasnow NR  Cozzarelli
781293  MJ  Casadaban

添加-sep语句以替换组成员之间的常规选项卡，并使用逗号将两个参数（“Initials，LastName”）组合到一个组中：

1
2
3

efetch -db pubmed -id 1413997,6301692,781293 -format xml |
xtract -pattern PubmedArticle -element MedlineCitation/PMID \
  -block Author -sep " " -element Initials,LastName

导致更理想的作者姓名格式：

1
2
3

1413997 RK Mortimer CR Contopoulou  JS King
6301692 MA Krasnow  NR Cozzarelli
781293  MJ Casadaban

可以通过-position语句选择第一个或最后一个结构化对象：

1
2
3

efetch -db pubmed -id 1413997,6301692,781293 -format xml |
xtract -pattern PubmedArticle -element MedlineCitation/PMID \
  -block Author -position first -sep " " -element Initials,LastName

结果如下：

1
2
3

1413997 RK Mortimer
6301692 MA Krasnow
781293  MJ Casadaban

探索单独的XML区域

可以在单个提取中使用多块语句来探索XML的不同区域。这将元素提取限制到所需的子区域，并允许消除具有相同名称的字段的歧义。

将独立字段与逗号组合允许将它们视为集合。通常用于分隔这些选项卡的选项可以替换为-sep参数：

efetch -db pubmed -id 6092233,4640931,4296474 -format xml |
xtract -pattern PubmedArticle -element MedlineCitation/PMID \
  -block AuthorList -sep "/" -element LastName "#Author" \
  -block PubDate -sep " " -element Year,Month MedlineDate |
sort -t $'\t' -k 3,3n -k 2,2f

这将生成一个表，允许轻松解析作者姓氏，计算作者的数量，并打印每个记录发布的日期，按作者计数对结果进行排序：

1
2
3

4296474 Friedmann 1 1968 Apr
4640931 Tager/Steiner 2 1972 Dec
6092233 Calderon/Contopoulou/Mortimer 3 1984 Jul-Aug

（请注意，PubDate对象可以以结构化形式存在：

<PubDate>
  <Year>1968</Year>
  <Month>Apr</Month>
  <Day>25</Day>
</PubDate>

（常常缺少Day字段）或字符串形式：

1
2
3

<PubDate>
  <MedlineDate>1984 Jul-Aug</MedlineDate>
</PubDate>

但不包含两种类型的混合，因此指令：

1	-element Year,Month MedlineDate

只会为输出一列。）

XML集中子集的嵌套探索

记录中的Medical Subject Headings（MeSH术语）可以分配小标题：

  ...
  <MeshHeading>
    <DescriptorName>RNA, Messenger</DescriptorName>
    <QualifierName>genetics</QualifierName>
  </MeshHeading>
  <MeshHeading>
    <DescriptorName>Transcription, Genetic</DescriptorName>
  </MeshHeading>
  <MeshHeading>
    <DescriptorName>beta-Galactosidase</DescriptorName>
    <QualifierName>genetics</QualifierName>
    <QualifierName>metabolism</QualifierName>
  </MeshHeading>
</MeshHeadingList>
...

使用-block语句访问每个MeSH术语，并在-block中添加-subset语句，允许嵌套探索当前MeSH术语的子标题：

efetch -db pubmed -id 6162838 -format xml |
xtract -pattern PubmedArticle -tab "" -element MedlineCitation/PMID \
  -block MeshHeading -pfx "\n" -tab "" -element DescriptorName \
    -subset QualifierName -pfx " / " -tab "" -element QualifierName

并创建一个带有相关子标题的MeSH术语列表：

6162838
Base Sequence
DNA, Recombinant
Escherichia coli / genetics
Galactosidases / genetics
Lac Operon
Plasmids
Protein Biosynthesis
RNA, Bacterial / genetics
RNA, Messenger / genetics
Transcription, Genetic
beta-Galactosidase / genetics / metabolism

属性的选择

MeSH术语和子标题字段实际上具有主要的主题属性：

...
<MeshHeading>
  <DescriptorName MajorTopicYN="N">beta-Galactosidase</DescriptorName>
  <QualifierName MajorTopicYN="Y">genetics</QualifierName>
  <QualifierName MajorTopicYN="N">metabolism</QualifierName>
</MeshHeading>
...

可以选择“DescriptorName@MajorTopicYN”或“@MajorTopicYN”：

efetch -db pubmed -id 6162838 -format xml |
xtract -pattern PubmedArticle -tab "" -element MedlineCitation/PMID \
  -block MeshHeading -pfx "\n" -sep "|" -tab "" \
    -element DescriptorName@MajorTopicYN,DescriptorName \
    -subset QualifierName -pfx " / " -sep "|" -tab "" \
      -element "@MajorTopicYN,QualifierName"

主要主题值放在每个MeSH术语或子标题之前：

6162838
N|Base Sequence
Y|DNA, Recombinant
N|Escherichia coli / N|genetics
N|Galactosidases / Y|genetics
N|Lac Operon
N|Plasmids
Y|Protein Biosynthesis
N|RNA, Bacterial / N|genetics
N|RNA, Messenger / Y|genetics
N|Transcription, Genetic
N|beta-Galactosidase / Y|genetics / N|metabolism

结果可以由UNIX流编辑器“sed”处理：

1	sed -e 's/N\|//g' -e 's/Y\|/*/g'

显示主要（“已加星标的”MeSH术语）概念的星号：

6162838
Base Sequence
*DNA, Recombinant
Escherichia coli / genetics
...
RNA, Messenger / *genetics
Transcription, Genetic
beta-Galactosidase / *genetics / metabolism

以变量记录值

可以将值记录在变量中，然后根据需要多次显示。变量用连字符后跟一串大写字母或数字表示。变量“-PMID”在-element参数中称为“＆PMID”。例如：

efetch -db pubmed -id 1413997,6301692,781293 -format xml |
xtract -pattern PubmedArticle -PMID MedlineCitation/PMID \
  -block Author -element "&PMID" \
    -sep " " -tab "\n" -element Initials,LastName

生成作者列表，每行的第一列中有PMID：

1413997    RK Mortimer
1413997    CR Contopoulou
1413997    JS King
6301692    MA Krasnow
6301692    NR Cozzarelli
781293     MJ Casadaban

变量初始化

可以使用括号中的文字值初始化变量：

efetch -db pubmed -id 1413997,6301692,781293 -format xml |
xtract -pattern PubmedArticle -element MedlineCitation/PMID \
  -block Author -sep " " -tab "" \
    -element "&COM" Initials,LastName -COM "(, )"

这可以用作占位符，以防止丢失数据移动表中的列，或者对输出格式进行额外控制：

1
2
3

  1413997 RK Mortimer，CR Contopoulou，JS King
  6301692 MA Krasnow，NR Cozzarelli
  781293 MJ Casadaban

处理下一条记录时，将重置所有变量。

条件处理

Xtract提供-if和-unless参数，按元素名称或名称加数据值进行过滤。例如：

esearch -db pubmed -query "Cozzarelli NR [AUTH]" |
efetch -format xml |
xtract -pattern PubmedArticle -if "#Author" -eq 3 \
  -block Author -if LastName -is-not Cozzarelli \
    -sep ", " -tab "\n" -element LastName,Initials |
sort | uniq

将选择正好3位作者的论文并打印共同作者姓名：

Ackerman, RS
Adams, DE
Alexandrov, AI
Arimondo, PB
Bauer, WR
...

使用-and和-or命令指定多个条件：

1	-if @score -equals 1 -or @score -starts-with 0.9

-else命令可以提供替代-element或-lbl指令，以便在不满足条件时运行：

1	-if MapLocation -element MapLocation -else -lbl "\-"

parallel -if和-unless语句可用于为包含嵌套探索的替代条件提供更复杂的响应。

展开全文 >>

附录

设置联系地址和脚本名称

命令行参数

EFetch格式

ESearch排序

ELink命令

UNIX实用程序

终端键盘快捷键

XML处理

数据转换

顺序处理

用XML包装结果

XML子集的选择

本地数据缓存

随机存取档案

本地查询索引

本地搜索命令

自动化

脚本中的Entrez命令

Xargs/Sh Loop

While Loop

For Loop

File Exploration

Processing in Groups

高级主题

在别名文件中存储常用短语

其他EDirect选项

Xtract专题

查询外部Web服务

复杂对象

异构数据

递归定义

序列坐标

基因位置

协调转换

序列记录

用于序列记录的NCBI数据模型

INSDSeq XML中的序列记录

生成限定符提取命令

数据结构

XML格式的优点

将XML数据转换为表格形式

提取参数

XML文档摘要

使用UNIX实用程序处理结果

输出格式自定义

Pubmed Article XML Records

XML集的探索

探索单独的XML区域

XML集中子集的嵌套探索

属性的选择

以变​​量记录值

变量初始化

条件处理

以变量记录值