DNAnexus 表型数据提取

Table exporter
dnanexus
phenotype
table exporter
Author
Published

Wednesday, December 11, 2024

自从 UK Biobank 数据必须在 DNAnexus 上操作后,我们不得不使用 UKB 的付费平台。DNAnexus 是一个功能强大的云平台,提供了多种工具来处理、分析和可视化大规模基因组数据。在研究中,表型数据(如疾病状态、实验测量值、临床记录等)是理解基因与环境因素相互作用的重要资源。DNAnexus 提供了 Table Exporter 工具以及 dx extract_dataset,帮助研究人员从数据库中高效提取表型数据,并将其导出为可分析的格式。

在这篇文章中,我们将介绍如何在 DNAnexus 上使用 Table Exporter 提取表型数据。

Table Exporter 简介

Table Exporter

Table Exporter 是 DNAnexus 提供的一项功能,允许用户从项目中提取存储的表型数据,并根据需要导出为 CSV、TSV 或 SQL 格式的文件。这些文件可以包含参与者的各种表型信息,如年龄、性别、疾病状态、基因型等。该工具的灵活性使得它不仅适用于小规模数据提取,还能够处理大规模的数据集,支持定制化字段的选择,以及针对特定需求的格式化输出。

如何使用 Table Exporter 提取数据

步骤 1:登录 DNAnexus 平台

首先,确保你已经拥有 DNAnexus 帐号并登录。若没有帐户,可以在 DNAnexus 官方网站申请注册。登录后,你将进入 Project Dashboard,即你的项目仪表板。

步骤 2:选择项目

在仪表板中,选择包含你需要提取表型数据的项目。你可以选择已有的项目,或者新建一个项目。

步骤 3:配置 Table Exporter

在项目中找到 Table Exporter 工具,并点击进入配置界面。

Table Exporter 配置

在此界面中,你需要选择要导出的表型数据字段。这些字段通常是与研究目标相关的变量,例如: 年龄、性别、疾病状态、身高、体重等基本信息。Table Exporter 支持将数据导出为不同格式:CSV:适用于大多数数据分析工具(如 Excel、R、Python 等),能够以表格形式查看。TSV:适合更大数据量的处理,且与数据库中的表格数据兼容性更高。SQL:如果你希望导出为 SQL 查询格式,用于后续数据库查询,可以选择此格式。选择适合你需求的导出格式后,点击 Next 进入下一步。在导出时,Table Exporter 还提供了一些额外的输出选项:字段名称(Field Names):你可以选择导出数据时是否包括字段名称作为表头。数据过滤(Data Filtering):根据需要,可以设置过滤条件,仅导出符合条件的数据。

advanced option

配置完成后,点击 Start Export 按钮,DNAnexus 将开始生成导出的数据文件。根据数据量的不同,可能需要一些时间来处理。你可以在 Job History(作业历史)中查看任务进度。

job history