单细胞分析

单细胞分析中的 R/Python 数据格式转换

在进行单细胞数据分析的时，一个普遍存在的问题是，许多优秀的分析工具分散在 R 和 Python 两大生态系统中。R 语言的 Seurat 包凭具有强大的整合分析能力和丰富的可视化功能；而 Python 语言则在深度学习、大规模数据处理等方面展现出独特优势，其 AnnData (H5ad) 格式也因其高效的存储和交互性而备受青睐。这种工具链的分裂导致研究者在不同平台间切换时，常常面临数据格式转换的难题。尽管已有如 SeuratDisk 等 R 包尝试解决 Seurat 对象和 H5ad 文件之间的转换问题，但在实际操作中，用户常常遭遇各种报错，转换步骤也相对繁琐。一些研究者可能尝试手动提取、保存关键数据（如表达矩阵、细胞元数据、降维信息），再在目标环境中重新组装，这种方法不仅效率低下，而且极易在过程中丢失重要信息或引入错误，违背了高效分析的初衷。

scKidney：为简化分析流程而生

scKidney R 包的开发是为了简化单细胞分析和处理过程中的代码与步骤，scKidney 不仅仅局限于格式转换，它还集成了一系列旨在简化标准分析流程的功能模块，例如用于数据质控的 KidneyQC、辅助选择最佳主成分（PC）数量的 KidneyPC，以及便捷去除双细胞的 KidneyDoublet 和辅助肾脏细胞类型注释的 KidneyCell 等。本文将重点介绍 scKidney 在解决 Seurat 与 H5ad 对象互换这一核心痛点上的解决方案。

kidneyH5: 从 Seurat 到 H5ad 的一键转换

当在 R 环境中完成 Seurat 对象的初步处理或分析，并希望将其导入 Python 生态系统（例如使用 Scanpy 或其他基于 AnnData 的工具）时，kidneyH5 函数提供了极为便捷的途径。

安装与使用：

代码语言：javascript代码运行次数：0运行复制

# 如果尚未安装 devtools，请先安装
# install.packages("devtools")
devtools::install_github("746443qjb/scKidney")
library(scKidney)

# 假设您的 Seurat 对象名为 seurat_object
# 指定输出的 H5ad 文件路径
output_h5ad_path <- "my_analysis_data.h5ad"

# 运行转换函数
kidneyH5(seurat_object, output_h5ad_path)

关键说明：

一行代码搞定：正如示例所示，转换过程的核心调用非常简洁。
基于 Seurat v5： kidneyH5 函数是基于 Seurat v5 版本的数据结构设计的。Seurat v5 引入了多层（Layers）结构来管理不同的数据矩阵（如 counts, data, scale.data）。在转换前，强烈建议（通常是必须）先运行 JoinLayers 函数，将您需要保留在 H5ad 文件中的主要数据层（通常是原始 counts 矩阵）整合，以确保数据被正确导出。
保留核心信息：该函数主要设计用于转移对象的原始 count 矩阵 (counts layer)、细胞元数据 (meta.data) 以及主要的降维结果（如 PCA, UMAP, tSNE）。
需重新处理的操作：转换后的 H5ad 文件主要包含原始表达谱。因此，在 Python 环境中加载此 H5ad 文件后，数据的标准化（Normalization）、特征选择（Feature Selection）以及数据缩放（Scaling）等依赖于特定分析流程的步骤通常需要重新进行。

scSeurat：从 H5ad 到 Seurat 的无缝导入

反之，当你有一个 H5ad 格式的文件（可能来自于 Python 环境的处理结果，或公共数据集），并希望利用 R/Seurat 的强大功能进行下游分析或可视化时，scSeurat 函数同样提供了一行代码的解决方案。

使用方法：

代码语言：javascript代码运行次数：0运行复制

# 假设您的 H5ad 文件路径为 h5ad_path
h5ad_path <- "path/to/your/data.h5ad"

# 运行转换函数
sce <- scSeurat(h5ad_path)

# 'sce' 现在是一个加载了 H5ad 文件数据的 Seurat 对象
# 您可以在 R 环境中继续使用 sce 进行分析

关键说明：

便捷加载： 只需提供 H5ad 文件的路径，函数即可将其加载并转换为 R 环境中的 Seurat 对象。
数据内容：与 kidneyH5 类似，scSeurat 主要导入 H5ad 文件中的原始表达矩阵（通常存储在 .X 或特定 layer）、细胞注释信息 (.obs) 以及降维嵌入坐标 (.obsm)。
后续步骤： 加载得到的 Seurat 对象同样需要进行后续的标准化、缩放等 Seurat 标准流程中的预处理步骤，才能进行差异表达分析、聚类等下游任务。

KidneyDoublet: 简化双细胞去除流程

双细胞（Doublets）是单细胞测序实验中常见的技术性误差，会对下游分析造成干扰。虽然已有如 DoubletFinder 等成熟的工具用于识别和过滤双细胞，但它们的使用往往涉及多个参数调整和中间步骤，过程相对繁琐。scKidney 包中的 KidneyDoublet 函数旨在简化这一过程，它封装了 DoubletFinder 的核心功能，提供更直接的调用方式。

代码语言：javascript代码运行次数：0运行复制

# 假设 your_seurat_object 是已经过初步质控和降维的 Seurat 对象
# pcs 是您选择用于分析的主成分数量
pcs <- 1:20 # 示例值
# rate 是预估的双细胞比例（例如，8% 对应 rate = 8）
# select 控制筛选严格程度，"high" 表示优先移除可能性高的细胞
seurat_filtered <- KidneyDoublet(seurat = your_seurat_object, PC = pcs, rate = 8, select = "high")

# seurat_filtered 是去除预估双细胞后的 Seurat 对象

通过调整 rate（预估的双细胞比率）和 select（筛选阈值，如 "high" 或 "low" 可能对应不同的 pANN 值阈值）参数，用户可以便捷地控制双细胞的去除强度，快速获得过滤后的 Seurat 对象用于后续分析。

结论与展望

scKidney R 包通过提供 kidneyH5 和 scSeurat 函数，极大地简化了单细胞分析中 Seurat 对象与 H5ad 文件之间的相互转换，有效解决了 R 与 Python 生态系统间的数据流通障碍。同时，其集成的 KidneyDoublet 等功能也进一步降低了执行标准分析步骤（如双细胞去除）的复杂度。这使得研究者能够更专注于生物学问题的探索，而非陷入繁琐的数据格式处理和代码调试中。

展望未来，scKidney 包的开发者计划进行更新：

更名：考虑到包的功能已超越肾脏数据分析的范畴，未来可能采用更具通用性的名称，以避免用户误解。
拓展空间转录组学：将加入对空间转录组数据的支持，实现空间数据在 Seurat 和 H5ad 格式间的便捷转换。
增强可视化：引入基于 ggplot2 的全新空间转录组可视化功能，提供更灵活、美观的数据展示方式。

我们鼓励对简化单细胞（及未来空间转录组）分析流程感兴趣的研究者尝试使用 scKidney 包，并期待其在未来的版本中带来更多便捷实用的功能。

*以上文章部分内容来自卿剑波老师投稿，特此鸣谢！

卿剑波，Renal failure杂志副主编，浙江大学博士，主要从事肾脏病单细胞及空间多组学研究。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2025-04-15，如有侵权请联系 cloudcommunity@tencent 删除可视化数据对象工具函数

科技改变生活-雨落星辰 - 所有的伟大,都源于一个勇敢的开始

单细胞分析