完整人类基因组的初稿发表在《自然》杂志上。

人类基因组是一套完整的人类核酸序列,编码为细胞核中 23 对染色体中的 DNA 和单个线粒体内发现的小 DNA 分子中的 DNA。这些通常被分别视为核基因组和线粒体基因组。人类基因组包括蛋白质编码 DNA 基因和非编码 DNA。包含在生殖细胞中的单倍体人类基因组(受精前有性生殖的减数分裂阶段产生的卵子和精子配子细胞)由 30 亿个 DNA 碱基对组成,而二倍体基因组(在体细胞中发现)有两倍DNA 含量。虽然人类个体的基因组之间存在显着差异(由于单核苷酸变异约为 0.1%,而考虑插入缺失时约为 0.6%),但这些差异远小于人类与其最近的近亲(倭黑猩猩和倭黑猩猩)之间的差异。黑猩猩(约 1.1% 固定单核苷酸变体和 4% 包括插入缺失)。虽然人类基因组的序列已(几乎)完全由 DNA 测序确定,但尚未完全了解。大多数(尽管可能不是全部)基因已通过高通量实验和生物信息学方法的组合进行鉴定,但仍需要做大量工作以进一步阐明其蛋白质和 RNA 产物的生物学功能。最近的研究结果表明,基因组中的大部分非编码 DNA 都具有相关的生化活动,包括基因表达的调节、染色体结构的组织和控制表观遗传的信号。

在获得全基因组序列之前,对人类基因数量的估计在 50,000 到 140,000 之间(偶尔不清楚这些估计是否包括非蛋白质编码基因)。随着基因组序列质量和识别蛋白质编码基因方法的改进,识别的蛋白质编码基因数量下降到 19,000-20,000 个。然而,更全面地了解不编码蛋白质而是表达调控 RNA 的序列所起的作用,已将基因总数提高到至少 46,831 个,再加上另外 2300 个 micro-RNA 基因。到 2012 年,已经注意到既不编码 RNA 也不编码蛋白质的功能性 DNA 元件。 2018 年的一项人口调查发现另外 3 亿个人类基因组碱基不在参考序列中。蛋白质编码序列仅占基因组的极小部分(约 1.5%),其余与非编码 RNA 相关基因、调控 DNA 序列、LINE、SINE、内含子和尚未确定其功能的序列。