La première ébauche du génome humain complet est publiée dans Nature.
Le génome humain est un ensemble complet de séquences d'acides nucléiques pour les humains, codées sous forme d'ADN dans les 23 paires de chromosomes dans les noyaux cellulaires et dans une petite molécule d'ADN trouvée dans les mitochondries individuelles. Ceux-ci sont généralement traités séparément comme le génome nucléaire et le génome mitochondrial. Les génomes humains comprennent à la fois des gènes d'ADN codant pour des protéines et de l'ADN non codant. Les génomes humains haploïdes, qui sont contenus dans les cellules germinales (les gamètes des ovules et des spermatozoïdes créés dans la phase de méiose de la reproduction sexuée avant que la fécondation ne crée un zygote) se composent de trois milliards de paires de bases d'ADN, tandis que les génomes diploïdes (présents dans les cellules somatiques) ont deux fois le contenu en ADN. Bien qu'il existe des différences significatives entre les génomes des individus humains (de l'ordre de 0,1 % en raison de variants mononucléotidiques et de 0,6 % en considérant les indels), celles-ci sont considérablement plus petites que les différences entre les humains et leurs plus proches parents vivants, les bonobos et les chimpanzés (~1,1 % de variants mononucléotidiques fixes et 4 % en incluant les indels). Bien que la séquence du génome humain ait été (presque) complètement déterminée par séquençage de l'ADN, elle n'est pas encore entièrement comprise. La plupart des gènes (mais probablement pas tous) ont été identifiés par une combinaison d'approches expérimentales et bioinformatiques à haut débit, mais il reste encore beaucoup à faire pour élucider davantage les fonctions biologiques de leurs produits protéiques et ARN. Des résultats récents suggèrent que la plupart des vastes quantités d'ADN non codant dans le génome ont des activités biochimiques associées, notamment la régulation de l'expression génique, l'organisation de l'architecture chromosomique et des signaux contrôlant l'hérédité épigénétique.
Avant l'acquisition de la séquence complète du génome, les estimations du nombre de gènes humains variaient de 50 000 à 140 000 (avec un flou occasionnel quant à savoir si ces estimations incluaient des gènes codant non protéiques). Au fur et à mesure que la qualité de la séquence du génome et les méthodes d'identification des gènes codant pour les protéines s'amélioraient, le nombre de gènes codant pour les protéines reconnus est tombé à 19 000-20 000. Cependant, une meilleure compréhension du rôle joué par les séquences qui ne codent pas pour les protéines, mais expriment plutôt l'ARN régulateur, a porté le nombre total de gènes à au moins 46 831, plus 2 300 autres gènes de micro-ARN. En 2012, des éléments d'ADN fonctionnels qui ne codent ni pour l'ARN ni pour les protéines ont été notés. Une enquête de population de 2018 a trouvé 300 millions de bases supplémentaires du génome humain qui ne figuraient pas dans la séquence de référence. Les séquences codant pour les protéines ne représentent qu'une très petite fraction du génome (environ 1,5 %), et le reste est associé à de l'ARN non codant. des gènes, des séquences d'ADN régulatrices, des LINE, des SINE, des introns et des séquences pour lesquelles aucune fonction n'a encore été déterminée.