既知の疾患関連変異の大部分はヒトゲノムのタンパク質コード領域に存在します。ヒトエクソームシーケンスはコード領域だけをターゲットにし、ヒト全ゲノムよりも費用対効果の高い方法です。単一遺伝子疾患、複雑な疾患、がん研究もしくは人口学においても、高品質なデータをお約束します。
データ解析には以下の内容が含まれます。・データQC・参照ゲノム配列へのアライメント・SNP/lnDelの検出・発がん部位と体細胞の異なるSNP/lnDelの検出・統計とアノテーションです。
解析にはBWA、SAMtools、GATKなど世界的に認知度の高いソフトウェアを使用します。
バイオインフォマティクス解析はExome Aggregation Consortium(ExAC)でアノテーションします。ExACデータベースは、色々なゲノムプロジェクトのデータを統合し、60,706名の個人ゲノムデータがあります。このような大人数規模のデータベースは、病因の研究を大いに促進します。