معلومة

ما هو الفرق بين محاذاة التسلسل المعتمد على القراءة والقراءة؟

ما هو الفرق بين محاذاة التسلسل المعتمد على القراءة والقراءة؟


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أحاول فهم الفرق بين المحاذاة القائمة على القراءة والمحاذاة القائمة على contig. تشير المحاذاة القائمة على contig إلى تجميع de novo ومن ثم يتم محاذاة إلى جينوم مرجعي. أنا في حيرة من أمري أنه إذا كنت قد قرأت المحاذاة القائمة ، فما هي أهمية محاذاة contigs على المرجع.


لم أسمع مطلقًا بمصطلح "المواءمة القائمة على contig" ، وسؤالك هو النتيجة الوحيدة من Google لهذا الاستعلام الدقيق (بصرف النظر عن طلب براءة الاختراع لعام 2012).

ومع ذلك ، وبدون معرفة السياق الدقيق ، أفترض أنك على حق بشكل أساسي: ربما تشير المحاذاة القائمة على التواصل إلى من جديد تجميع القراءات في contigs ، والتي يتم محاذاتها بعد ذلك في سقالة باستخدام مرجع.


مقارنات بين SRST2 و ARIBA و KmerResistance

SRST2 1 و ARIBA 2 و KmerResistance (خدمة الويب ، الكود) 3 هي ثلاثة أجزاء مستخدمة على نطاق واسع من البرامج المستقلة للكشف عن الجينات المستهدفة في الجينوم البكتيري المعتمد على القراءة. تم نشر SRST2 في عام 2014 ، وتم التعرف عليه باعتباره الرائد بين هذه الأدوات الثلاث 2 ، 3. في هذا المنشور ، أقارن المنهجيات الكامنة وراء هذه الأدوات بطريقة موجزة لإلقاء الضوء على اختيار البرنامج المناسب للكشف عن الجينات. على وجه الخصوص ، أفترض هنا أن اكتشاف محددات مقاومة مضادات الميكروبات هو حالة الاستخدام الوحيدة. في حالة عدم تحديد إصدارات البرامج المشار إليها في هذا المنشور هي: SRST2 v0.2.0 و ARIBA 2.14.4 و KmerResistance v2.2.


خلفية

علم الميتاجينوميات هو نهج قوي وسريع التطور يمكن استخدامه لكشف التنوع الميكروبي غير المستنبت وتوسيع شجرة الحياة ، وإعطاء رؤى بيولوجية جديدة للميكروبات التي تعيش في بيئات غير مستكشفة [1]. عند تطبيقها على كل من الجهاز الهضمي للكلاب (GI) والميكروبيوم البرازي ، توفر الميتاجينوميات معلومات عن الصحة والمرض بالإضافة إلى أدلة أساسية حول كيفية الوقاية من أمراض معينة أو علاجها.

أفادت دراسات سابقة عن وجود أوجه تشابه بين ميكروبيوم الجهاز الهضمي البشري والكلاب. بشكل عام ، ترتبط أمراض الجهاز الهضمي المختلفة بميكروبيوم الجهاز الهضمي المتغير والذي ، من ناحية أخرى ، يمكن تعديله عن طريق النظام الغذائي والمكملات الغذائية (مثل البروبيوتيك) (انظر [2،3،4،5] للحصول على مراجعات شاملة) . إلى جانب الاهتمام البيطري نفسه ، تعتبر الكلاب نماذج أقرب للإنسان من النماذج الحيوانية الأخرى لدراسات ميكروبيوم الجهاز الهضمي [6 ، 7].

تكون دراسات الميكروبيوم في الغالب إما خاصة بعلامة (على سبيل المثال ، جين 16S rRNA للبكتيريا) أو تسلسل ميتاجينوم كامل [8]. حتى الآن ، تستخدم دراسات الميكروبيوم الكلبي المتاحة تسلسل الجيل التالي - تسلسل قصير القراءة - أو تقنيات سابقة وهي في الغالب استراتيجيات مبنية على الأمبليكون (جين الرنا الريباسي 16S). استخدمت ثلاث دراسات فقط ميتاجينوميات البندقية مع تسلسل قصير القراءة لوصف المجتمع الميكروبي بأكمله ومحتوى الجينات في براز الكلاب [7 ، 9 ، 10].

يتيح تطبيق التسلسل طويل القراءة على علم الميتاجينوميات استرجاع الجينومات المجمعة للميتاجينوم (MAGs) مع اكتمال عالٍ. تستخدم أحدث استراتيجية في علم الميتاجينوميات طويلة القراءة القراءات الطويلة للحصول على مجموعة الميتاجينوم المسودة - التي تضمن أكبر قدر من التلامس بين MAGs - والقراءات القصيرة لتلميع وتحسين الدقة الكلية. تم تطبيق هذه الإستراتيجية لتقييم ميكروبيوم الجهاز الهضمي البشري [11] ، من بين أمور أخرى - مثل المجتمعات الوهمية [12] ، أو كرش البقر [13] ، أو مزارع مصل اللبن الطبيعية [14] ، أو مياه الصرف الصحي [15]. تجدر الإشارة إلى أن بعض المؤلفين يقترحون أننا قد نتغلب على الحاجة إلى قراءات قصيرة لتلميع البيانات طويلة القراءة إما باستخدام برامج التصحيح ، مثل التصحيح المدرك لتغيير الإطارات [16] ، أو بتغطية عميقة جدًا للجينومات [12] .

في عملنا السابق ، استخدمنا metagenomics طويلة القراءة لتقييم التصنيف والوصول إلى تحديد الأنواع على الميكروبيوم البرازي للكلاب. على الرغم من أننا استخدمنا نهج التسلسل منخفض العمق ، فقد قمنا بتجميع كونتيج دائري يتوافق مع ملف غير مثقف CrAssphage [17].

في هذه الدراسة ، نستخدم الميتاجينوميات طويلة القراءة ذات المسام النانوية والتصحيح المدرك لتغيير الإطارات للتغلب على الحاجة إلى التلميع بقراءات قصيرة. نتيجة لذلك ، نقوم باستعادة ثمانية مجموعات مجهرية عالية الجودة وتمييزها واكتساب رؤى بيولوجية جديدة في ميكروبيوم براز الكلب.


نتائج

التنوع الجيني والخصائص السكانية

قمنا بجمع بيانات إعادة تسلسل الحمض النووي لعام 1961 لقطن لتحليل التباين الجيني بمتوسط ​​عمق

14.8 × لكل [3،4،5،6 ، 16 ، 33 ، 34]. بعد التخلص من المدخلات المكررة ، تم استخدام إجمالي 1913 مدخلات قطنية لتحليل SNP و InDel ، والتي تضمنت 256 G. هيرسوتوم السلالات المحلية (Ghlandraces) ، تحسين 438 G. هيرسوتوم أصناف من الولايات المتحدة الأمريكية ودول أخرى (GhImpUSO) ، تم تحسين 929 G. هيرسوتوم أصناف من الصين (GhImpCHN) ، 261 باربادنس و 29 أخرى جوسيبيوم الأنواع التي تم استخدامها كمجموعة خارجية (ملف إضافي 1: الجدول S1). قمنا بمحاذاة هذه البيانات مع الجينوم المرجعي لـ G. هيرسوتوم acc. "TM-1" [12] وحدد 63،084،975 SNPs و 12،354،432 إدخالًا أو حذفًا صغيرًا (طول InDels ≤ 20 نقطة أساس) ، حيث تتضمن مجموعة بيانات التباين الأساسية 19،246،497 SNPs و 4،815،125 InDels مع تردد أليل ثانوي (MAF) 0.01 وأكثر من خمسة مُدخلات لها اختلافات متماثلة اللواقح (الجدول 1 ، ملف إضافي 1: الجداول S2-S6 ، ملف إضافي 3). استنادًا إلى بيانات SNP الأساسية ، قمنا بالتحقيق في التركيب السكاني لـ G. هيرسوتوم و باربادنس. أظهر تحليل الشجرة المجاورة للانضمام إلى عام 1913 تصنيفًا إلى 12 شريحة. G. هيرسوتوم مُدخلات من 8 طبقات ، باربادنس تشكل المدخلات 3 طبقات ، وتشكل الأنواع الأخرى كليدًا واحدًا (الشكل 1 أ ، ملف إضافي 2: الشكل S1). أظهر تحليل السكان ذلك باربادنس تم فصل المدخلات من G. هيرسوتوم السلالات الأرضية ، GhImpUSO و GhImpCHN (الشكل 1 ب ، ج ملف إضافي 2: الشكل S2). G. هيرسوتوم تنوع النوكليوتيدات (π) تقدر بـ 1.07 × 10 - 3 في السلالات ، 3.74 × 10 - 4 في GhImpUSO ، 3.34 × 10 - 4 في GhImpCHN ، و 1.01 × 10 - 3 في باربادنس (ملف إضافي 2: الشكل S3) ، مشابه للدراسات الحديثة في القطن [3 ، 4 ، 5 ، 6 ، 34] (الشكل 1 د).

التركيبة السكانية والتنوع الجيني في G. هيرسوتوم و باربادنس الانضمام. أ تم إنشاء شجرة النشوء والتطور غير الموزونة التي تربط الجار لـ 1913 من مدخلات القطن على أساس 20000 تعدد الأشكال العشوائي من تعدد الأشكال الأساسي. ال G. tomentosum (ميلادي3), G. mustelinum (ميلادي4), G. darwinii (ميلادي5), G. ekmanianum (ميلادي6), G. stephensii (ميلادي7) من الأنواع الرباعية الصبغية ، أربوريوم2) و G. davidsonii3-د) من الأنواع ثنائية الصيغة الصبغية بمثابة مجموعة خارجية. ب مخطط تحليل المكون الرئيسي (PCA) للمكونين الأولين لجميع المدخلات. ج تحليل هيكل جميع مدخلات القطن بأعداد مختلفة من العناقيد ك = 6 و ك = 12 (ك = 12 هي القيمة المثلى). ال x- يسرد المحور الأنواع الخارجية (الرمادي) ، باربادنس (أزرق)، G. هيرسوتوم مداخل الأرض (برتقالي) ، و G. هيرسوتوم تحسين المدخلات (الخضراء) على التوالي ، و ذ- يحدد المحور التنوع الجيني في كل سلالة. يتم عرض نتائج الهيكل الأخرى في الملف الإضافي 2: الشكل S2. د تنوع النوكليوتيدات (π) وتباعد مؤشر التثبيت (Fش) عبر المجموعات الخمس. ه عدد عمليات الحذف ، والازدواجية ، والانعكاسات ، والانتقالات في خمسة مجموعات (اختبار تصنيف ويلكوكسون على الوجهين للمجموعات المجاورة ، ص & lt 0.001). كل عقدة تمثل سلالة واحدة. في هذا التحليل ، تم عرض عدد SVs مع الجينوم المرجعي TM-1

استخدمنا 742 قطعة قطن بعمق تسلسل عالٍ (GT 10 ×) مقابل G. هيرسوتوم الجينوم المرجعي "TM-1" (ملف إضافي 1: الجدول S1 ملف إضافي 3) وحدد 32،099 عملية حذف و 7576 تكرارًا و 1112 انعكاسًا و 357 ترجمة (ملف إضافي 1: الجدول S7). يوجد عدد أكبر من SVs في Ghlandrace من مجموعتي GhImpUSO و GhImpCHN (الشكل 1 هـ). بالإضافة إلى ذلك ، تم تحديد 173،166 (MAF 0.01) اختلافًا في رقم النسخ (CNVs) في 742 مُدخلًا ، بما في ذلك 82،431 في السلالات الأصلية ، و 59،309 في GhImpUSO ، و 38،057 في مجموعة GhImpCHN (ملف إضافي 1: الجدول S8). أظهرت الخصائص الجينية للسكان للتنوعات في عدد النسخ في 742 مدخلًا ذلك G. هيرسوتوم تم فصل السلالات الأصلية بوضوح عن المدخلات المحسّنة ، على غرار النتيجة المستندة إلى SNP ، ولكن تم تجميعها مع مدخلات GhImpUSO و GhImpCHN (ملف إضافي 2: الشكل S4). تشير هذه النتائج إلى أن CNVs عالية الثقة لها تباعد قوي بينها G. هيرسوتوم الأراضي وتحسين عدد السكان ويمكن استخدامها لاكتشاف مواقع السمات الكمية المعقدة (QTLs). توفر مجموعة البيانات المتغيرة الشاملة هذه موردًا جينيًا لعلم الوراثة السكانية للقطن ، وتحليل التدجين ، وتحديد الأليل الزراعي (ملف إضافي 2: الشكل S5).

دليل على الاختلاف الجيني أثناء التدجين والتحسين

تنشأ السمات المتعلقة بالتدجين من التباين الجيني المختار في الأنواع البرية ، مما يؤثر على حجم البذور ، ووقت الإزهار ، والمحصول ، والجودة ، وتكيف المحاصيل [35 ، 36 ، 37]. لتحديد إشارات الاختيار المحتملة أثناء تدجين القطن ، قمنا بمسح الاختلافات الجينية مع تمايز تردد الأليل في تنوع النيوكليوتيدات من خلال مقارنة كل مجموعة مزروعة بمجموعتها البرية المقابلة. حددنا 76 منطقة اكتساح تدجين (DSRs) باستخدام πسلالة/ πمحسّن (نسبة ≥ 15) وطريقة احتمالية (XP-CLR ، أعلى 5٪) (ملف إضافي 2: الشكل S6a) ، تشغل 66.8 ميجا بايت في الجينوم الفرعي A و 51.4 ميجا بايت في جينوم D المرتبط بـ 837 و 1272 جينًا ، بما في ذلك 274 أزواج الجينات المتماثلة (الشكل 2 أ). مقارنة بالدراسات السابقة مع أعداد صغيرة من المُدخَلات [3،4،5] ، حدد تحليل اختيار التدجين 31 DSR جديدًا تشغل 43.6 ميجا بايت (ملف إضافي 1: الجدول S9). تم التعبير عن بعض الجينات المستأنسة المعروفة والمتعلقة بالألياف بشكل تفاضلي بين السلالات البرية / السلالات المحلية والأصناف المحسّنة (ملف إضافي 2: الشكل S6b ، c). كانت الجينات المختارة للتدجين متورطة في استجابة الإجهاد وتنظيم جدار الخلية وحمض الياسمين والإيثيلين وعملية إيقاع الساعة البيولوجية (ملف إضافي 2: الشكل S7). قد يساعد التلاعب الإضافي بهذه الجينات في مسار الهرمونات النباتية ومسار الاستجابة للضغط في توضيح دورها التنظيمي المفترض في تحسين جودة الألياف والتكيف البيئي أثناء تدجين القطن [3 ، 38 ، 39]. حددنا أيضًا 120 ميجا بايت (πغيمبوسو/ πغيمبشن ≥ 2) مع إشارات التحسين ، بما في ذلك 1006 جينات مختارة في الجينوم الفرعي A و 2369 في الجين الفرعي D مع 353 زوجًا من الجينات المتماثلة (الشكل 2 أ ، ملف إضافي 2: الشكل S6d) ، و 79.5٪ (95.4 ميجا بايت) من مناطق اختيار التحسين لم يتم تحديدها مسبقًا [5] (ملف إضافي 1: الجدول S10). من الجدير بالملاحظة أن 19 ميجا بايت من التسلسل تم فحصه بكل من إشارات التدجين والتحسين ، حيث يحتوي جينوم D (441 جينًا) على جينات أكثر من جينوم A (50 جينًا) (ملف إضافي 1: الجدول S11). تشير هذه البيانات إلى أن الجينوم الفرعي D لديه إشارات اختيار أقوى تستند إلى SNP في كل من عمليات التدجين والتحسين.

تباين متعدد المقاييس للاختلاف الجيني الفرعي و GWAS على الصفات الزراعية أثناء تدجين القطن. أ مخطط السيروس يعرض إشارات الاختيار المستندة إلى SNP و SV و QTLs أثناء تدجين القطن وتحسينه. تم حساب منطقة التحديد في نافذة منزلقة 1 ميجا بايت بحجم خطوة 200 كيلو بايت. I-VIII ، مخطط السيروس من المسارات الخارجية إلى المسارات الداخلية تظهر كثافة الجينات (I) ، snpQTLs (II) ، cnvQTLs (III) ، نسبة تنوع النوكليوتيدات (π) استنادًا إلى تعدد الأشكال بين 256 سلالة و 1364 مدخلات محسنة للتدجين (IV) ) ، ونسبة تنوع النوكليوتيدات (π) استنادًا إلى تعدد الأشكال بين 438 مدخلات GhImpUSO و 929 مدخلات GhImpCHN للتحسين (V) ، والفرق النسبي SV allele في المقارنات بين السلالة والمدخلات المحسّنة (VI) ، وبين GhImpUSO و GhImpCHN ( السابع). المسار (الثامن) يمثل المتماثل المستأنسة. تمثل الألواح العلوية والسفلية (VI) فرق أليل الحذف والازدواجية ، على التوالي. تم تحديد snpQTLs باستخدام التحليل التلوي GWAS لـ 890 مدخلات قطن. تُظهر الدائرة الخارجية لمؤامرة السيروس الخط البنفسجي والأصفر snpQTLs (psnpQTLs) و cnvQTLs متعدد الاتجاهات (pcnvQTLs) ، على التوالي. ب - ط إشارات انتقائية لتغيرات عدد النسخ (CNVs) بين A (ب) و D (F) الجينوم الفرعي أثناء التدجين. تُظهر الخطوط الأفقية المتقطعة باللون الرمادي عتبة إشارة التدجين مع نسبة تنوع النوكليوتيدات بين البرية / البرية ومدخلات القطن المحسّنة (πسلالة/ πمحسّن & GT 200). ج – هـ و g – i يتم عرض ست ضربات GWAS المستندة إلى CNV والتي تتداخل مع إشارات اختيار التدجين لمؤشر البذور (SI) (ج) ، طول الألياف (FL) (د) ، وزن اللوز (BW) (ه) ، وتوحيد الألياف (FU) (ز) ، استطالة الألياف (FE) (ح) ، وتاريخ الإزهار (FD) (أنا). كانت عتبة سطر cnvQTL هي -log10 ف = 4.4 أظهرت قطعة الكمان تباينًا ظاهريًا مع التركيب الوراثي لـ CNV الرئيسي. توضح الأرقام الموجودة في قطعة الكمان عدد المدخلات لكل نسخة. تم حساب فرق الأهمية باختبار تصنيف ويلكوكسون على الوجهين (**ص & lt 0.01 ، *ص & lt 0.05)

التدجين هو محرك لاختلاف تردد أليل CNV بين المجموعات البرية / البرية والمستأنسة [37]. في المجموع ، تم تحديد 286 منطقة قائمة على CNV غير زائدة عن الحاجة بإشارات اختيار أثناء تدجين القطن ، والتي تضم 297 ميجا بايت في الجينوم الفرعي A (الشكل 2 ب) و 105 ميجا بايت في جينوم D الفرعي (الشكل 2f). حوالي 55٪ (65 ميجا بايت من 118 ميجا بايت) من إشارات التوطين المستندة إلى SNP تداخلت مع عمليات مسح التوطين القائمة على CNV (ملف إضافي 1: الجدول S12). في المجموع ، تم تحديد 217 منطقة CNV بإشارات اختيار التحسين ، والتي تضم 156 ميجا بايت في الجينوم الفرعي A و 133 ميجا بايت في جينوم D. حوالي 44٪ (52 ميجا بايت من 120 ميجا بايت) من إشارات التحسين المستندة إلى SNP تداخلت مع إشارات التحسين المستندة إلى CNV (ملف إضافي 1: الجدول S13). في المجموع ، حددنا 329 ميجا بايت (تغطي 6339 جينًا) من التسلسلات في الجينوم الفرعي A و 127 ميجا بايت (4955 جينًا) في جينوم D مع إشارات التدجين المستندة إلى SNP و CNV. يحتوي إجمالي 173 ميجا بايت (5526 جينًا) و 184 ميجا بايت (8405 جينًا) من التسلسلات على إشارات تحسين في الجينوم الفرعيين A و D. يمكن أن يؤدي تحديد إشارات الاختيار أثناء التدجين والتحسين إلى تسهيل تحديد المواقع الجينية للسمات الزراعية المهمة.

لتحديد QTLs لإشارات الاختيار المرتبطة بالسمات الزراعية ، أجرينا تحليلًا تلويًا لدراسة الارتباط على مستوى الجينوم (GWAS) لـ 890 G. هيرسوتوم مُدخلات من ثلاث حالات تجريبية مستقلة ذات بيئات متعددة (ملف إضافي 3) [3 ، 5 ، 6]. باستخدام البيانات الوراثية لـ 2،291،437 تعدد الأشكال عالي الجودة مع MAF 0.05 في 890 من المُدخلات ، حددنا 2952 تعدد أشكال تعدد الأشكال (0.05 / 2،291،437) ص & lt 2.18 × 10 - 8) المرتبطة بجودة الألياف. بعد التصفية الصارمة ، تم تحديد 91 من QTLs الرئيسية المتعلقة بالألياف ، بما في ذلك 11 لطول الألياف (FL) ، و 17 لاستطالة الألياف (FE) ، و 15 لقوة الألياف (FS) ، و 19 لتوحيد طول الألياف (FU) ، و 10 للألياف ميكرونير (FM) ، 7 لنضج الألياف (MAT) ، و 12 لمؤشر تناسق الغزل (SCI) (ملف إضافي 1: الجدول S14 وملف إضافي 2: الشكل S8). حددنا أيضًا 31 QTL ذات الصلة بالإنتاجية و 3 تواريخ الإزهار (FD). في المجموع ، تم تحديد 125 من QTLs الرئيسية مع 4751 جينًا مرشحًا لـ 15 سمة زراعية ، حيث كان 78 منها متسقًا مع الدراسات السابقة [3 ، 5 ، 6 ، 15 ، 40 ، 41] وتم اكتشاف 47 أخرى مؤخرًا في التحليل التلوي ( ملف إضافي 1: الجدول S14). في 125 QTLs ، يحتوي 14 منها على إشارات اختيار أثناء التدجين والتحسين (ملف إضافي 1: الجدول S15). بالإضافة إلى ذلك ، أظهر واحد وعشرون موقع QTL تأثيرات متعددة الاتجاهات على جودة الألياف والمحصول وتاريخ الإزهار (الشكل 2 أ ، ملف إضافي 1: الجدول S16). على سبيل المثال ، تعتبر نسبة الوبر (LP) ، ووزن الألياف لكل لوزة (FWPB) ، ومؤشر الوبر (LI) من مكونات سمة العائد ، مع ترجمة QTLs الرئيسية على الكروموسوم D02 (ملف إضافي 2: الشكل S9a). تحتوي LP و FD وفترة النمو الكاملة (WGP) لسمات وقت الإزهار على QTLs في موقع مشترك على الكروموسوم D03 (ملف إضافي 2: الشكل S9b).

ركزنا على QTLs الجديدة المتعلقة باستطالة الألياف التي تم تحديدها في meta-GWAS. تم وضع QTL جديد (mqFE253) على كروموسوم D05 (عند 11.3-12.5 ميجا بايت من المنطقة الجينومية). تم توقع الجينات الـ 64 المرشحة من خلال دمج تحليل النمط الفرداني والتعبير الجيني والتعليق التوضيحي الوظيفي (ملف إضافي 2: الشكل S10). جين مرشح واحد (Ghir_D05G013680, GhIDD7) ، ترميز عامل نسخ غير محدد المجال 7 ، تم التعبير عنه بشكل تفاضلي في أربع مراحل تنموية للألياف (ملف إضافي 2: الشكل S10f). أظهرت المدخلات التي تمثل نمطين فرديين رئيسيين لمنطقة 5-UTR فرقًا كبيرًا في استطالة الألياف وطول الألياف (الملف الإضافي 2: الشكل S11a-b). بعد خروج المغلوب GhIDD7، كانت الألياف الناضجة أقصر بكثير من تلك الموجودة في النباتات البرية (25.8 ± 0.3 مقابل 27.1 ± 0.1) (ملف إضافي 2: الشكل S11c ، d ، e). أشارت هذه النتائج إلى ذلك GhIDD7 كان جينًا غير معهود سابقًا يساهم في سمة مرتبطة بجودة الألياف.

تحليل GWAS لـ 26831 CNV عالي الثقة (MAF 0.05) في 419 G. هيرسوتوم كشفت المدخلات عن 370 CNVs مهمًا لـ 50 QTLs (cnvQTLs) (ملف إضافي 1: الجدول S17) ، أظهر 5 منها تأثيرات متعددة الاتجاهات على كل من جودة الألياف وإنتاجية النسالة (الشكل 2 أ). ثلاثة عشر cnvQTLs متداخلة مع QTLs المستندة إلى SNP (snpQTLs) ، و 37 cnvQTLs الأخرى يتم تحديدها فقط بواسطة CNVs. من بين هذه cnvQTLs ، يوجد 15 تداخلًا مع عمليات مسح التدجين و 10 متداخلة مع إشارات اختيار التحسين (ملف إضافي 1: الجدول S18). تُظهر بيانات النمط الظاهري فرقًا كبيرًا في مدخلات القطن مع أعداد نسخ مختلفة من CNV الرصاص (الشكل 2c-e ، g-i ملف إضافي 2: الشكل S12). على سبيل المثال ، تم تحديد ارتباط مؤشر البذور (SI) مع إشارة التدجين على كروموسوم A06 (الشكل 2 ج). تم العثور على ارتباط طول الألياف (FL) بإشارة التدجين على كروموسوم A10 ، وكان FL بنسختين من النسخ المضاعفة أطول بكثير من ذلك مع أليل نسخة (مرجعية) 0 (ص & lt 0.01) (الشكل 2 د). تحتوي منطقة LD المرتبطة بـ CNV على 78 جينة ترميز مرشحة ، يشارك فيها البعض في تطوير ألياف القطن ، مثل UDP-glucose pyrophosphorylase 3 (Ghir_A10G024310, UGP3) وعامل النسخ الشبيه بـ AP2 / B3 (Ghir_A10G023950). يوضح مثال آخر ارتباط نضج الألياف (MAT) مع إشارة اختيار التحسين الموجودة على كروموسوم A12 (ملف إضافي 2: الشكل S13a ، b ، c). يحتوي هذا الارتباط على جين واحد مرشح لترميز xyloglucan endotransglucosylase / hydrolase 5 (Ghir_A12G008500, XTH5). في الجينوم الفرعي D ، تم العثور على ثلاثة cnvQTLs ذات إشارات اختيار قوية مرتبطة بـ FD و FWPB و FS على الكروموسومات D03 و D06 و D07 (ملف إضافي 2: الشكل S13d ، e ، f ، g). توفر هذه النتائج عددًا من مرشحات cnvQTL التي يمكن تطبيقها لزراعة الصفات المرغوبة في التربية المستقبلية.

عموم جينومات G. هيرسوتوم و باربادنس محيط

استخدمنا نهج التجميع الموجه بالمرجع [21] لبناء عموم الجينوم من G. هيرسوتوم و باربادنس. بيانات التسلسل 1581 G. هيرسوتوم (251 سلالة ، 424 GhImpUSO و 906 GhImpCHN) و 226 باربادنس تمت محاذاة المدخلات المحسّنة مع الجينوم المرجعي "TM-1" و "3–79" ، على التوالي [12]. حوالي 5800 مليون قراءة غير معيّنة من G. هيرسوتوم و 1127 مليون قراءة غير معيّنة من باربادنس كانت خاضعة لتجميع de novo (ملف إضافي 2: الشكل S14 ، S15) ، ينتج 5،047،083،790 نقطة أساس و 1،517،253،311 نقطة أساس من تسلسل contig على التوالي ، بحد أدنى للطول يبلغ 500 نقطة أساس (ملف إضافي 1: الجدول S19). بعد إزالة التكرارات ، 3704 ميغا بايت و 1422 ميغا بايت تسلسل غير مرجعي مع contig N50 من 1530 نقطة أساس (G. هيرسوتوم) و 1108 نقطة أساس (باربادنس) اجتاز جميع خطوات التصفية للجينومات غير المرجعية النهائية (ملف إضافي 1: الجدول S20). التسلسلات النهائية غير المرجعية 1041 ميجا بايت و 309 ميجا بايت بتنسيق G. هيرسوتوم و باربادنس مع طول كونتيج يزيد عن 1000 نقطة أساس تم استخدامها للتنبؤ بجينات ترميز البروتين (ملف إضافي 2: الشكل S16). حصلنا على 32.569 G. هيرسوتوم الجينات (65679 نسخة) و 8851 باربادنس الجينات (12076 نسخة) (ملف إضافي 1: الجداول S21-S22). الاخير G. هيرسوتوم عموم الجينوم (Ghpan-genome) هو 3388 ميجا بايت مع 102768 جينًا (2347 ميجا بايت مع 70199 جينًا في الجينوم المرجعي "TM-1") و باربادنس (جينوم Gbpan) هو 2575 ميجا بايت مع 80148 جينًا (2266 ميجا بايت مع 71،297 جينًا في الجينوم المرجعي "3–79") (ملف إضافي 2: الشكل S17).

تم التحقيق في تغطية جينوم Ghpan باستخدام قراءات PacBio من 10 مدخلات تمثيلية ، بما في ذلك G. هيرسوتوم يوكاتانين, G. hirsutum richmondi, G. هيرسوتوم موريلي من البرية / الأراضي ، Acala ، Paymaster 54 ، Stoneville 2B من مجموعة GhImpUSO ، و Simian 3 ، CRI 7 ، Xinluzao 42 ، و Xuzhou 142 من مجموعة GhImpCHN (ملف إضافي 1: S23-S25 ملف إضافي 2: الشكل S18 ). بعد تجميع de novo (ملف إضافي 3) ، تم تعيين أكثر من 93٪ من contigs المُجمَّع إلى الجينوم المرجعي TM-1. تمت محاذاة ما يقرب من 18.9 ميجا بايت من contigs غير المعين (إجمالي 641 ميجا بايت contigs من 10 مدخلات لم يتم تعيينها على الجينوم المرجعي TM-1) مع التسلسلات غير المرجعية لـ 1581 G. هيرسوتوم المدخلات (متوسط ​​طول التسلسل غير المرجعي هو

655 كيلو بايت 1041 ميجا بايت / 1581 ميجا بايت). تقدم التجميعات المستندة إلى PacBio دليلًا على تسلسل الجينوم غير المرجعي في G. هيرسوتوم، مما يشير إلى أن خط أنابيبنا لبناء عموم الجينوم يمكنه استرداد PAVs في مجموعة كبيرة من الأصول الوراثية. تم أيضًا التحقق من بعض PAVs عالية التردد بواسطة PCR في 23 عملية انضمام تمثيلية (ملف إضافي 2: الشكل S19).

بالنسبة إلى G. هيرسوتوم السكان ، قمنا بتعيين قراءات إعادة التسلسل مقابل 102،768 جينًا ، مما أدى إلى 17،100 جين (16.64 ٪ ، مفرد) في 561 مدخلات (عمق التسلسل & lt 5) و 85667 جينًا في 1020 مدخلات (العمق & gt 5). 1020 G. هيرسوتوم تشمل عمليات الوصول 63489 جينًا أساسيًا يتقاسمها الجميع G. هيرسوتوم المُدخلات ، 5941 (5.78٪) من الجينات اللينة في 990-1019 مُدخلات (97-100٪) ، 3803 (3.7٪) جينات صدفة في 11-989 مُدخلًا (1-97٪) ، و 12434 (12.1٪) غيوم في أقل من 10 مداخل (0-1٪) (الشكل 3 أ ، ب). بالنسبة إلى باربادنس عموم الجينوم ، الجينات المفردة 1536 حدثت فقط في 49 مدخل منخفض العمق. استخدمنا 78،612 جينًا عمومًا حدث في 177 مدخلًا لمزيد من تحليل PAV. 177 باربادنس تشمل المُدخَلات 68789 (85.8٪) من الجينات الأساسية ، 1796 (2.24٪) من الجينات اللينة في 172-176 مدخلًا (97-100٪) ، 5867 (7.32٪) جينات صدفة في 4-171 مدخلات (2–97٪) ، و 2160 (2.75٪) غيوم في أقل من 3 مُدخلات (0-2٪) (الشكل 3 ج ، د). تشير نمذجة حجم عموم الجينوم مع أخذ العينات العشوائي المتكرر إلى أن جينوم Ghpan يحتوي على متوسط ​​81،688 جينًا عمومًا ومتوسط ​​65،595 جينًا أساسيًا في 398 مُدخلًا (الشكل 3 هـ). يحتوي جينوم Gbpan على متوسط ​​78607 جينًا عمومًا و 69563 جينًا أساسيًا في 59 مُدخلًا لتشبع النمذجة (الشكل 3f). لذلك ، انخفض حجم الجينوم الأساسي وزاد عموم الجينوم مع زيادة حجم السكان. أظهر تحليل GO أن الجينات الأساسية كانت متورطة في عملية التمثيل الغذائي الخلوي والتطور ، في حين أن الجينات المتغيرة كانت متورطة في "الاستجابة الدفاعية" و "الاستجابة للإجهاد" و "نقل الإشارات في لياقة البيئة" (ملف إضافي 2: الشكل S20).

عموم جينومات G. هيرسوتوم و باربادنس محيط. أ عدد الجينات وتكرار الوجود في G. هيرسوتوم جينات عموم. يتوافق المخطط الدائري مع الجينات الأساسية (الموجودة في جميع الإضافات) والجينات الناعمة والصدفة والسحابة. تم استبعاد الجينات المفردة في المدخلات منخفضة العمق (& lt 5) لمزيد من تحليل PAV. تنقسم الجينات المتغيرة إلى جينات مرجعية وغير مرجعية في ملف إضافي 2: الشكل S17. ب 1020 G. هيرسوتوم أظهرت خريطة حرارة المدخلات وجود وغياب PAVs المتغير. ج عدد الجينات وتكرار الوجود في باربادنس جينات عموم. د 177 باربادنس أظهرت خريطة حرارة المدخلات وجود وغياب PAVs المتغير. ه ، و نمذجة منحنى التشبع زيادة حجم عموم الجينوم وانخفاض حجم الجينوم الأساسي في 1020 G. هيرسوتوم (ه) و 177 باربادنس (F). تم حساب شريط الخطأ بناءً على 1000 مجموعة عشوائية مع خمسة مكررات من جينومات القطن. تمثل الحواف العلوية والسفلية باللون الأرجواني والأحمر الحد الأقصى والحد الأدنى لعدد الجينات. تمثل الخطوط الصلبة عدد جينات المقلاة والجينات الأساسية

درسنا بعد ذلك الخصائص الجينومية للجينات الأساسية والمتغيرة بين الجينوم الفرعي A و D. الجينات الأساسية لديها مستويات تعبير أعلى من الجينات المتغيرة في كليهما G. هيرسوتوم و باربادنس (ملف إضافي 2: الشكل S21). ومن المثير للاهتمام ، أن الجينات المتغيرة الجينية الفرعية لديها مستويات تعبير أعلى من الجينات دون الجينية D (الشكل 4 أ). الجينات المتغيرة لها احتمالية إدراج TE المجاورة أعلى (2 كيلو بايت) من الجينات الأساسية ، خاصة بالنسبة للجينات الغجر فئة (ملف إضافي 2: الشكل S22). الجينات المتغيرة في الجينوم الفرعي D لها نسبة أعلى من تلك الموجودة في الجينوم الفرعي (الشكل 4 ب). أظهر تحليل الانتقاء التطوري أن عددًا أكبر من الجينات المتغيرة قد خضعت لانتقاء إيجابي أكثر من الجينات الأساسية في كليهما G. هيرسوتوم و باربادنس، وخاصة في الجينوم الفرعي D (الشكل 4 ج). علاوة على ذلك ، تحتوي الجينات المتغيرة على تنوع نيوكليوتيد أكبر من الجينات الأساسية ، والجينات الأكثر تنوعًا في الجين الفرعي D لها تنوع أعلى (ص & lt 0.001) (الشكل 4 د ، ملف إضافي 2: الشكل S23). أشارت هذه البيانات إلى أن الجينات المتغيرة الجينية الفرعية D لديها معدل تطوري أسرع من الجينات الفرعية الجينية.

مقارنة الجينات الأساسية والمتغيرة في الجينات الفرعية A و D. أ مستويات التعبير للجينات الأساسية والمتغيرة في G. هيرسوتوم و باربادنس. يتم تمثيل الجينات اللطيفة بواسطة "Soft". ب نسبة تردد إدخال العنصر القابل للنقل (TE) في المنبع 2 كيلو بايت من الجينات الأساسية والمتغيرة في الجينوم الفرعيين A و D. ج نسبة غير المرادف / المرادف (كأ/كس) طفرات الجينات الأساسية والمتغيرة. د تنوع الجينات الأساسية والمتغيرة SNP. تم إجراء مقارنة بين التعبير الجيني وتنوع الجينات TE و SNP بين الجينات الأساسية والمتغيرة باستخدام اختبار Kolmogorov-Smirnov على الوجهين (*ص & lt 0.05 **ص & lt 0.01 ، ***ص & lt 0.001)

اختيار PAV أثناء التدجين والتحسين

لإنشاء مشهد من PAVs الانتقائي بين الأراضي والقطن المحسن ، قمنا بمقارنة تردد PAV بين مجموعات landrace و GhImpUSO و GhImpCHN. تحتوي مجموعة السلالات على جينات متغيرة أكثر من الأصناف المحسنة ، مما يشير إلى وجود اتجاه عام لفقدان الجينات أثناء تدجين القطن (الشكل 5 أ). يشير تحليل الأنيسول الخماسي الكلور والتحليل الوراثي لـ PAVs إلى أنه تم فصل مجموعة السلالة عن مجموعة الأصناف المحسّنة (الشكل 5 ب ، ج). كان للأصول المحلية التي نشأت من أمريكا الأصلية مزيج من السكان مع القطن المزروع الأمريكي في التركيب الوراثي ، بما يتوافق مع التحليل العنقودي للنيوكلوتايد متعدد الكلور عالي الثقة (ملف إضافي 2: الشكل S24). للتحكم في المعدل الإيجابي الكاذب ، تم استبعاد ثمانية سلالات وأربعة وثلاثين مدخلات GhImpUSO في بنية سكانية مختلطة ذات أصل غير مؤكد من التحليل الإضافي.

إشارات اختيار PAV أثناء تدجين القطن وتحسينه. أ عدد الجينات بين G. هيرسوتوم الأراضي وتحسين المدخلات. اختبار رتبة ويلكوكسون (ص & lt 0.001) للإحصاءات الهامة. ب تحليل PCA لـ 1020 مدخلات بناءً على قذيفة PAVs. ج شجرة النشوء والتطور القصوى ذات الاحتمالية القصوى وهيكل السكان مع عدد مختلف من المجموعات (ك = 2 و 3 و 4) في 1020 G. هيرسوتوم باستخدام 3803 قذيفة PAVs. يتم فرز التركيبة السكانية وفقًا لشجرة النشوء والتطور. د ، ه مقارنة بين تردد التواجد الجيني الكبير بين مجموعة الأرض مقابل مجموعة GhImpUSO (التدجين) ومجموعة GhImpUSO مقابل مجموعة GhImpCHN (التحسين) (فرانكلين روزفلت & lt 0.001 ، اختبار فيشر الدقيق على الوجهين). F عدد الجينات المواتية وغير المواتية أثناء التدجين والتحسين. ز ، ح تواتر وجود PAV للجينات المواتية وغير المواتية أثناء التدجين والتحسين. اي جاي GO تحليل التخصيب للجين المفضل (أنا) والجين غير المواتي (ي) الربح والخسارة أثناء التدجين والتحسين

لتحديد الجينات المرتبطة بـ PAV مع إشارات الاختيار أثناء التدجين والتحسين ، أجرينا مقارنتين بين 182 سلالة و 206 مدخلات GhImpUSO باستخدام تردد وجود الجينات المتغيرة ، من أجل "التدجين" (الشكل 5 د ، ملف إضافي 2: الشكل S25) ، و بين 206 GhImpUSO و 592 GhImpCHN من أجل "التحسين" (الشكل 5 هـ). الجينات مع تغير كبير في تواتر الوجود (فرانكلين روزفلت & lt 0.001 وتغيير أضعاف التردد & gt 2 لـ "الجين غير المواتي" أو & lt 0.5 لـ "الجين المفضل") تم اعتبارهما جينات منتقاة. الجينات ذات تردد التواجد الأعلى في السلالة منها في GhImpUSO ، وتردد التواجد الأعلى في GhImpUSO مقارنة بـ GhImpCHN كان من المحتمل أن يكون "الجين غير المواتي" ، بينما الجينات ذات الأنماط العكسية لتكرار الوجود كانت "الجين المفضل". حددنا 2785 و 7867 من الجينات المواتية مع اكتساب الأليل ، و 6753 و 3866 من الجينات غير المواتية مع فقدان الأليل أثناء التدجين والتحسين ، على التوالي (ملف إضافي 1: الجداول S26 ، S27). أظهر تحليل التخصيب GO أن الجينات المفضلة قد تم إثرائها في عملية مرتبطة بتقليل الأكسدة ، في حين تم إثراء الجينات غير المواتية في التخليق الحيوي للأحماض الدهنية وتنظيم الجينات. تم تقسيم الجينات المواتية وغير المواتية إلى أربع مقارنات وفقًا لتكرار الوجود في ثلاث مجموعات أثناء التدجين والتحسين (الشكل 5f). قد يكون الاختيار المستمر لـ 337 جينة مواتية مع كل من إشارات التدجين والتحسين من نخبة المرشحين للتربية ، في حين أن 308 جينات غير مواتية تظهر ترددات حضور أقل في مجموعة GhImpCHN تمثل أليلات الخسارة (الشكل 5 ز ملف إضافي 1: الجدول S28). تم القضاء على الجينات غير المواتية أكثر من الجينات المفضلة أثناء تربية القطن (الشكل 5 ح). شاركت جينات الكسب المواتية في النقل عبر الغشاء وعملية تقليل الأكسدة ، في حين شاركت جينات الخسارة المفضلة في سلسلة نقل الإلكترون وعملية التمثيل الغذائي الثانوية (الشكل 5i ، j). لم يكن لجينات الكسب غير المواتية عملية إثراء بشكل ملحوظ أثناء التحسين (الشكل 5 ي). أظهرت هذه التحليلات أن العديد من الجينات غير المواتية قد فقدت أثناء التدجين وتم الاحتفاظ بجينات مواتية كبيرة أثناء عملية التحسين.

جينات للسمات ذات الصلة باستخدام مجموعة بيانات الجينوم

بناءً على البيانات المذكورة أعلاه ، نقترح مخططًا موجزًا ​​للانتقاء الطبيعي للقطن والتدجين والتحسين (الشكل 6 أ). حددنا ما يقرب من 456 ميجا بايت (19.4 ٪ من الجينوم المرجعي المجمع) و 357 ميجا بايت (15.2 ٪) من التسلسلات مع إشارات التدجين والتحسين ، من خلال خرائط SNP و CNV و PAV المدمجة (ملف إضافي 1: الجدول S29). يوجد 21169 جينًا في مناطق التدجين ، وقد ثبت أن بعضها يشارك في تنظيم تاريخ الإزهار ، والتشكل ، وتطوير الألياف. بالنسبة لتاريخ الإزهار ، تحتوي ذروة GWAS المهمة على الكروموسوم D03 على جينات مرشحة ترميز COP1- بروتين تفاعلي [6] (CIPI, Ghir_D03G008950) وبروتين يشبه CONSTANS [42] (COL2, Ghir_D03G011010) ، اللازمة لتكييف التغيير في القطن الطبيعي مع الأصناف المزروعة في مناطق جغرافية مختلفة مع فترات ضوئية مختلفة. يُظهر المزيد من الاستقصاء عن أليلات SNP السببية أن أليلات الأجداد موزعة بشكل أساسي في السلالات الأصلية ، مع ترددات أليل أقل في أصناف محسّنة (الشكل 6 ب). وبالمثل ، وجدنا أن السلالات والمجموعات المحسنة أظهرت تمايز الأليل في هوية التعريف المتأخرة 1 [43] (LMI1, Ghir_D01G021810) الذي ينظم أشكال الأوراق ، وفي جين بروتين الحلزون الحلزوني الأساسي GRF (غير_ A12G025340) وهو جين مرشح لـ QTL الغدي القطني [44] (الشكل 6 ب). تم الكشف أيضًا عن بعض الجينات المسؤولة عن تطوير الألياف التي اختبرت التدجين والتحسين من خلال تحليل التمايز الجغرافي. KCS2 (Ghir_D10G015750) و CesA6 (Ghir_D03G004880) ، المسؤولة عن استطالة الألياف [45،46،47،48] ، خضعت للتدجين واختيار التحسين (الشكل 6 ب). The domestication gene PRF3 (Ghir_D13G021640) has a strongly mutated allele in improved cultivars [49].

An available pan-genome dataset for cotton breeding. أ A four-step model of variation during cotton domestication and breeding. ب The spectrum of gene allele frequencies at the causal SNP polymorphisms of COL2, CIP1, PRF3, LMI1, GRF, KCS2، و CesA6 in landrace and two geographic groups. ج The spectrum of domesticated PAV allele frequ encies of seven genes in landrace and two geographic groups. د An example of functional PAV located on the A08 chromosome. The dashed line in Manhattan plot indicates the threshold for GWAS signals (ص < 2.62 × 10 − 8 −log ص > 7.6). This locus includes four QTLs (lint percentage (LP), fiber weight per boll (FWPB), fiber micronaire (FM), fiber strength (FS)). ه Four QTLs were displayed in a panel of multiple accessions. The two dashed lines represent GWAS thresholds for CNV (−log ص > 6.45) and SNP (−log ص > 4.42), respectively. F the phenotypic difference between presence and absence groups. The numbers below the violin plots show the accession numbers. The significance difference was calculated with a two-sided Wilcoxon rank-sum test (***ص < 0.001, **ص & لتر 0.01). ز Presence frequencies of Ghir_A08G006710 in 182 landrace, 206 GhImpUSO, and 592 GhImpCHN accessions

Pan-genome analysis uncovered favorable and unfavorable gene alleles during domestication and improvement, providing novel candidate genes for functional investigation (Fig. 5). For genes favorable to cotton improvement selection, SCD (short chain dehydrogenase, GhirPan.00056999), شارع (sugar transporter, GhirPan.00054328)، و RbfA (ribosome-binding factor A, GhirPan.00033905) have the lowest frequency in wild population and highest in domesticated cultivars (Fig. 6c Additional file 2: Figure S26). Some favorable genes exhibiting a decrease of frequency in the improvement process could be eliminated (308 genes), having almost the same allele frequency between wild and cultivated accessions, such as DXS (deoxyxylulose-5-phosphate synthase, Ghir_Scaffold1882G000030) و COX3 (cytochrome oxidase subunit 3, Ghir_Scaffold1273G00008). Genes unfavorable during domestication showed increased (182 genes) or decreased (5405 genes) frequency in the GhImpCHN group, such as RLP9 (receptor like protein 9, Ghir_D13G022380) و ZBD (Zinc-binding dehydrogenase, GhirPan.00044196) (Fig. 6c).

To determine the contribution of PAV to agronomic traits, we identified PAV-associated SNPs for 1196 PAVs (MAF ≥ 0.02) in 415 accessions (4 accessions were discarded from 419) using 1,904,926 SNPs and obtained 56,486 significant SNPs (ص < 2.62 × 10 − 8 ) associated with 864 (72.2%) PAVs. Of these PAVs, 124 were overlapped with 89 trait-QTLs (Additional file 1: Table S30 Additional file 2: Figure S27). One representative PAV (Ghir_A08G006710, 543 bp, an uncharacterized gene in G. هيرسوتوم) is located on chromosome A08 (Fig. 6d, Additional file 2: Figure S28). This hotspot region contained two yield-related (LP, FWPB) QTLs and two fiber quality-related (FM, FS) QTLs (Fig. 6e). These accessions with the presence haplotype of this gene showed significantly increased appearance of LP and FWPB traits than those with the absence haplotype, but no difference for FS and FM traits (Fig. 6f). Further presence frequency analysis showed that Ghir_A08G006710 was present in nearly all landrace and GhImpUSO accessions, but was absent in only a few GhImpCHN accessions (Fig. 6g). Interestingly, in the population RNA-Seq data of 15 DPA fiber [15], absence of this gene in 18 accessions was accompanied by significant low expression of an adjacent gene Ghir_A08G006730 (locating at upstream

61 kb, encoding an AUX/IAA transcriptional regulator family protein) compared with that representing presence of this gene in 233 accessions, supported by the change of IAA content in fibers of representative accessions (Additional file 2: Figure S29, S30). These results implied that this gene represented a recent loss event with a potential regulatory role in other gene expression during cotton improvement. These PAV localization and QTL analyses may improve the efficiency of identifying favorable genes associated with desirable agronomic traits.


مقدمة

Phylogenetic reconstructions have traditionally used only a fraction of the sequence data of an organism’s genome, but due to the widespread application of Next Generation Sequencing (NGS) to phylogenetics the quantity of data continues to increase. Phylogenomic studies have therefore heavily relied on a handful of reduced representation approaches including transcriptome sequencing (RNASeq), DNA-based reduced representation techniques, and genome skimming. RNASeq was among the early, still fairly expensive, techniques to obtain large numbers of loci that are informative for deep phylogenetic divergences. Recently, the more cost-effective sequencing of targeted genomic DNA, enriched via hybrid capture, became popular and is at the core of widely used approaches including Ultra Conserved Element (UCE) (McCormack et al., 2012) and Anchored Hybrid Enrichment (Lemmon, Emme & Lemmon, 2012) methods. As sequencing costs have dropped during the past decade, genome skimming (low coverage whole genome sequencing) has become a viable alternative to target enrichment, at least for taxa with relatively small (1 Gbp) genomes. This technique is less challenging with respect to sample quality, involves less complicated lab protocols and does not require expensive probe synthesis. This last point is critical for sampling phylogenetically diverse taxa because the recovery of target sequences is not bound by limitations of the probe design.

While genome skimming does confer these potential benefits, the resulting data can be difficult to parse or integrate into a phylogenetic dataset and can pose substantial problems for analysis. For example, assembled sequences may differ from deep-sequenced model taxon genomes in being much less contiguous as well as unannotated. Genome skimming data also differ from RNASeq data, most notably by the presence of untranslated highly variable regions such as introns. As opposed to typical target capture data, where targeted loci have much higher coverage than non-target ones (Knyshov, Gordon & Weirauch, 2019), genome skimming produces more uniform coverage across the genome (Zhang et al., 2019), with differences associated primarily with sequence properties such as GC content (Barbitoff et al., 2020). Also unlike hybrid capture methodologies, where probes are typically designed for a particular set of taxa based on a related reference taxon (Faircloth, 2017 Young et al., 2016), genome skimming can be applied to taxa with or without available reference genomes or transcriptomes. Nevertheless, hybrid capture-based bioinformatic solutions are most commonly applied to the phylogenetic analysis of genome skimming data (Chen et al., 2018 Zhang et al., 2019).

Phylogenetically-oriented hybrid capture and genomic pipelines are subdivided into two main groups of approaches. Software in the first group identifies reads of interest with the help of reference sequences and subsequently assembles this limited pool of reads (aTRAM (Allen et al., 2015, 2018), HybPiper (Johnson et al., 2016), Assexon (Yuan et al., 2019), Kollector (Kucuk et al., 2017), and HybPhyloMaker (Fér & Schmickl, 2018)). The search for reads that match target regions typically makes use of read aligners (HybPiper, Kollector, HybPhyloMaker) or local similarity search algorithms on both the nucleotide and protein levels (aTRAM, HybPiper, Assexon). After reads are gathered, they are fed to an assembler, and assembled contigs are further processed. A benefit of this group of approaches is that there is no need to assemble the entire read pool, making them potentially faster and less memory demanding than approaches that use the whole read pool. Some drawbacks are the need to perform new read searches and assemblies for each new set of baits and the inability to work with assembled data.

The second group of approaches uses an assembly compiled from the total read pool. The assembly is queried for target sequences, which are then extracted and processed. Post-assembly dataset-specific target searches can be performed relatively quickly. However, especially for highly divergent taxa, the assembly process itself may be both a memory- and time-demanding procedure. Generating a set of contigs from transcriptomic assemblies can be relatively straightforward, because they mostly consist of spliced protein coding sequences. This approach is utilized in HaMStR (Ebersberger, Strauss & Von Haeseler, 2009), Orthograph (Petersen et al., 2017), Orthofinder (Emms & Kelly, 2019), and FortyTwo (Simion et al., 2017), among other applications. However, unannotated genomic assemblies may have contigs comprised of multiple genes or untranslatable introns of varying size. Gene prediction and protein extraction may be complicated when a target gene is fragmented into many small contigs. Recently, Zhang et al. (2019) suggested using Phyluce (Faircloth, 2016) for UCE extraction and Benchmarking Using Single Copy Orthologs (BUSCO) (Simão et al., 2015 Waterhouse et al., 2017) for OrthoDB Single Copy Ortholog (SCO) extraction from genomes at shallow phylogenetic levels, that is, from relatively closely related taxa. Between these two solutions, only BUSCO is specifically designed for genomic assemblies and has the capability to search for and predict genes de novo, but it is only feasible for a few predetermined sets of proteins. Phyluce was originally designed for short, conserved fragments and it is unclear how well it performs on longer multiexon genes. The recently published Assexon software (Yuan et al., 2019) is capable of searching for and retrieving sequences from genomic assemblies, but this module has not yet been extensively tested.

To address issues with commonly-used techniques for including genome-skimming data in phylogenies, we have developed a software, named ALiBaSeq (ALignment Based Sequence extraction), that is designed for sequence extraction based on a local alignment search and is applicable to all types of assembled data and a wide range of assembly qualities. The software is flexible with respect to both input and output, which will facilitate its incorporation into existing bioinformatics pipelines. Any read processing technique and assembler are supported to generate the input for the software, while the resulting sequences are output in FASTA format and can be grouped in several ways (per target locus, per sample, etc.) depending on what is required in downstream analyses. The software also allows for the integration of different types of datasets (e.g., transcriptomic and sequence capture data) allowing phylogenies with more complete taxon sampling as these various phylogenomic datasets become more and more available (Kieran et al., 2019). One of the software’s particular strengths is its ability to efficiently obtain orthologous regions from unannotated genome skimming data. Existing tools frequently rely on a particular type of sequence aligners (BLAST (Altschul et al., 1990) for aTRAM and FortyTwo, both BLAST and BWA (Li & Durbin, 2009) for HybPiper, Usearch for Assexon, LASTZ (Harris, 2007) for Phyluce). Our software supports several commonly utilized similarity search programs and their outputs. While we provide utility scripts for some of the tools, the aforementioned search programs can be run on their own, thus giving the user full control over search program settings if needed. Finally, compared to other programs, we offer greater customization of parameters, including different alignment score cutoff criteria, specification of number of alternative matches, and sequence output structure. The software is available for download at https://github.com/AlexKnyshov/alibaseq.

We here describe the implementation of this software, assess its performance, and benchmark it against other commonly utilized algorithms. Tests are conducted on (1) both conserved and variable loci as determined by average pairwise sequence distance, on (2) contiguous whole genome assembly, short read assemblies of variable depth of coverage, and a hybrid capture sample. We focus testing on the insect samples (see below), but also perform a subset of tests on a plant system to verify the software’s versatility, the details of which are available in the Text S1. Overall, we find that our software matches or outperforms other techniques applied to genome skimming data in recovering the most orthologous genes with the lowest amount of error in low-coverage, fragmented and unannotated genome assemblies. Furthermore, we determine that it works as well or better than other tools on high coverage genome assemblies and target capture assemblies especially at relatively deep phylogenetic levels (100–200 Mya). Thus, ALiBaSeq is a valuable tool for compilation of phylogenomic datasets across diverse taxa and diverse data types.


مناقشة

Our data demonstrate the complex interaction between heterozygosity, genome assembler, and length thresholding effects with some problems becoming evident only after extensive comparison to a high-quality reference sequence. For example, from the 200 bp size cutoff assemblies, LAST showed an average of 10% sequence missing across the SOAPdenovo2 assemblies when compared to the reference, yet they were an average of 50% larger than the reference, in total assembly size. This suggests regional expansions account for a 60% excess of genomic sequence for these assemblies over the reference (S1 Table). To state this another way, an average of 40% of SOAPdenovo2 assemblies consist of expanded sequence (S1 Table). This may be an underestimate given that some regions have undergone sequence collapse (discussed below) which is also compensated by regional expansion. For the multigene pgp family we showed lower heterozygosity for the SOAPdenovo2 assemblies and one Platanus assembly (Fig 6). We interpret the lower heterozygosity in SOAPdenovo2 assemblies as evidence that these regions are not properly resolved and likely expanded regionally--consistent with duplicate genes observed throughout the phylogenetic tree in isolog clusters (Fig 5).

Confirming this, we performed PANTHER analysis of specific GO categories, yielding highly significant enrichment or depletion of 237 specific categories even after correction for false discovery rate to 0.01 (S5 Table and Fig 7A). These discrepancies can be at least partly explained by a complex interplay between regional heterozygosity and assembly parameters. While the reference genome does not display unusual heterozygosity or coverage of these regions (Fig 10) we documented in four categories that the assemblies of these regions diverge from the reference genome in terms of coverage, heterozygosity, and length assembled (Fig 7B, 7C and 7D). We would predict that if an assembler maximally “spreads out” the variation within a dataset into distinct contigs, length assembled would go up, while coverage and heterozygosity would go down as the reads are able to find their perfect match. In many cases this is precisely what we see: the assemblies shown for Oxidoreductase and Dehydrogenase behave in this way (Fig 7B, 7C and 7D) and are examples of ‘regional expansion’ (Fig 9). Somewhat surprisingly, this regional expansion appears to be far greater than one would expect for separation of alleles, which should lead to a doubling of the sequence length in most cases we saw well over 3-fold expansion of length and in one extreme case 7-fold (Fig 7C). Even Platanus, algorithmically optimized for heterozygous genome assembly, was prone to this artifact under specific parameter settings (Fig 7B and 7C). While Platanus step-size 1 performs particularly poorly with our dataset, step-size 3 and 7 both showed artifacts in our PANTHER analysis (Fig 7, see Oxidoreductase, Dehydrogenase, and Response to Heat) while yielding reasonable N50 values (step-size 3, N50 = 74 kb step-size 7, N50 = 70 kb). Therefore, our data highlight a potentially worrisome problem for genome assembly algorithms when confronted with moderate to highly heterozygous datasets.

The Amino Acid Transport category appears to violate the expectation that heterozygosity will behave similarly to coverage it is increased, not decreased, in two of three SOAPdenovo2 assemblies where coverage was decreased (Fig 7D). Hypothesizing that this might reflect collapsed repetitive elements that are intronically located within these genes, we ran RepeatMasker over the corresponding extracted genomic regions from the reference, SOAPdenovo2 23, 47, and 63, along with Platanus 20 (control). We found that while the reference assembly encodes a highly repetitive component (34.6%), the repetitive content of SOAPdenovo2 23, 47, and 63 were dramatically reduced (4.6%, 9.2%, and 9.2%, respectively). Platanus 20 (control) was 30.3% repetitive. Thus, while the Amino Acid Transport coding regions were expanded in length (Fig 7C) leading to PANTHER enrichment (Fig 7A), these genomic regions encode repeats which are collapsed leading to higher heterozygosity (Fig 7D). Thus, rather than reflecting a simple expansion or contraction (Fig 9), Amino Acid Transport-related genomic regions reflect a combination of expansion and collapse. The reasons for this anomaly remain to be investigated in future work, especially given that the repetitive elements included in these regions are unclassified by RepeatMasker. It is worth noting that the expansion of sequence encoding Amino Acid Transport-related genes, and the collapse of repetitive elements should lead to compensatory changes in coverage and heterozygosity (i.e., increased lengths should decrease the apparent heterozygosity, while collapsed repeats should increase the coverage) but overall deviations from reference are detectable (Fig 7). Indeed, the extreme length extension (7-fold, Fig 7C) of the k-mer 23 assembly may have created the apparent low heterozygosity, offsetting the effect of its highly collapsed repeat (Fig 7D). These data suggest that taken together, coverage and heterozygosity offer better information on genome assembly quality than coverage alone.

The extreme enrichment of heterozygosity for the category ‘response to heat’ for the SOAPdenovo2 23 assembly is particularly striking. While it would suggest the collapse of the genes in this category relative to the reference genome, the expected decrease in sequence length was not observed (Fig 7C). However, to construct Fig 7C we required a 98 percent identical BLASTn match or better between sequences, using blast_analysis.py (Fig 8). By relaxing this requirement to 80 percent identity we found a 3.57-fold contraction (43,083 bp from SOAPdenovo2 23 corresponding with 153,958 bp in the reference genome) which agrees with the 3.49-fold enrichment in heterozygosity (Fig 7D). (Read-mapping was performed with BWA-MEM and does not invoke a percent identity threshold). Platanus step-size 7 represents a curious case: it also is depleted for the ‘response to heat’ category but the increase in heterozygosity was only minor and coverage did not increase, suggesting these regions simply did not assemble well and were likely lost from the assembly when we filtered out contigs smaller than 1 kb, leaving the corresponding reads without a suitable target in the mapping step.


Data availability

Raw sequencing data used in this study can be found in the NCBI database under the following Bioproject accession numbers: PRJNA603155 (genome sequencing dataset of Harukei-3 melon), PRJNA624817 (genome sequencing dataset of seven melon accessions), PRJNA603146 (ONT cDNA RNA-seq), PRJNA603129 (ONT direct RNA-seq), PRJNA603204 (tissue-wide RNA-seq of Harukei-3 melon), or PRJNA603202 (leaf RNA-seq in the greenhouse). Genome assembly and annotation of Harukei-3 melon (ver. 1.41 genome reference) is available on Melonet-DB (https://melonet-db.dna.affrc.go.jp/ap/dnl).


Genome annotation

To harness the full potential of a genome sequence, it needs to be annotated with biologically relevant information that can range from gene models and functional information, such as gene ontology (GO) terms (Gene Ontology Consortium 2004 Primmer et al. 2013 ) or ‘Kyoto encyclopedia of genes and genomes’ (KEGG) pathways (Kanehisa and Goto 2000 ), to microRNA and epigenetic modifications (The ENCODE Project Consortium 2012 ). In the context of genetic nonmodel organisms, annotation is often confined to protein-coding sequence (CDS) or transcripts more generally. Despite the considerable challenge to annotate genes in newly sequenced species where preexisting gene models are mostly lacking, automated gene annotation has in principle become possible for individual research groups (Yandell and Ence 2012 ). Still, a complete genome annotation constitutes a considerable effort and requires bioinformatic proficiency. We describe only the general workflow and refer the interested reader to a comprehensive review by Yandell and Ence ( 2012 ) for more details (Box 2). Before starting, it should be noted that successful annotation strongly depends on the quality of the genome assembly. Only contiguous near-complete (

90%) genomes interrupted only by small gaps will yield satisfying results. As a rule of thumb, large genomes have longer genes and thus need more contiguous assemblies for successful annotation (cf. Figure 1 in Yandell and Ence 2012 ).

The annotation process can be conceptually divided into two phases: a ‘computational phase’ where several lines of evidence from other genomes or from species-specific transcriptome data are used in parallel to create initial gene and transcript predictions. In a second ‘annotation phase’, all (sometimes contradicting) information is then synthesized into a gene annotation, following a set of rules determined by the annotation pipeline.

Prior to gene prediction, it is of vital importance to mask repetitive sequences including low-complexity regions and transposable elements. As repeats are often poorly conserved across species, it is advisable to create a species-specific repeat library using tools like RepeatModeler or RepeatExplorer (Novák et al. 2013 ). Once repeats are masked (e.g. with RepeatMasker http://www.repeatmasker.org), البداية algorithms trained on gene models from related species can be used for baseline prediction of coding sequence (CDS) (e.g. AUGUSTUS Stanke et al. 2006 ). Protein alignments (using e.g. tblastx) and syntenic protein lift-overs from a variety of other species provide a valuable resource to complement the predicted gene models. Arguably, the best evidence comes from detailed EST or RNA-seq data, which in addition to CDS, provides gene models with information on splice sites, transcription start sites and untranslated regions (UTRs). If possible, mRNA should be sequenced strand-specifically, as this helps resolve gene models, facilitates transcriptome assembly and eventually aids in the evaluation of the genome assembly.

In a next step, all the evidence from البداية prediction and protein-, EST- or RNA-alignments need to be synthesized into a final set of gene annotations. As the evidence is mostly incomplete and sometimes contradicting, this is a difficult task that often benefits from manual curation. Still, several automated annotation tools like MAKER (Cantarel et al. 2008 ) or PASA (Haas et al. 2003 ) exist that incorporate, and weigh the evidence from, several sources. Although these tools generally provide good results, qualitative validation is important (e.g. by assessing the length of open-reading frames). Visual inspection of the annotation is another vital component to detect systematic issues such as intron leakage (introns being annotated as exons due to the presence of pre-mRNA) or gene fusion. Tools like WebApollo (Lee et al. 2013 ) from the GMOD project are particularly useful, as they allow the user to edit the annotation directly through the visual interface.

Publishing the genome

Draft genome sequences are now being produced at an ever-increasing rate. Traditional databases such as ENSEMBL from the European Molecular Biology Labs (EMBL) and the Wellcome Trust Sanger Institute, or genomic databases from the National Center for Biotechnology Information (NCBI) providing access to genomes and meta-information can no longer annotate and curate all incoming genomes. NCBI therefore already provides the possibility to upload draft genome sequences and user-generated annotation. To allow other users to improve the assembly and its annotation, all available raw data should be uploaded, together with the assembled genome and all relevant meta-data, for example as a BioProject on NCBI.


Computational analysis of next generation sequencing data and its applications in clinical oncology

Rucha M. Wadapurkar , Renu Vyas , in Informatics in Medicine Unlocked , 2018

1.5.2 Aligning sequences

After assessing the quality of NGS reads, the reads are aligned to the reference genome . For that UCSC (University of Santa Cruz) and GRC (Genome Reference Consortium) are mainly used as sources of human reference genome [ 59–61 ]. There are some issues in selecting alignment software, the first is solving the problem of ambiguity in mapping short reads to the reference genome, which can be solved by considering paired-end reads as a better option [ 62 ]. Secondly, mutations generated from reads with many mismatches have to be discarded from further analysis steps.


This work was supported by the Netherlands Organization for Scientific Research [Vidi grant 864.14.004] to [B.E.D.] and the Conselho Nacional de Desenvolvimento Científico e Tecnológico [Science Without Borders program] to [D.D.C.] and [F.H.C.].

F. A. Bastiaan von Meijenfeldt and Ksenia Arkhipova contributed equally to this work.

Affiliations

Theoretical Biology and Bioinformatics, Science for Life, Utrecht University, Utrecht, The Netherlands

F. A. Bastiaan von Meijenfeldt, Ksenia Arkhipova, Diego D. Cambuy & Bas E. Dutilh

Centre for Molecular and Biomolecular Informatics, Radboud University Medical Centre, Nijmegen, The Netherlands

Felipe H. Coutinho & Bas E. Dutilh

Instituto de Biologia, Universidade Federal do Rio de Janeiro, Rio de Janeiro, RJ, Brazil

Present Address: Evolutionary Genomics Group, Departamento de Produccíon Vegetal y Microbiología, Universidad Miguel Hernández, Campus San Juan, San Juan, 03550, Alicante, Spain


شاهد الفيديو: التكرار في قراءة الكتب.. عبدالله آل سيف (يوليو 2022).


تعليقات:

  1. Azarious

    وأين المنطق؟

  2. Eadbeorht

    انا أنضم. كان معي أيضا. يمكننا التواصل حول هذا الموضوع. هنا أو في PM.

  3. Balduin

    بالطبع ، أنا آسف ، لكن هل يمكنك تقديم المزيد من المعلومات.



اكتب رسالة