معلومة

17.5: اكتشاف عزر دي نوفو - علم الأحياء

17.5: اكتشاف عزر دي نوفو - علم الأحياء



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

كما نوقش في بداية هذا الفصل ، فإن المشكلة الأساسية لإيجاد الحافز هي تحديد معايير ما هو فكرة صالحة ومكان وجودها. بدلاً من ذلك ، يمكن للمرء استخدام ChIP-seq للبحث عن الزخارف ، لكن هذه الطريقة لا تعتمد فقط على وجود عامل نسخ معروف مهم ، ولكنها تتطلب أيضًا تطوير أجسام مضادة للتعرف على عامل النسخ المذكور ، والذي يمكن أن يكون مكلفًا ويستغرق وقتًا طويلاً.

من الناحية المثالية ، يمكن للمرء أن يكتشف الزخارف de novo ، أو دون الاعتماد على مجموعة جينية معروفة بالفعل أو عامل النسخ. بينما تبدو هذه مشكلة صعبة ، يمكن في الواقع تحقيقها من خلال الاستفادة من الحفظ على نطاق الجينوم. نظرًا لأن الوظائف البيولوجية يتم حفظها عادةً عبر الأنواع ولها توقيعات تطورية مميزة ، يمكن للمرء محاذاة التسلسلات من الأنواع القريبة والبحث على وجه التحديد في المناطق المحمية (المعروفة أيضًا باسم جزيرة الحفظ) من أجل زيادة معدل العثور على الأشكال الوظيفية.

اكتشاف الحافز باستخدام الحفظ على نطاق الجينوم

غالبًا ما تتداخل جزر الحفظ مع الزخارف المعروفة ، لذا فإن إجراء عمليات مسح على مستوى الجينوم من خلال المناطق المحفوظة التطورية يمكن أن يساعدنا في اكتشاف الزخارف ، de novo. ومع ذلك ، لن تكون كل المناطق المحفوظة زخارف ؛ على سبيل المثال ، يمكن أيضًا الحفاظ على النيوكليوتيدات المحيطة بالزخارف على الرغم من أنها ليست جزءًا من عنصر. يمكن تمييز الأشكال من المناطق المحفوظة في الخلفية من خلال البحث عن التخصيب الذي سيختار بشكل أكثر تحديدًا للكميات المشاركة في الأشكال التنظيمية. على سبيل المثال ، يمكن للمرء أن يجد زخارف تنظيمية من خلال البحث عن التسلسلات المحفوظة المخصبة في المناطق بين الجينات المنبع من الجينات مقارنة بمناطق التحكم مثل تسلسلات الترميز ، حيث يتوقع المرء أن يتم إثراء الزخارف في أو حول مروجي الجينات. يمكن للمرء أيضًا توسيع هذا النموذج للعثور على الزخارف المتدهورة: يمكننا البحث عن حفظ الزخارف الأصغر غير المتحللة مفصولة بفجوة متغيرة الطول ، كما هو موضح في الشكل أدناه. يمكننا أيضًا توسيع هذا النموذج من خلال البحث الجشع من أجل الاقتراب من العثور على دافع الاحتمالية القصوى المحلية. أخيرًا ، يمكن أن يكشف تطور الزخارف أيضًا عن الزخارف المتدهورة ؛ نظرًا لأنه من المرجح أن يتدهور شكل معين إذا تم استبداله غالبًا بعنصر آخر خلال التطور ، يمكن أن يكشف عناقيد الزخارف التي من المحتمل أن تتوافق مع نفس الفكرة.

في الواقع ، الإستراتيجية لها أهميتها البيولوجية. في عام 2003 ، جادل البروفيسور كيليس بأنه يجب أن يكون هناك بعض الضغط الانتقائي لإحداث تسلسل معين في أماكن محددة. دكتوراه. أطروحة حول الموضوع يمكن العثور عليها في الموقع التالي:

التحقق من صحة الأشكال المكتشفة مع مجموعات البيانات الوظيفية

يمكن بعد ذلك التحقق من صحة هذه الأشكال المتوقعة من خلال مجموعات البيانات الوظيفية. من المرجح أن تكون الزخارف المتنبأ بها مع واحدة على الأقل من السمات التالية زخارف حقيقية: - الإثراء في الجينات المنظمة المشتركة. يمكن للمرء أن يمتد هذا إلى مجموعات جينية أكبر ؛ على سبيل المثال ، تم العثور على العناصر المخصبة في الجينات المعبر عنها في أنسجة معينة - التداخل مع تجارب ربط TF - الإثراء في الجينات من نفس التحيزات المعقدة - الموضعية فيما يتعلق بموقع بدء النسخ (TSS): يتم إثراء الزخارف في الجينات TSS - تيار الجينات مقابل المصب ، التحيزات الموضعية المتداخلة داخل الجينات: يتم استنفاد الأشكال بشكل عام في تسلسل الترميز - التشابه مع أشكال عامل النسخ المعروفة: قد تتطابق بعض الأشكال المكتشفة ، وليس كلها ، مع الزخارف المعروفة (ومع ذلك ، ليس جميعها الزخارف محفوظة وقد لا تكون الزخارف المعروفة صحيحة تمامًا)


هومر

يحتوي HOMER على خوارزمية اكتشاف عزر جديدة تم تصميمها لتحليل العناصر التنظيمية في تطبيقات علم الجينوم (DNA فقط ، بدون بروتين). إنها خوارزمية اكتشاف الحافز التفاضلي ، مما يعني أنها تأخذ مجموعتين من التسلسلات وتحاول تحديد العناصر التنظيمية التي يتم إثرائها بشكل خاص في المجموعة بالنسبة إلى الأخرى. يستخدم مقياس ZOOPS (صفر أو حدث واحد لكل تسلسل) مقترنًا بحسابات الإثراء الفائقة الهندسية (أو ذات الحدين) لتحديد إثراء الحافز. يحاول HOMER أيضًا بذل قصارى جهده لحساب التحيز المتسلسل في مجموعة البيانات. تم تصميمه مع وضع تحليل ChIP-Seq والتحليل المروج في الاعتبار ، ولكن يمكن تطبيقه على أي مشكلة في اكتشاف مشكلة الأحماض النووية.

هناك عدة طرق لإجراء تحليل الحافز باستخدام HOMER. تقدم الروابط أدناه مهام سير العمل المختلفة لتشغيل تحليل الحافز. باختصار ، يحتوي HOMER على أداتين ، findMotifs.pl و findMotifsGenome.pl ، التي تدير جميع الخطوات لاكتشاف الأشكال في مناطق المحفز والجينوم ، على التوالي. تحاول هذه البرامج النصية أن تسهل على المستخدم تحليل قائمة الجينات أو المواضع الجينية للزخارف المخصبة. ومع ذلك ، إذا كان لديك بالفعل ملفات التسلسل التي تريد تحليلها (مثل ملفات FASTA) ، يمكن لـ findMotifs.pl (و homer2) معالجة هذه الملفات مباشرة.

بغض النظر عن كيفية استدعاء HOMER ، يتم تنفيذ نفس الخطوات الأساسية لاكتشاف العناصر التنظيمية:

المعالجة المسبقة:

1. استخراج التسلسلات (findMotifs.pl/findMotifsGenome.pl)

2. تحديد الخلفية (findMotifs.pl/findMotifsGenome.pl)

3. تطبيع GC (findMotifs.pl/findMotifsGenome.pl)

يتم بعد ذلك تجميع التسلسلات في الهدف ومجموعات الخلفية بناءً على محتوى GC (فواصل زمنية 5٪). يتم ترجيح تسلسل الخلفية لتشبه نفس توزيع محتوى GC الذي لوحظ في التسلسلات المستهدفة. يساعد هذا في تجنب HOMER ببساطة العثور على الزخارف الغنية بالـ GC عند تحليل التسلسلات من جزر CpG. لإجراء تطبيع CpG٪ بدلاً من تطبيع GC٪ (G + C) ، استخدم "-cpg". مثال على توزيع GC٪ - للمناطق من تجربة ChIP-Seq:


4. Autonormalization (جديد مع الإصدار 3.0 ، homer2 / findMotifs.pl / findMotifsGenome.pl)

غالبًا ما يكون للتسلسلات المستهدفة خلل في محتوى التسلسل بخلاف GC٪. يمكن أن يحدث هذا بسبب ظاهرة بيولوجية ، مثل التحيز في الكودون في exons ، أو التحيز التجريبي الناجم عن التسلسل التفضيلي للامتدادات الغنية A وما إلى ذلك. الهدف وتسلسل الخلفية. يقدم HOMER الآن التطابق التلقائي كتقنية لإزالة (أو إزالة جزئيًا) التشوهات في متواليات oligo القصيرة (أي AA) عن طريق تعيين أوزان لتسلسلات الخلفية. يحاول الإجراء تقليل الاختلاف في تردد قليل قليل (يتم جمعه عبر جميع oligos) بين مجموعات بيانات الهدف والخلفية. يقوم بحساب الأوزان المرغوبة لكل تسلسل في الخلفية للمساعدة في تقليل الخطأ. نظرًا لتعقيد المشكلة ، يستخدم HOMER نهجًا بسيطًا لتسلق التلال من خلال إجراء تعديل صغير في وزن الخلفية في وقت واحد. كما أنه يعاقب التغييرات الكبيرة في وزن الخلفية لتجنب الحلول التافهة التي تزيد أو تنقص أوزان التسلسلات الخارجية إلى القيم القصوى. يتم التحكم في طول oligos القصير بواسطة الخيار "-nlen & lt # & gt".


اكتشاف دوافع novo (homer2)

بشكل افتراضي ، يستخدم HOMER إصدار homer2 الجديد من البرنامج للعثور على الحافز. إذا كنت ترغب في استخدام الإصدار القديم عند تشغيل أي من عائلة برامج HOMER ، أضف "-homer1" إلى سطر الأوامر.

5. تحليل تسلسل المدخلات في جدول Oligo

6. Oligo Autonormalization (اختياري)

200 نقطة أساس) ، يمكنك أيضًا تطبيق مفهوم التسوية التلقائية على طاولة Oligo. لا تزال الفكرة هي معادلة oligos الأصغر (أي 1،2،3 bp) داخل oligos الأكبر حجمًا (أي 10،12،14 bp وما إلى ذلك). يعد هذا أكثر خطورة نظرًا لأن العدد الإجمالي للقليل من الزخارف الطويلة يمكن أن يكون كبيرًا جدًا (على سبيل المثال 500 كيلو لكل 10 نقاط أساس ، أكثر بكثير للزخارف الأطول) ، مما يعني أن هناك الكثير من الأوزان "لضبطها". ومع ذلك ، يمكن أن يساعد هذا في حالة وجود انحياز شديد في التسلسل قد تواجهك مشكلة في حذف مجموعة البيانات (الخيار "-olen & lt # & gt").

7. مرحلة البحث العالمي

بعد إنشاء (وربما تطبيع) طاولة Oligo ، تنتج HOMER بحثًا عالميًا عن "oligos" المخصب. الفكرة الأساسية هي أنه إذا كان سيتم إثراء "الحافز" ، فيجب أيضًا إثراء القلة التي تعتبر جزءًا من الفكرة. أولاً ، تقوم شركة HOMER بفحص كل قلة محتملة من أجل التخصيب. لزيادة الحساسية ، يسمح HOMER بعد ذلك بعدم التطابق في oligo عند البحث عن التخصيب. لتسريع هذه العملية ، والتي يمكن أن تستهلك الكثير من الموارد لفترة أطول مع عدد كبير من حالات عدم التطابق المحتملة ، سيتخطى HOMER oligos عند السماح بحالات عدم تطابق متعددة إذا لم تكن واعدة ، على سبيل المثال إذا كان لديهم حالات خلفية أكثر من مثيلات الهدف ، أو إذا كان السماح بمزيد من حالات عدم التطابق يؤدي إلى انخفاض قيمة التخصيب. يتحكم "-mis & lt # & gt" في عدد حالات عدم التطابق المسموح بها.

حساب إثراء الحافز:

يتم حساب إثراء الحافز باستخدام إما التوزيع الهندسي التراكمي أو التوزيعات التراكمية ذات الحدين. تفترض هاتان الإحصائيتان أن تصنيف تسلسل الإدخال (أي الهدف مقابل الخلفية) مستقل عن حدوث الزخارف داخلها. تأخذ الإحصائيات في الاعتبار العدد الإجمالي للتسلسلات المستهدفة ، وتسلسلات الخلفية ، وكم من كل نوع يحتوي على الفكرة التي يتم فحصها من أجل الإثراء. من هذه الأرقام يمكننا حساب احتمال ملاحظة العدد المحدد (أو أكثر) من التسلسلات المستهدفة مع الفكرة بالصدفة إذا افترضنا عدم وجود علاقة بين متواليات الهدف والعنصر. التوزيعات الهندسية الفائقة وذات الحدين متشابهة ، فيما عدا أن القياس الهندسي الفائق يفترض أخذ العينات بدون استبدال ، بينما تفترض ذات الحدين أخذ العينات مع الاستبدال. يتم وصف مشكلة إثراء الحافز بدقة أكبر بواسطة الهندسة الفائقة ، ومع ذلك ، فإن ذات الحدين لها مزايا. عادة ما يكون الفرق بينهما بسيطًا إذا كان هناك عدد كبير من التسلسلات وتسلسلات الخلفية وتسلسلات gt & gt الهدف. في هذه الحالات ، يفضل استخدام ذات الحدين لأنه أسرع في الحساب. نتيجة لذلك ، فهي الإحصائية الافتراضية لـ findMotifsGenome.pl حيث يكون عدد التسلسلات أعلى عادةً. ومع ذلك ، إذا كنت تستخدم خلفيتك الخاصة التي تحتوي على عدد محدود من التسلسلات ، فقد يكون من الجيد التبديل إلى القياس الهندسي الفائق (استخدم "-h" لفرض استخدام القياس الفائق). يتوقع findMotifs.pl عددًا أصغر لتحليل المروج ويستخدم القياس الهندسي الفائق افتراضيًا.

ملاحظة مهمة واحدة: نظرًا لأن HOMER يستخدم Oligo Table في الكثير من الحسابات الداخلية لإثراء الحافز ، حيث لا يعرف صراحة عدد التسلسلات الأصلية التي تحتوي على النموذج ، فإنه يقارب هذا الرقم باستخدام العدد الإجمالي لوقائع الشكل الملحوظ في الخلفية والتسلسلات المستهدفة. يفترض أنه تم توزيع الأحداث بالتساوي بين الهدف أو متواليات الخلفية مع الاستبدال ، حيث من المحتمل أن يكون لبعض التسلسلات أكثر من حدث واحد. يستخدم التسلسل الرقمي المتوقع لحساب إحصاء الإثراء (يعكس الناتج النهائي الإثراء الفعلي بناءً على التسلسلات الأصلية).

8. مصفوفة الأمثل

9. قناع وكرر

بعد أن يتم تحسين أول "قلة واعدة" إلى نموذج ، يتم إزالة التسلسلات المرتبطة بالعنصر المراد إزالتها من التحليل ويتم تحسين الأوليجو الواعد التالي للعنصر الثاني ، وهكذا. يتكرر هذا حتى يتم العثور على العدد المطلوب من الأشكال ("-S & lt # & gt" ، الافتراضي: 25). هذا هو المكان الذي يوجد فيه فرق مهم بين الإصدارات القديمة (هوميروس) والجديدة (هوميروس 2). كان الإصدار القديم من هوميروس يخفي ببساطة القلة المربوطة بالشكل الموجود في طاولة أوليغو. على سبيل المثال ، إذا كان التصميم هو GAGGAW ، فسيتم إزالة GAGGAA و GAGGAT من Oligo Table لتجنب العثور على الشكل التالي على نفس التسلسلات. ومع ذلك ، إذا تم إثراء GAGGAW في البيانات ، فهناك فرصة جيدة لأن يتم إثراء البيانات ذات 6 مير مثل nGAGGA أو AGGAWn إلى حد ما. قد يتسبب ذلك في أن يجد هوميروس نسخًا متعددة من نفس الفكرة ويوفر القليل من الارتباك في النتائج.

لتجنب هذه المشكلة في الإصدار الجديد من HOMER (homer2) ، بمجرد تحسين الشكل ، يعيد HOMER النظر في التسلسلات الأصلية ويخفي القلة التي تشكل مثيل النموذج بالإضافة إلى oligos المجاورة مباشرة للموقع المتداخل مع نوكليوتيد واحد على الأقل. يساعد هذا في توفير نتائج أكثر نظافة ، ويسمح بمزيد من الحساسية عند التخصيب المشترك. للعودة إلى الطريقة القديمة لإخفاء الزخارف باستخدام homer2 ، حدد "-quickMask" في سطر الأوامر. يمكنك أيضًا تشغيل الإصدار القديم باستخدام "-homer1".

فحص إثراء الزخارف المعروفة (homer2):

10. تحميل مكتبة الصور

11. شاشة كل عزر

مخرجات تحليل الحافز:

12. ملفات Motif (homer2 ، findMotifs.pl ، findMotifsGenome.pl)

الناتج الحقيقي لـ HOMER هو ملفات "* .motif" التي تحتوي على المعلومات اللازمة لتحديد مثيل مستقبلي من الأشكال. تم الإبلاغ عنها في أدلة الإخراج من findMotifs.pl و findMotifsGenome.pl. سيبدو ملف التصميم النموذجي كما يلي:

& gtASTTCCTCTT 1-ASTTCCTCTT 8.059752 -23791.535714 0 T: 17311.0 (44.
0.726 0.002 0.170 0.103
0.002 0.494 0.354 0.151
0.016 0.017 0.014 0.954
0.005 0.006 0.027 0.963
0.002 0.995 0.002 0.002
0.002 0.989 0.008 0.002
0.004 0.311 0.148 0.538
0.002 0.757 0.233 0.009
0.276 0.153 0.030 0.542
0.189 0.214 0.055 0.543

يبدأ الصف الأول بـ "& gt" متبوعًا بمعلومات مختلفة ، والصفوف الأخرى هي الاحتمالات الخاصة بالمواقع لكل نوكليوتيد (A / C / G / T). صف الرأس محدد بعلامة جدولة بالفعل ، ويحتوي على المعلومات التالية:

  1. "& gt" + تسلسل توافق (لا يُستخدم فعليًا لأي شيء ، يمكن أن يكون فارغًا) مثال: & gtASTTCCTCTT
  2. اسم النموذج (يجب أن يكون فريدًا إذا كانت هناك عدة أشكال في نفس الملف) مثال: 1-ASTTCCTCTT أو NFkB
  3. حد اكتشاف احتمالات السجل ، المستخدم لتحديد المواقع المرتبطة مقابل المواقع غير المرتبطة (إلزامي) مثال: 8.059752
  4. سجل قيمة P للتخصيب ، مثال: -23791.535714
  5. 0 (عنصر نائب للتوافق مع الإصدارات السابقة ، يُستخدم لوصف الأشكال "المقطوعة" في الإصدار القديم ، تبين أنه لم يكن مفيدًا جدًا :)
  6. معلومات الحدوث مفصولة بفواصل ، مثال: T: 17311.0 (44.36٪) ، B: 2181.5 (5.80٪) ، P: 1e-10317
    1. T: # (٪) - عدد التسلسلات المستهدفة مع الحافز ، النسبة المئوية من إجمالي الأهداف
    2. B: # (٪) - عدد تسلسلات الخلفية ذات الحافز ، النسبة المئوية من إجمالي الخلفية
    3. P: # - القيمة الاحتمالية للتخصيب النهائي
    1. Tpos: متوسط ​​موضع الحافز في التسلسلات المستهدفة (0 = بداية التسلسلات)
    2. Tstd: الانحراف المعياري للموضع في التسلسلات المستهدفة
    3. Bpos: متوسط ​​موضع الحافز في تسلسلات الخلفية (0 = بداية التسلسلات)
    4. Bstd: الانحراف المعياري للموضع في تسلسلات الخلفية
    5. StrandBias: نسبة اللوغاريتمات + تواجدات الجدائل إلى تواجدات الجدائل.
    6. التعدد: متوسط ​​عدد التكرارات لكل تسلسل في تسلسل مع موقع ربط واحد أو أكثر.

    13. إخراج عزر De novo (findMotifs.pl/findMotifsGenome.pl/compareMotifs.pl)

    يأخذ HOMER الأشكال المحددة من خطوة اكتشاف de novo motif ويحاول معالجتها وتقديمها بطريقة مفيدة. يتم إنشاء صفحة HTML في دليل الإخراج المسمى homerResults.html جنبًا إلى جنب مع دليل باسم "homerResults /" يحتوي على كل الصور وملفات الدعم الأخرى لإنشاء الصفحة. يتم إنشاء هذه الصفحات بشكل صريح عن طريق تشغيل برنامج فرعي يسمى "CompareMotifs.pl".

    مقارنة مصفوفات الحافز:

    يتم التحقق من الزخارف أولاً للتأكد من التكرار لتجنب تقديم الزخارف نفسها مرارًا وتكرارًا. يتم ذلك عن طريق محاذاة كل زوج من الزخارف في كل موضع (وأضدادها العكسية) وتسجيل تشابهها لتحديد أفضل محاذاة لها. بدءًا من HOMER v3.3 ، تتم مقارنة المصفوفات باستخدام معامل ارتباط Pearson عن طريق تحويل كل مصفوفة إلى متجه من القيم. تستخدم الترددات المحايدة (0.25) حيث لا تتداخل المصفوفات.

    تم إجراء المقارنة القديمة من خلال مقارنة مصفوفات الاحتمال باستخدام الصيغة أدناه التي تدير توقعات الحسابات عن طريق خلط هويات النيكلوتيدات كعنصر تحكم. (يمثل freq1 و freq2 مصفوفات motif1 و motif2)


    تتم مقارنة الزخارف بعد ذلك بمكتبة من الزخارف المعروفة. في هذه الخطوة ، تم استخدام جميع الزخارف في JASPAR والزخارف "المعروفة" للمقارنة. يمكنك تحديد مكتبة نماذج مخصصة باستخدام "-mcheck & ltmotif library file & gt" عند استخدام findMotifs [Genome] .pl أو "-known & ltmotif library file & gt" عند استدعاء "قارنMotifs.pl" مباشرة.

    بشكل افتراضي ، يبحث عن الملف "/path-to-homer/data/knownTFs/all.motifs" للعثور على الفكرة التي يمكن مقارنتها بزخارف de novo. إذا تم تحديد "-rna" ، فسيتم تحميل الملف "/path-to-homer/data/knownTFs/all.rna.motifs".

    فيما يلي مثال على ناتج HTML:


    اعتمادًا على كيفية تنفيذ برنامج findMotifs [Genome] .pl الذي تم تنفيذه ، قد ترتبط أو لا ترتبط "نتائج إثراء الحافز المعروفة" و "نتائج إثراء علم الوجود الجيني" بأي شيء. يتم فرز الزخارف بناءً على قيمة p ، ويتم عرض الإحصائيات الأساسية حول الفكرة (موجودة في ملفات التصميم).

    يحتوي العمود الأخير على رابط إلى "ملف التصميم" ، وهو أمر مهم إذا كنت تريد البحث عن الفكرة في تسلسلات أخرى.

    في عمود أفضل تطابق / تفاصيل ، سيعرض HOMER الشكل المعروف الأكثر تطابقًا مع شكل de novo. من المهم جدًا أن تأخذ هذا التخصيص بحبة من الملح. لسوء الحظ ، في بعض الأحيان أفضل مباراة لا تزال غير جيدة. أيضًا ، من الشائع أن الفكرة "المعروفة" ليست جيدة في البداية. لمزيد من التحقيق في المهمة ، انقر على رابط "مزيد من المعلومات" الذي يوفر صفحة تبدو كالتالي:

    معلومات أساسية: يحتوي القسم على معلومات أساسية ، بما في ذلك روابط لملف التصميم (عادي وعكس العكس) ونسخة pdf من شعار الفكرة.


    تليها مباريات مع الزخارف المعروفة. يوضح هذا القسم المحاذاة بين شكل de novo والنماذج المعروفة. من المهم التحقق ومعرفة ما إذا كانت هذه المحاذاة تبدو معقولة:


    سيؤدي النقر فوق "الزخارف المماثلة" إلى إظهار أشكال de novo الأخرى التي تم العثور عليها أثناء العثور على الزخارف التي تشبه الزخرفة ولكنها ذات قيمة إثراء أقل. يحتوي على "رأس" مشابه لرابط "مزيد من المعلومات" ، ولكنه يظهر أدناه العناصر التي تم اعتبارها متشابهة. عادة ما تكون فكرة جيدة للتحقق من هذه القائمة - في بعض الأحيان يتم تجميع فكرة مميزة بشكل غير صحيح في القائمة لأنها تشترك في بضع بقايا.


    خلفية

    يعد اكتشاف وتوصيف نماذج الحمض النووي وتسلسل البروتين من المشكلات الأساسية في علم الأحياء الحسابي. هنا ، نستخدم المصطلح "motif" للإشارة إلى مصفوفة احتمالية خاصة بالموضع تصف تسلسلًا قصيرًا من الأحماض الأمينية أو النيوكليوتيدات المهمة لعمل الخلية. على سبيل المثال ، يتطلب تنظيم النسخ ارتباطًا خاصًا بالتسلسل لعوامل النسخ رابطة الدول المستقلة- أشكال التمثيل ، والتي توجد عادةً في بداية مواقع بدء النسخ [1]. من ناحية أخرى ، قد تتوافق أشكال تسلسل البروتين مع المواقع النشطة في الإنزيمات أو مواقع الارتباط في المستقبلات [2].

    تم تطوير مجموعة متنوعة من الأساليب الإحصائية لتحديد الأشكال المتسلسلة بطريقة غير خاضعة للإشراف من مجموعات من التسلسلات ذات الصلة وظيفيًا [3]. بالإضافة إلى ذلك ، يمكن استخدام قواعد البيانات مثل JASPAR [4] و TRANSFAC [5] و BLOCKS [6] لمسح تسلسل الاهتمام بحثًا عن أنماط بروتينية أو DNA معروفة. في هذا العمل ، قمنا بتطوير طريقة إحصائية لمقارنة شكلين من الحمض النووي أو البروتين مع بعضهما البعض. هذا النوع من المقارنة ذو قيمة في سياق اكتشاف الحافز. على سبيل المثال ، تخيل أنك حصلت على مجموعة من مناطق المحفز من الجينات التي تشترك في ملفات تعريف تعبير mRNA مماثلة ، وأن خوارزمية اكتشاف الحافز تحدد فكرة داخل هؤلاء المروجين. في كثير من الأحيان ، يكون السؤال الأول الذي قد تطرحه هو ما إذا كان هذا الشكل الجديد يشبه بعض نمط موقع ربط عامل النسخ المحدد مسبقًا. للإجابة على هذا السؤال ، أنت بحاجة إلى برنامج كمبيوتر يقوم بمسح قاعدة بيانات نموذجية بحثًا عن المطابقات مع الفكرة الجديدة (الاستعلام). يجب أن يأخذ البرنامج في الاعتبار جميع الإزاحات النسبية الممكنة بين الشكلين ، وبالنسبة إلى أشكال الحمض النووي ، يجب أن يأخذ في الاعتبار التطابقات التكميلية العكسية أيضًا. يظهر مثال على محاذاة بين شكلين متشابهين في الشكل 1. أحد الاستخدامات البديلة لبرنامج مقارنة العناصر الفنية هو تحديد ثم إزالة أو دمج الزخارف الزائدة عن الحاجة في قاعدة بيانات حالية موجودة.

    زوج متناسق من الزخارف المتشابهة. تم اشتقاق كل من أشكال الاستعلام والهدف من عزر JASPAR NF-Y ، باتباع بروتوكول المحاكاة الموضح في النص. يعين Tomtom ملف ه قيمة 3.81 × e -10 لهذه التطابق الخاص. تم إنشاء الشكل باستخدام نسخة من seqlogo [26] ، تم تعديلها لعرض أزواج من الشعارات المتوافقة.

    لسنا أول من وصف طريقة لقياس أوجه التشابه بين أزواج من الأشكال. قارن Pietrokovski [7] أشكال البروتين باستخدام خوارزمية مباشرة تعتمد على معامل ارتباط بيرسون (PCC). بعد ذلك ، قام هيوز وزملاؤه [8] بتطبيق طريقة مماثلة على أشكال الحمض النووي. قدم وانج وستورمو [9] دالة مقارنة بديلة لأعمدة التصميم ، يطلق عليها متوسط ​​نسبة احتمالية التسجيل (ALLR). في الآونة الأخيرة ، قدم شونز وزملاؤه [10] وظيفتين للتشابه ، إحداهما تعتمد على بيرسون χ 2 اختبار والآخر على الاختبار الدقيق فيشر-إروين (FIET). لقد أظهروا أن هاتين الوظيفتين الجديدتين تتمتعان بقوة تمييزية أفضل من وظائف التشابه PCC و ALLR. بالإضافة إلى ذلك ، استخدمت مجموعات بحثية متعددة اختلاف Kullback-Leibler (KLD) لمقارنة الأشكال [11-13] ، واستخدم تشوي وزملاؤه [14] المسافة الإقليدية (ED) لمقارنة سمات البروتين. أخيرًا ، استخدم Sandelin و Wasserman [15] وظيفة مقارنة الأعمدة الخاصة بهما (SW) في سياق نهج محاذاة البرمجة الديناميكية لمقارنة أشكال الحمض النووي. تختلف هذه الطريقة بشكل كبير عن جميع الأساليب الأخرى القائمة على عزر الحمض النووي بمعنى أنها تسمح بوجود فجوات في محاذاة الحافز.

    في هذا التقرير نركز على محاذاة الزخارف غير المغطاة. نحن نصف طريقة عامة لنمذجة بدقة التوزيع الفارغ التجريبي للدرجات من دالة مقارنة عمود مضافة تعسفية. نحن نقدر التوزيع الفارغ للدرجات لكل عمود في نموذج "استعلام" باستخدام الدرجات الملحوظة لمواءمته مع كل عمود عزر في قاعدة بيانات من الزخارف "الهدف". باستخدام خوارزمية البرمجة الديناميكية المستوحاة من العمل السابق على البحث في قاعدة بيانات تسلسلية مع فكرة [16-18] ، فإننا نقدر التوزيع الفارغ لمجموع الدرجات لأي نطاق من الأعمدة المتجاورة في نموذج الاستعلام. هذا يجعل من الممكن للمستخدم تحديد ما إذا كانت درجة مقارنة الحافز بين نموذج الاستعلام وعزف هدف معين ذات دلالة إحصائية. تبدأ الطرق السابقة بتحديد درجة بين عمودين من النماذج ، ثم تجمع هذه الدرجات إما بجمع (كما نفعل) [7-9 ، 14] أو بأخذ المتوسط ​​[11-13] أو الوسط الهندسي [10] عشرات العمود. تختلف طريقة التسجيل لدينا من حيث أنها تحسب ص قيم درجات المطابقة لأعمدة نموذج الاستعلام المحاذاة مع فكرة هدف معينة بكل الطرق الممكنة (بدون فجوات). هذه "تعويض" ص يتم حساب القيم باستخدام وظائف الكثافة التراكمية المقدرة من قاعدة البيانات الهدف ، كما هو موضح أعلاه. الحد الأدنى ص قيمة بين هذه الإزاحة ص القيم المستخدمة لحساب الإجمالي ص قيمة المطابقة بين عزر الاستعلام والعزر الهدف ، بافتراض استقلالية الإزاحة ص القيم. هذا يسمى "الحافز" ص القيمة. أخيرًا ، نطبق تصحيح Bonferroni على الشكل ص القيم لاشتقاق ه القيمة.

    يتم تنفيذ هذه الخوارزمية في أداة برمجية تسمى Tomtom ، وهي متاحة للجمهور كجزء من مجموعة MEME لأدوات تحليل الزخارف [19-21]. يمكن أن يحسب Tomtom ه القيم المستندة إلى أي وظيفة من وظائف مقارنة الأعمدة السبعة: PCC أو ALLR أو PCS أو FIET أو KLD أو ED أو SW. في هذا العمل ، نوضح دقة تقديرات Tomtom الإحصائية. نتحقق أيضًا من دقة استرجاع فكرة Tomtom عبر تجربة محاكاة. أظهرت النتائج أنه بالإضافة إلى توفير دلالات رسمية لدرجات تشابه الحافز ، فإن Tomtom's ص ينتج عن تقدير القيمة تصنيفات محسنة بالنسبة إلى مخصصة مخططات التطبيع.


    نتائج

    يتغلب RADAR على التحديات في نمذجة بيانات MeRIP-seq ويستوعب تصاميم الدراسة المعقدة

    باستخدام ملفات BAM كمدخلات ، يقسم RADAR أولاً النصوص (exons المتسلسلة) إلى سلال متتالية سعة 50 نقطة أساس ويحدد عدد قراءة ما قبل IP وما بعد IP لكل حاوية (الشكل 1 أ). على عكس طرق تحليل المثيلة التفاضلية الحالية [8،9،10،11] التي تتناسب مع أحجام المكتبات كطريقة للتطبيع ، والتي يمكن أن تنحرف بشدة بواسطة الجينات المعبر عنها بشدة [16] (ملف إضافي 1: الشكل S1) ، يستخدم RADAR طريقة متوسط ​​النسبة [17] المطبقة في DEseq2 لتطبيع مكتبة INPUT من أجل المتانة. بالنسبة لمكتبة IP ، يقوم RADAR بتطبيع إثراء الطي المحسوب من عدد IP مقسومًا على عدد INPUT ، والذي يأخذ في الاعتبار كلاً من كفاءة IP وتباين حجم مكتبة IP.

    ميزات فريدة لبيانات m 6 A-seq (MeRIP-seq). يقسم RADAR exons المتسلسلة من الجين إلى صناديق متتالية وينمذج تعداد القراءة المخصب بالترسيب المناعي (IP) في هذه الصناديق. أ يصور زوجًا من أعداد القراءة في INPUT ومكتبة IP في ملف أناعشر بن جأنا و رأنا. في سير عمل RADAR ، عدد القراءة على مستوى الجين لمكتبة الإدخال ( _> _m> ) يستبدل عدد القراءة على مستوى الحاوية جأنا كتمثيل لمستويات ما قبل IP RNA لـ أناال بن. ب يقارن التباين النسبي في أعداد القراءة على مستوى الجينات ومستوى الحاوية (المحلي) لأحجام مختلفة للحاوية في أربعة م 6 مجموعات بيانات A-seq ، مما يشير إلى أنه يمكن تقليل التباين غير المرغوب فيه باستخدام التهم على مستوى الجينات كتقديرات لـ RNA قبل IP المستويات. لوحة ج يقارن متوسط ​​العينة المتقاطعة والتباين بين RNA-seq العادي (تعداد ما قبل IP) و m 6 A-seq (تعداد قراءة ما بعد IP المعدلة لتغير مستوى RNA قبل IP) في أربعة أمتار 6 مجموعات بيانات A-seq. يمكن أن يختلف الانحناء المناسب لـ m 6 A-seq عن انحناء RNA-seq ، مما يشير إلى أن m 6 A-seq قد يكون له علاقة تباين متوسط ​​مختلفة عن RNA-seq. غالبًا ما توجد عوامل مربكة بيولوجية وتجريبية في عينات المرضى. د يُظهر أول مكونين رئيسيين (أجهزة كمبيوتر) لإثراء m 6 A في كل مجموعة بيانات ، حيث يتم تلوين العينات بواسطة المتغيرات المشتركة التي يجب حسابها. m 6 تم تمثيل الإثراء بواسطة عدد قراءة عينة IP المعدلة للتغير على مستوى RNA قبل IP (INPUT). ه يعرض أول جهازي كمبيوتر بعد التراجع عن المتغيرات المشتركة المعروفة - العمر في مجموعة بيانات سرطان المبيض والدفعة في مجموعة بيانات T2D. بعد التراجع عن المتغير المشترك ، يتم فصل العينات حسب ظروف المرض في مخطط PCA

    بعد التطبيع المناسب عبر جميع العينات ، يقوم RADAR بعد ذلك بحساب مستوى المثيلة لكل حاوية مشروطة بمستوى تعبير RNA قبل IP لكل عينة. على النقيض من الطرق السابقة [8،9،10،11] التي تستخدم أعداد قراءة على مستوى الذروة في مكتبة INPUT كمقياس لمستوى تعبير RNA قبل IP ، نستخدم عدد القراءة على مستوى الجين كتعبير أكثر قوة ، والذي يُعرَّف بأنه العدد الإجمالي للقراءات عبر جميع الصناديق التي تمتد على نفس الجين (الشكل 1 أ). هذا الاختيار مدفوع بملاحظة أن متوسط ​​تغطية القراءة داخل كل ذروة منخفض جدًا - 18 قراءة لكل ذروة (7 قراءات في حاوية سعة 50 نقطة أساس) (ملف إضافي 1: الشكل S2) في نموذج إدخال MeRIP-seq عينة من 20 مليون قراءة (قابلة للتعيين) (ملف إضافي 1: الشكل S3). يمكن أن يؤدي التشتت المفرط للأعداد المنخفضة بسبب أخذ العينات العشوائي في عملية التسلسل إلى تباين كبير غير مرغوب فيه لتقدير مستوى الحمض النووي الريبي قبل IP. يمكن أن يتفاقم هذا بسبب التوزيع غير المتكافئ للقراءات الناتجة عن خصائص التسلسل المحلي مثل محتوى GC وقابلية التعيين. يمكن أن يؤدي استخدام التهم على مستوى الجين كتقدير لمستوى تعبير RNA قبل IP إلى تخفيف التشتت عن طريق زيادة عدد القراءات (272 قراءة في المتوسط) وتقليل تأثيرات خصائص التسلسل داخل الجين في الوقت نفسه (الشكل 1 أ). بمقارنة التباين في عدد القراءة عبر التكرارات على مستوى الجينات مع ذلك على مستوى الحاوية ، نظهر أن تباين العينة المتقاطعة أقل بكثير على مستوى الجينات منه على مستوى الحاوية في مجموعات البيانات الثلاث (الشكل 1 ب).

    يصمم RADAR توزيع عدد القراءة باستخدام نموذج Poisson للتأثير العشوائي بدلاً من التوزيع ذي الحدين السالب ، والذي يشيع استخدامه في تحليل RNA-seq [13 ، 15 ، 17] وكذلك في DRME و QNB لتحليل MeRIP-seq [9 ، 10]. تفترض النماذج القائمة على التوزيع السالب ذي الحدين وجود علاقة تربيعية بين متوسط ​​عدد القراءة وتباينها عبر جميع الجينات. نلاحظ في مجموعات بيانات m 6 A-seq الحقيقية أن علاقة التباين المتوسطة لحسابات ما بعد IP عبر الجينات تختلف اختلافًا كبيرًا عن تلك الخاصة بحساب RNA-seq العادي (أي التهم المسبق لـ IP). لا يتبع الأول دائمًا انحناءًا تربيعيًا مماثلاً ويمكن أن يُظهر أنماطًا مختلفة جدًا من التباين (الشكل 1 ج ، ملف إضافي 1: الشكل S4). للتغلب على هذه القيود ، يطبق RADAR إطار عمل نموذجي خطي معمم أكثر مرونة (راجع قسم "المواد والأساليب") الذي يلتقط التباين من خلال التأثيرات العشوائية.

    تقدم مهم آخر لـ RADAR ، مقارنة بأدوات تحليل البيانات MeRIP-seq الحالية [8،9،10،11] ، هو المرونة في دمج المتغيرات المشتركة والسماح بتصميم دراسة أكثر تعقيدًا. غالبًا ما تصادف المتغيرات المشتركة النمطية مثل العمر والجنس وكذلك المتغيرات المشتركة التجريبية مثل معلومات الدُفعات في دراسات التنميط فوق النسخ مع عينات المريض غير المتجانسة. المتغيرات المشتركة مثل القمامة والعمر شائعة في الدراسات على الحيوانات التجريبية. على سبيل المثال ، في مجموعة بيانات سرطان المبيض ، يتم الخلط جزئيًا بين عمر المتبرعين بالأنسجة ومتغير حالة المرض. في مجموعة بيانات جزر T2D ، يكون التباين بين أول مكونين رئيسيين مرتبكًا مع مجموعة التسلسل (الشكل 1 د). بعد التراجع عن تأثير الدُفعة ، يمكن تفسير التباين المتبقي بشكل أفضل من خلال حالة المرض (الشكل 1 هـ). يشير هذا إلى أهمية التحكم في عوامل الخلط المحتملة عند إجراء اختبارات المثيلة التفاضلية. يسمح إطار النموذج الخطي المعمم في RADAR بإدراج المتغيرات المشتركة ويقدم الدعم لتصميمات الدراسة المعقدة.

    معايير المقارنة للطرق المختلفة باستخدام مجموعات البيانات المحاكاة

    لتقييم أداء RADAR مقارنة بالطرق الحالية ، قمنا بتطبيق RADAR وطرق أخرى للتحليل التفاضلي MeRIP-seq بما في ذلك exomePeak ، واختبار Fisher الدقيق ، و MeTDiff ، و QNB على مجموعات البيانات المحاكاة. We considered four scenarios: the proposed random effect model with/without covariates and the quad-negative binomial (QNB) model adopted from QNB [9, 10] with/without covariates. For each scenario, we evaluated the sensitivity and false discovery rate (FDR) of different methods using ten simulated copies. We first simulated a dataset of eight samples using the random effect model (“Materials and method” section Eq. (1), denoted as the simple case). The INPUT library was directly drawn from the T2D dataset. We simulated IP read count adjusted for pre-IP expression level of each bin according to Eq. (1) where ميكرومتر is equal to mean log read count in the “control” group of T2D dataset. The final IP read counts were obtained by rescaling simulated data by the average IP/INPUT ratio observed in the T2D data. In total, we simulated three datasets of 26,324 sites in which 20% of sites are true positives with effect sizes of 0.5, 0.75, or 1, respectively.

    For DM loci with an effect size of 0.5, RADAR achieved 29.1% sensitivity and 12.0% FDR at an FDR cutoff of 10%. At the same cutoff, exomePeak and Fisher’s test achieved 72.8% sensitivity/52.5% FDR and 72.2% sensitivity/50.5% FDR, respectively. MeTDiff achieved 10.5% sensitivity and 16.2% FDR. QNB, on the contrary, did not own any power for the small effect size. When the effect size increased, RADAR achieved much higher sensitivity, 77.8% for an effect size of 0.75 and 95.7% for an effect size of 1, while FDR were well calibrated at 10.4% and 10.1%, respectively. exomePeak and Fisher’s test both achieved 89% and 96% sensitivity for effect sizes of 0.75 and 1, respectively, but at the cost of unsatisfactory FDRs, which were greater than 46%. MeTPeak exhibited well-calibrated FDR (12.3% and 11.4%) and moderate sensitivity of 50.4% and 81.5% for effect sizes of 0.75 and 1, respectively. QNB only had low power for an effect size of 1 (beta = 1, 13.9% sensitivity and 0.5% FDR). Overall, for the simple case without covariates, RADAR achieved high sensitivity while maintained low FDR at varying true effect sizes (Fig. 2a). We then applied the above analysis at varying FDR cutoff and found RADAR achieved the highest sensitivity at a fixed level of empirical FDR (Additional file 1: Figure S5A). We note exomePeak and Fisher’s test achieved high sensitivity at all effect sizes as combining read counts across replicates of the same group helped to gain power. As a tradeoff, failing to account for within-group variability resulted in high FDR. On the contrary, RADAR and MeTDiff exhibited well-calibrated FDR while achieved high sensitivity at same levels as exomePeak for large effect sizes. QNB was overconservative and possessed little power.

    Benchmarking RADAR on two simulation models. We benchmarked RADAR and other alternative methods on simulated data. Using two simulation models—a random effect (RADAR) model and a quad-negative-binomial (QNB) model, we simulated dataset of eight replicates of varying true effect sizes (0.5, 0.75, and 1) with and without covariates. We tested different methods on simulated dataset and compared the results at an FDR cutoff of 0.1 with simulated true sites. We show the sensitivity (fraction of true sites detected by the method at an FDR cutoff of 0.1) and false discovery rate (fraction of detected differential sites that are not true sites) of each method applied on data simulated by the random effect model without covariates (أ) and with covariates (ب) and the quad-negative-binomial model without covariates (ج) and with covariates (د)، على التوالى. The FDR cutoff used to select DM sites is labeled by a dashed line

    We next applied the aforementioned methods to the proposed model with a covariate (effect size equal to 2, denoted as the difficult case) (Fig. 2b). As a result, at an FDR cutoff of 10%, RADAR achieved 38.4%, 79.7%, and 95.7% sensitivity with empirical FDRs slightly higher than those in the simple case (18.2%, 14.4%, and 13.7% for effect sizes of 0.5, 0.75, and 1, respectively). MeTDiff, with similar performance as RADAR in the simple case, lost power in the difficult case due to incapability of accounting for confounding factors. exomePeak, Fisher’s test, and QNB behaved similarly as in the simple case. The advantage of RADAR over other methods is robust to the choice of FDR cutoff as shown in Additional file 1: Figure S5B. In summary, RADAR outperformed existing alternatives in both cases.

    Taking the covariate model with a DM effect size of 0.75 as an example, we also checked the distributions of effect size estimates and ص values obtained from each method. In all methods, effect sizes were overall correctly estimated with estimates for “true” sites centered at 0.75 (Additional file 1: Figure S6A) and that for null sites centered at zero (Additional file 1: Figure S6B). However, we note the distribution of beta estimates is narrower for RADAR, especially in the difficult case, suggesting a more confident estimation. ص values of exomePeak and Fisher’s test at null sites were enriched near zero, indicating over-detection of false-positive signals (Additional file 1: Figure S6C). We also observed many large ص values obtained by QNB for “true” sites in both cases and MeTDiff in the difficult case, which suggested a high false-negative rate (Additional file 1: Figure S6D).

    We then repeated simulation studies using the QNB model. Instead of setting the variances of INPUT and IP libraries equal as presented in the QNB paper, we let the variance of IP read count be larger than that of INPUT. This setting better reflects our observation in the real data as extra noise can be introduced during immunoprecipitation process for IP reads generation (Additional file 1: Figure S4). In the simple case without covariates, RADAR exhibited the lowest empirical FDR (18.9% and 18.5%) despite slightly lower sensitivity comparing to other methods (73.5% and 82.3%) when the effect sizes were relatively large (for effect sizes of 0.75 and 1). QNB performed better when the effect size was small with 58.6% sensitivity and 15.6% FDR for an effect size of 0.5 (Fig. 2c). The results were consistent when we evaluated their performance with different FDR cutoffs. Overall, QNB performed slightly better than RADAR with an effect size of 0.5. RADAR achieved similar sensitivity but better calibrated FDR when effect sizes equal to 0.75 and 1 (Additional file 1: Figure S5C). In the model with covariates, RADAR exhibited the lowest empirical FDR, with 25.8%, 23.0%, and 22.5% at effect sizes of 0.5, 0.75, and 1, respectively, while other methods either failed to detect the signal or had a higher empirical FDR. Specifically, MeTDiff had sensitivity below 0.5% at varying effect sizes and QNB reached FDRs of 64.1%, 55.8%, and 50.5% for effect sizes of 0.5, 0.75, and 1, respectively, at an FDR cutoff of 10% (Fig. 2d). The advantage of RADAR over alternative methods hold in the difficult case at varying cutoffs (Additional file 1: Figure S5D). In summary, RADAR outperformed other existing methods in most scenarios, particularly when covariates were present.

    Comparative benchmarks of different methods using four real m 6 A-seq datasets

    Next, we compared the performance of different methods using four real m 6 A-seq datasets: ovarian cancer (GSE119168), T2D (GSE120024), mouse liver (GSE119490), and mouse brain (GSE113781). To evaluate the sensitivity of different methods, we first checked the distributions of ص values obtained from corresponding DM tests (Fig. 3). In the ovarian cancer, T2D, and mouse liver data, Fisher’s test and exomePeak detected the most signals as the ص values are most dense near zero. In these three datasets, RADAR also returned a desirable shape for the ص value histogram in which ص values were enriched near zero while uniformly distributed elsewhere. MeTDiff returned a desired shape only in the ovarian cancer and mouse liver datasets. QNB were overconservative in the ovarian cancer and T2D dataset. All methods failed to return enriched ص values near zero for the mouse brain dataset, suggesting there was no or little signal in this dataset. This is consistent with the original publication that very few differential peaks were detected in this study [7].

    Sensitivity of benchmarked methods on real m 6 A-seq data. We benchmarked RADAR and other alternative methods on four m 6 A-seq data with different characteristics. Each panel shows the histogram of ص-values obtained from DM tests using RADAR, MeTDiff, QNB, Fisher’s exact test and exomePeak on each dataset, respectively

    To ensure that well-performed methods achieved high sensitivity while maintaining a low FDR, we further performed permutation analyses to obtain the null distribution of ص values for each dataset. Specifically, we shuffled the phenotype labels of samples such that the new labels were not associated with the true ones or any other important confounding factors. We expected the ص values from a permutation test to follow a uniform distribution and the enriched ص values near zero would be considered as false discoveries. For each dataset, we combined test statistics from 15 permuted copies and compared their distribution with the original tests (Fig. 4). ص values from Fisher’s test and exomePeak were strongly enriched near zero and only slightly lower than those from the original tests. This suggests the strong signals detected by these two methods are likely to be false discoveries, consistent with the conclusion from simulation analysis. On the contrary, the histograms of ص values from RADAR were close to flat in all datasets, indicating that strong signals detected by RADAR were more likely to be true. MeTDiff exhibited well-calibrated ص values in the ovarian cancer and T2D data but enriched for small ص values in the mouse liver data with an indicated high FDR. QNB test returned conservative ص value estimates in all datasets. Taking together these analyses, we demonstrated that RADAR outperforms the alternatives by achieving high sensitivity and specificity simultaneously in real datasets.

    Benchmarking false-positive signals using permutation analysis on real m 6 A-seq data. To assess empirical FDR of the test, we permuted the phenotype labels of samples so that the new labels were not associated with true ones. Each panel shows the histograms of ص values obtained from DM tests on 15 permuted copies (blue) and those from the tests on the original dataset (red)

    To better demonstrate that RADAR detects DM sites with better sensitivity and specificity in real data, we show examples of DM site that is only detected by RADAR as well as likely false discovery sites identified by exomePeak and Fisher’s test but not by RADAR in the T2D dataset. We plot sequence coverage of individual samples for the DM sites in the RNF213 gene (Additional file 1: Figure S7A) and show despite large variability in control samples, m 6 A enrichment of T2D samples is consistently lower on this locus. Conversely, in the bogus DM sites detected by alternative methods (Additional file 1: Figure S7B, C), enrichment differences are mainly driven by one or two outlier samples in one group.

    To further demonstrate the advantage of using gene-level read counts over local read counts to account for RNA expression level, we repeated the above analysis using post-IP counts adjusted by the local read counts of INPUT. We showed that in the T2D dataset, gene-level adjustment not only enabled stronger signal detection, but also lowered FDR as we observed that the permutation analysis using local count adjustment resulted in undesired stronger signals around zero in the ص value histogram (Additional file 1: Figure S8). In the ovarian cancer and the mouse liver datasets, local count adjustment achieved higher signal detection but at the cost of a higher FDR. This analysis suggested that using gene-level read counts as the estimates of pre-IP RNA expression levels could effectively reduce FDR and lead to more accurate DM locus detections.

    Attributed to the robust representation of pre-IP RNA expression level using gene-level read counts, RADAR’s performance is more robust to the sequencing depth of INPUT samples. To demonstrate this, we applied RADAR on data created by sub-sampling the read counts of INPUT samples in the T2D dataset so that the sequencing depth is half of the full dataset (average 17.5 million reads). We compared the DM sites detected in the reduced dataset with the results obtained from the full dataset (Additional file 1: Figure S9A). Using a 10% FDR cutoff, RADAR-detected DM sites in the reduced dataset showed the highest overlap with that in the full dataset. MeTDiff and QNB only had a few overlapping DM sites between the sub-sampled and full dataset. Fisher’s test and exomePeak had slightly fewer overlaps comparing to RADAR but had more false discoveries. We further compared the log fold change (logFC) estimates from reduced and full datasets to check their consistency. As a result, we found reduced sequencing depth had the least impact on the logFC estimated by RADAR while the estimates by others are much less reproducible with a shallower sequencing depth (Additional file 1: Figure S9A).

    Unlike earlier pipelines that perform DM tests only on peaks identified from peak calling, RADAR directly tests on all filtered bins and reports DM sites. To check if the DM sites reported by RADAR are consistent with known characteristics of m 6 A, we performed de novo motif search on these sites and found DM sites detected in ovarian cancer, mouse liver, and T2D datasets are enriched for known m 6 A consensus motif (Additional file 1: Figure S10A) [18], suggesting DM sites reported by RADAR are mostly true. We also examined the topological distribution of these DM sites by metagene analysis (Additional file 1: Figure S10B). The distributions in ovarian cancer and mouse liver datasets are consistent with the topological distribution of common m 6 A sites, indicating methylation changes that occurred in these two datasets were not spatially biased. Interestingly, DM sites detected in T2D dataset are strongly enriched at 5′UTR, suggesting T2D-related m 6 A alteration are more likely to occur at 5′UTR.

    RADAR analyses of m 6 A-seq data connect phenotype with m 6 A-modulated molecular mechanisms

    Finally, we investigated whether DM test results obtained from RADAR would lead to better downstream interpretation. In the ovarian cancer dataset, we performed KEGG pathway enrichment analysis on the differential methylated genes (DMGs) detected by RADAR (Fig. 5a). We found the detected DMGs were enriched with molecular markers related to ovarian cancer dissemination [19, 20]. For instance, we identified key regulators of the PI3K (enrichment ص value 7.8 × 10 −5 ) and MAPK pathways (enrichment ص value 1.1 × 10 −4 ), including hypo-methylated PTEN and hyper-methylated BCL2 (Additional file 1: Figure S11). Other notable DMGs include key markers of ovarian cancer such as MUC16 (CA-125) and PAX8, as well as genes that play key roles in ovarian cancer biology such as CCNE1 and MTHFR. Conversely, DMGs detected by MeTDiff were only enriched in three KEGG pathways (Fig. 5b), most likely due to its inadequate power. We showed through permutation analysis that exomePeak and Fisher’s test results included a significant portion of false positives and could lead to biased downstream interpretations.

    Pathways enriched in differential methylated genes identified in ovarian cancer and T2D datasets. We performed KEGG pathway enrichment analysis using ClusterProfiler [37] on DMGs identified in the ovarian cancer dataset by RADAR (أ) and MeTDiff (ب)، على التوالى. The enrichment maps represent identified pathways as a network with edges weighted by the ratio of overlapping gene sets

    In the T2D dataset, DMGs identified by RADAR were enriched in related pathways including insulin signaling pathways, type II diabetes mellitus, mTOR pathways, and AKT pathways (Additional file 1: Table S1), indicating a role that m 6 A might play in T2D. We further analyzed these DMGs in related pathways and found the methylome of insulin/IGF1-AKT-PDX1 signaling pathway been mostly hypo-methylated in T2D islets (Additional file 1: Figure S12). Impairment of this pathway resulting in downregulation of PDX1 has been recognized as a mechanism associated with T2D where PDX1 is a critical gene regulating β cell identity and cell cycle and promoting insulin secretion [21,22,23,24]. Indeed, follow-up experiment on a cell line model validated the role of m 6 A in tuning cell cycle and insulin secretion in β cells and animal model lacking methyltransferase Mettl14 in β cells recapitulated key T2D phenotypes (results presented in a separate manuscript, [25]). To summarize, RADAR-identified DMGs enabled us to pursue an in-depth analysis of the role that m 6 A methylation plays in T2D. On the contrary, due to the incapability to take sample acquisition batches as covariates, the alternative methods were underpowered to detect DM sites in T2D dataset and could not lead to any in-depth discovery of m 6 A biology in T2D islets. These examples suggest that MeRIP-seq followed by RADAR analysis could further advance functional studies of RNA modifications.

    Validation of RADAR-detected DM sites by the SELECT method

    Recently, Xiao et al. developed an elongation and ligation-based qPCR amplification method (termed SELECT) for single nucleotide-specific detection of m 6 A [26]. This method relies on mechanism different from antibody pull-down-based MeRIP-seq to detect m 6 A, making it a suitable method for validating DM sites discovered by RADAR analysis. We selected six DM sites (Additional file 1: Table S2) including two sites only detected by RADAR and four sites in genes important in β cell for experimental validation using the SELECT method. Among six validated sites, the β cells regulator PDX1 and RADAR-specific DM sites showed significant m 6 A level alteration with ص values 0.009 and 0.017, respectively (Fig. 6). Three other sites, IGF1R in the insulin/IGF1-AKT-PDX1 signaling pathway, MAFA—another important regulator of β cell function, and RADAR-specific DM site in CPEB2, showed m 6 A changes consistent with RADAR result despite not reaching statistical significance. The sites in the TRIB3 gene are similarly methylated in control and T2D samples as measured by SELECT. Overall, five out of six experimentally validated sites were supported by orthogonal evidence by SELECT, confirming the reliability of RADAR-detected differential methylation sites.

    Experimental validation of RADAR-detected DM sites using the SELECT method. We applied antibody independent method SELECT on T2D samples (ن = 4). Shown are SELECT results of six putative DM sites for validation. SELECT measures the relative abundance of non-methylated RNA molecules of target locus as represented by the elongation and ligation “read through” of oligo probes. Thus, SELECT results—“relative read through”—are inversely correlated with m 6 A level


    3 BENCHMARK RESULTS

    We performed a benchmark study of GimmeMotifs on 18 TF ChIP-seq datasets. The ROC AUC and MNCP of the best performing motif were calculated and compared with the best motif of two other ensemble methods: SCOPE (Carlson وآخرون., 2007) and W-ChipMotifs (Jin وآخرون., 2009) (Supplementary Tables S1 and S2) . The results show that GimmeMotifs consistently produces accurate results (median ROC AUC 0.830). The method also significantly improves on the results of SCOPE (ROC AUC 0.613). The recently developed W-ChIPmotifs shows comparable results to GimmeMotifs (ROC AUC 0.824), although this tool does not cluster similar redundant motifs. In addition, the focus of GimmeMotifs is different. While the web interface of W-ChipMotifs is very useful for casual use, the command-line tools of GimmeMotifs can be integrated in more sophisticated analysis pipelines.


    شكر وتقدير

    The authors acknowledge Jacqueline E. Boyle for genotyping mice staff at Monash ARL for animal husbandry Jelena Kezic of Monash Histology Platform for processing and Haemotoxylin and Eosin staining of embryos and yolk sacs and Geza Paukovics, Phil Donaldson and Eva Orlowski from AMREP flow cytometry facility for their assistance in flow cytometry. The authors would also like to thank Bertie Gottgens, University of Cambridge, for reading the manuscript and providing insightful feedback.


    17.5: De novo motif discovery - Biology

    Understanding gene regulatory networks has become one of the central research problems in bioinformatics. More than thirty algorithms have been proposed to identify DNA regulatory sites during the past thirty years. However, the prediction accuracy of these algorithms is still quite low. Ensemble algorithms have emerged as an effective strategy in bioinformatics for improving the prediction accuracy by exploiting the synergetic prediction capability of multiple algorithms.

    نتائج

    We proposed a novel clustering-based ensemble algorithm named EMD for من جديد motif discovery by combining multiple predictions from multiple runs of one or more base component algorithms. The ensemble approach is applied to the motif discovery problem for the first time. The algorithm is tested on a benchmark dataset generated from بكتريا قولونية RegulonDB. The EMD algorithm has achieved 22.4% improvement in terms of the nucleotide level prediction accuracy over the best stand-alone component algorithm. The advantage of the EMD algorithm is more significant for shorter input sequences, but most importantly, it always outperforms or at least stays at the same performance level of the stand-alone component algorithms even for longer sequences.

    استنتاج

    We proposed an ensemble approach for the motif discovery problem by taking advantage of the availability of a large number of motif discovery programs. We have shown that the ensemble approach is an effective strategy for improving both sensitivity and specificity, thus the accuracy of the prediction. The advantage of the EMD algorithm is its flexibility in the sense that a new powerful algorithm can be easily added to the system.

    Publication Info

    نشرت في المعلوماتية الحيوية BMC, Volume 7, Issue 342, 2006.

    © BMC Bioinformatics 2006, BioMed Central

    Hu, J., Yang, Y. D., & Kihara, D. (2006). EMD: An ensemble algorithm for discovering regulatory motifs in DNA sequences. المعلوماتية الحيوية BMC, 7(342).


    Computational Biology: Toward Deciphering Gene Regulatory Information in Mammalian Genomes

    Department of Statistics, Harvard University, 1 Oxford Street, Cambridge, Massachusetts 02138, U.S.A.

    Departments of Statistics and Health Research and Policy, Stanford University, 390 Serra Mall, Stanford, California 94305, U.S.A.

    Department of Statistics, Harvard University, 1 Oxford Street, Cambridge, Massachusetts 02138, U.S.A.

    Departments of Statistics and Health Research and Policy, Stanford University, 390 Serra Mall, Stanford, California 94305, U.S.A.

    الملخص

    ملخص Computational biology is a rapidly evolving area where methodologies from computer science, mathematics, and statistics are applied to address fundamental problems in biology. The study of gene regulatory information is a central problem in current computational biology. This article reviews recent development of statistical methods related to this field. Starting from microarray gene selection, we examine methods for finding transcription factor binding motifs and رابطة الدول المستقلة-regulatory modules in coregulated genes, and methods for utilizing information from cross-species comparisons and ChIP-chip experiments. The ultimate understanding of رابطة الدول المستقلة-regulatory logic in mammalian genomes may require the integration of information collected from all these steps.


    Ectopic DNMT3L triggers assembly of a repressive complex for retroviral silencing in somatic cells

    Mammalian genomes are replete with retrotransposable elements, including endogenous retroviruses. DNA methyltransferase 3-like (DNMT3L) is an epigenetic regulator expressed in prospermatogonia, growing oocytes, and embryonic stem (ES) cells. Here, we demonstrate that DNMT3L enhances the interaction of repressive epigenetic modifiers, including histone deacetylase 1 (HDAC1), SET domain, bifurcated 1 (SETDB1), DNA methyltransferase 3A (DNMT3A), and tripartite motif-containing protein 28 (TRIM28 also known as TIF1β and KAP1) in ES cells and orchestrates retroviral silencing activity with TRIM28 through mechanisms including, but not limited to, de novo DNA methylation. Ectopic expression of DNMT3L in somatic cells causes methylation-independent retroviral silencing activity by recruitment of the TRIM28/HDAC1/SETDB1/DNMT3A/DNMT3L complex to newly integrated Moloney murine leukemia virus (Mo-MuLV) proviral DNA. Concurrent with this recruitment, we also observed the accumulation of histone H3 lysine 9 trimethylation (H3K9me3) and heterochromatin protein 1 gamma (HP1γ), as well as reduced H3K9 and H3K27 acetylation at Mo-MuLV proviral sequences. Ectopic expression of DNMT3L in late-passage mouse embryonic fibroblasts (MEFs) recruited cytoplasmically localized HDAC1 to the nucleus. The formation of this epigenetic modifying complex requires interaction of DNMT3L with DNMT3A as well as with histone H3. In fetal testes at embryonic day 17.5, endogenous DNMT3L also enhanced the binding among TRIM28, DNMT3A, SETDB1, and HDAC1. We propose that DNMT3L may be involved in initiating a cascade of repressive epigenetic modifications by assisting in the preparation of a chromatin context that further attracts DNMT3A-DNMT3L binding and installs longer-term DNA methylation marks at newly integrated retroviruses.

    Importance: Almost half of the mammalian genome is composed of endogenous retroviruses and other retrotransposable elements that threaten genomic integrity. These elements are usually subject to epigenetic silencing. We discovered that two epigenetic regulators that lack enzymatic activity, DNA methyltransferase 3-like (DNMT3L) and tripartite motif-containing protein 28 (TRIM28), collaborate with each other to impose retroviral silencing. In addition to modulating de novo DNA methylation, we found that by interacting with TRIM28, DNMT3L can attract various enzymes to form a DNMT3L-induced repressive complex to remove active marks and add repressive marks to histone proteins. Collectively, these results reveal a novel and pivotal function of DNMT3L in shaping the chromatin modifications necessary for retroviral and retrotransposon silencing.

    Copyright © 2014, American Society for Microbiology. كل الحقوق محفوظة.

    الأرقام

    DNMT3L and the ZFP809-TRIM28 pathway…

    DNMT3L and the ZFP809-TRIM28 pathway are both required for epigenetic silencing of Mo-MuLV…

    DNMT3L- and ZFP809-TRIM28-mediated Mo-MuLV silencing…

    DNMT3L- and ZFP809-TRIM28-mediated Mo-MuLV silencing in C57BL/6 background ES cells. (A) Wild-type and…

    DNMT3L facilitated the formation of…

    DNMT3L facilitated the formation of the DNMT3A/SETDB1/HDAC1 protein complex in ES cells 2…

    DNMT3L-induced retroviral silencing activity depends…

    DNMT3L-induced retroviral silencing activity depends on PBSpro sequence and functional DNMT3L harboring proper…

    DNMT3L induces retroviral silencing activity…

    DNMT3L induces retroviral silencing activity in 3T3 cells. (A) Relative mRNA expression level…

    Mo-MuLV LUC and Mo-MuLV LUC/PBSQ…

    Mo-MuLV LUC and Mo-MuLV LUC/PBSQ have the same infection titers. (A) RAT2 cells…

    DNMT3L can recruit epigenetic modifiers…

    DNMT3L can recruit epigenetic modifiers to induce repressive histone modifications on Mo-MuLV LTR…

    Ectopic DNMT3L induces the formation…

    Ectopic DNMT3L induces the formation of a repressive chromatin modifier complex in DNMT3L-expressing…

    DNMT3L induces HDAC1 translocation to…

    DNMT3L induces HDAC1 translocation to the nucleus in later-passage MEFs. The subcellular localization…

    DNMT3L facilitates the formation of…

    DNMT3L facilitates the formation of the protein complex containing DNMT3A, SETDB1, and HDAC1…


    DNA motif discovery using chemical reaction optimization

    DNA motif discovery means to find short similar sequence elements within a set of nucleotide sequences. It has become a compulsory need in bioinformatics for its useful applications such as compression, summarization, and clustering algorithms. Motif discovery is an NP-hard problem and exact algorithms cannot solve it in polynomial time. Many optimization algorithms were proposed to solve this problem. However, none of them can show its supremacy by overcoming all the obstacles. Chemical Reaction Optimization (CRO) is a population based metaheuristic algorithm that can easily fit for the optimization problem. Here, we have proposed an algorithm based on Chemical Reaction Optimization technique to solve the DNA motif discovery problem. The four basic operators of CRO have been redesigned for this problem to search the solution space locally as well as globally. Two additional operators (repair functions) have been proposed to improve the quality of the solutions. They have been applied to the final solution after the iteration stage of CRO to get a better one. Using the flexible mechanism of elementary operators of CRO along with the additional operators (repair functions), it is possible to determine motif more precisely. Our proposed method is compared with other traditional algorithms such as Gibbs sampler, AlignACE (Aligns Nucleic Acid Conserved Elements), MEME (Multiple Expectation Maximization for Motif Elicitation), and ACRI (Ant-Colony-Regulatory-Identification) by testing real-world datasets. The experimental results show that the proposed algorithm can give better results than other traditional algorithms in quality and in less running time. Besides, statistical tests have been performed to show the superiority of the proposed algorithm over other state-of-the-arts in this area.

    هذه معاينة لمحتوى الاشتراك ، والوصول عبر مؤسستك.


    شاهد الفيديو: مادة الأحيـاء للصف الأول الثانوي. الوحدة الأولى - ما علم الأحياء (أغسطس 2022).