معلومة

الارتباك حول توزيع أعداد القراءة في تسلسل الحمض النووي الريبي

الارتباك حول توزيع أعداد القراءة في تسلسل الحمض النووي الريبي


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أثناء قراءة ورقة DESeq القديمة (Anders and Huber 2010) صادفت السطر التالي.

إذا تم أخذ عينات من القراءات بشكل مستقل من مجموعة سكانية ذات كسور معينة وثابتة من الجينات ، فإن أعداد القراءة ستتبع توزيعًا متعدد الحدود ، والذي يمكن تقريبه عن طريق توزيع بواسون.

أنا غير قادر على استيعاب هذا الخط. لماذا تتبع أعداد القراءة التوزيع متعدد الحدود؟ كان تخميني هو التوزيع الغاوسي. يمكن لأي شخص أن يشرح هذا؟


مثال الكتاب المدرسي للتوزيع متعدد الحدود هو رمي النرد المتعدد. النرد العادل له الاحتمالات التالية:

الجانب 1: 16،66666666٪ الجانب 2: 16،66666666٪ الجانب 3: 16،66666666٪ الجانب 4: 16،66666666٪ الجانب 5: 16،66666666٪ الجانب 6: 16،66666666٪

لنرمي نردًا عادلاً نموذجيًا n = 20 مرة:

6 5 1 1 3 5 4 3 1 2 4 4 6 6 2 2 5 6 5 2

إذن هذه النتيجة الخاصة للمتغير متعدد الحدود أعلاه هي:

الجانب 1: 3 جانب اللفات 2: 4 جانب اللفات 3: 2 جانب اللفات 4: 3 جانب اللفات 5: 4 جانب اللفات 6: 4

لا يقتصر التوزيع متعدد الحدود على النرد العادل - يمكن التلاعب في الاحتمالات. كما أنه لا يقتصر على 6 جوانب - يمكن أن يكون هناك أي عدد من الفئات. مثال آخر في الكتب المدرسية للتوزيع متعدد الحدود هو تفريغ الكرات الملونة من كيس كبير (بلا حدود). تتوافق الاحتمالات مع نسب الكرات الملونة في الحقيبة:

أزرق: 53.283٪ أخضر: 19.956٪ برتقالي: 8.336٪ بنفسجي: 5.213٪ أحمر: 4.374٪ فضي: 3.920٪ أبيض: 2.751٪ أصفر: 2.167٪

لنحاكي n = 200 كرة تم سحبها من هذه الحقيبة في R:

عينة (ج ("B" ، "G" ، "O" ، "P" ، "R" ، "S" ، "W" ، "Y") ، استبدل = T ، الحجم = 200 ، prob = c (0.53283 ، 0.19956،0.08336،0.05213،0.04374،0.03920،0.02751،0.02167)) BSOBBGGPBOBBPGBBGGGGB PGBBPBGBGBSWBBOOGBBOG GBSBOGBBBBBOOOBOBBBBB BOOGBBYBRGBBBGPWYGBPW BSRBWGYBWBGOGBRBBGBBB BBBPRGPBBBGYGSBBBGPBB BBBGBOGPBGBGPBBGBRBPR BGWBBBBOPGBBBBBBBBGBG GRWBBGGBGOBBBBBGBBBPB BBORGBBBOBG

لذا فإن هذا المتغير متعدد الحدود للنتيجة هو:

أزرق: 102 كرة خضراء: 42 كرة برتقالية: 18 كرة أرجوانية: 14 كرة حمراء: 8 كرات فضية: 5 كرات بيضاء: 7 كرات صفراء: 4 كرات

في تسلسل الحمض النووي الريبي (RNA-seq) ، نقوم "بسحب" القراءات (الكرات) من مجموعة كبيرة من شظايا جزيئات (كدنا) المناسبة في عينة (كيس). كل قراءة تنتمي إلى جين (لون). نفترض وجود كسور ثابتة من الجينات في عينة:

الجين 1: 0.05217٪ الجين 2: 0.00319٪ الجين 3: 0.00073٪ ...

لكن ما نحصل عليه من RNA-seq (ن = ملايين من القراءات) هو عدد صحيح من القراءات:

الجين 1: 492 يقرأ الجين 2:44 يقرأ الجين 3: 5 ...

للتعليق على فكرتك حول استخدام التوزيع الغاوسي: التوزيع الغوسي مستمر لذا باستخدامه نفترض أنه يمكننا الحصول على كسور من القراءات لكل جين وهذا ليس هو الحال.


شرح وحدات التعبير الجيني: RPM ، RPKM ، FPKM ، TPM ، تصميمو TMM و SCnorm و GeTMM و ComBat-Seq

على سبيل المثال ، لقد قمت بترتيب مكتبة واحدة تحتوي على 5 ملايين قراءة (M). من بينها ، إجمالي 4 M متطابقة مع تسلسل الجينوم و 5000 قراءة مطابقة لجين معين.

  • لا يعتبر RPM تطبيع طول النص.
  • RPM مناسب لبروتوكولات التسلسل حيث يتم إنشاء القراءات بغض النظر عن طول الجين

تطبيع RPM أو CPM باستخدام حزمة Python bioinfokit (الإصدار 0.9.1 أو أحدث) (تحقق من كيفية تثبيت حزم Python) ،

RPKM (يقرأ لكل كيلو قاعدة لكل مليون قراءة خرائط)

هنا ، يتم تطبيع 10 3 لطول الجين و 10 6 لتسلسل عامل العمق.

FPKM (شظايا لكل كيلو قاعدة لكل مليون قراءة تم تعيينها) مماثلة لـ RPKM وتستخدم بشكل خاص في تجارب RNA-seq ذات النهاية المزدوجة. في تجارب RNA-seq ذات النهاية المزدوجة ، يتم تسلسل قراءتين (يسار ويمين) من جزء الحمض النووي نفسه. عندما نقوم بتعيين بيانات نهاية مقترنة ، يمكن لكل من القراءة أو قراءة واحدة فقط بجودة عالية من جزء التعيين إلى التسلسل المرجعي. لتجنب الالتباس أو العد المتعدد ، يتم حساب الأجزاء التي تم تعيين قراءة واحدة أو كليهما لها وتمثيلها لحساب FPKM.

لقد قمت بترتيب مكتبة واحدة تحتوي على 5 قراءات متتالية. من بينها ، إجمالي 4 M متطابقة مع تسلسل الجينوم و 5000 قراءة مطابقة لجين معين بطول 2000 زوج قاعدي.

  • يعتبر RPKM طول الجين للتطبيع
  • يعد RPKM مناسبًا لبروتوكولات التسلسل حيث يعتمد تسلسل القراءات على طول الجين
  • تستخدم في تجارب RNA-seq أحادية النهاية (FPKM لبيانات RNA-seq ذات النهاية المزدوجة)

لا يمثل RPKM / FPKM المقياس الدقيق للتركيز المولي النسبي للحمض النووي الريبي (rmc) ويمكن أن يكون متحيزًا نحو تحديد الجينات المعبر عنها تفاضليًا حيث أن إجمالي التعداد الطبيعي لكل عينة سيكون مختلفًا 3،4. تم اقتراح TPM كبديل لـ RPKM.

حساب تطبيع RPKM أو FPKM باستخدام حزمة Python bioinfokit (الإصدار 0.9.1 أو أحدث) (تحقق من كيفية تثبيت حزم Python) ،

TPM (النصوص لكل مليون)

  • يعتبر TPM طول الجين للتطبيع
  • TPM مناسب لبروتوكولات التسلسل حيث يعتمد تسلسل القراءات على طول الجين

تم اقتراح TPM كبديل لـ RPKM بسبب عدم الدقة في قياس RPKM. على عكس RPKM ، فإن متوسط ​​TPM ثابت ويتناسب مع التركيز المولي للحمض النووي الريبي النسبي (rmc) 3،4.

حساب تطبيع TPM باستخدام حزمة Python bioinfokit (الإصدار 0.9.1 أو أحدث) (تحقق من كيفية تثبيت حزم Python) ،

TMM (المتوسط ​​المقتطع لقيم M)

  • TMM هي طريقة تسوية بين العينة على عكس طرق التطبيع داخل العينة (RPM أو RPKM / FPKM أو TPM)
  • تفترض طريقة تطبيع TMM أن معظم الجينات لا يتم التعبير عنها بشكل تفاضلي
  • يعمل TMM على تطبيع إجمالي ناتج RNA بين العينات ولا يأخذ في الاعتبار طول الجين أو حجم المكتبة للتطبيع
  • يعتبر TMM عينة من RNA وفعالية في تطبيع العينات مع ذخيرة RNA متنوعة (مثل عينات من أنسجة مختلفة). سيكون TMM خيارًا جيدًا لإزالة تأثيرات الدُفعات أثناء مقارنة العينات من الأنسجة المختلفة أو الأنماط الجينية أو في الحالات التي يكون فيها عدد RNA مختلفًا بشكل كبير بين العينات.
  • لحساب TMM ،
    • الحصول على عدد القراءة الطبيعي لحجم المكتبة لكل جين في كل عينة
    • احسب التغير في طية السجل 2 بين العينتين (قيمة M)

    حساب تطبيع TMM باستخدام edgeR ،

    تصميم أو تصميم 2 التطبيع (طريقة متوسط ​​النسب)

    • ال تصميم (و أيضا تصميم 2) طريقة التطبيع التي اقترحها Anders and Huber ، 2010 وهي مشابهة لـ TMM
    • تصميم تفترض طريقة التطبيع أيضًا أن معظم الجينات لا يتم التعبير عنها بشكل تفاضلي
    • ال تصميم يحسب عوامل الحجم لكل عينة لمقارنة الأعداد التي تم الحصول عليها من عينات مختلفة بعمق تسلسل مختلف
    • تصميم يستخدم التطبيع متوسط ​​نسب التهم المرصودة لحساب عوامل الحجم.
      • باختصار ، يتم حساب عامل الحجم عن طريق قسمة الأعداد المرصودة لكل عينة أولاً على متوسطها الهندسي.
      • ثم يتم حساب عامل الحجم كمتوسط ​​لهذه النسبة لكل عينة.
      • يستخدم عامل الحجم هذا بعد ذلك لتطبيع بيانات العد الخام لكل عينة.

      تصميم 2 حساب التطبيع ،

      ملحوظة: تصميم 2 تتطلب أعدادًا أولية (غير طبيعية) كقيم صحيحة لتحليل التعبير التفاضلي. إذا كنت تتوقع التهم من RSEM، يوصى باستخدامه tximport لاستيراد الأعداد ثم استخدامها DESeqDataSetFromTximport () لإجراء تحليل التعبير التفاضلي باستخدام تصميم 2. بالإضافة إلى ذلك ، يمكنك أيضًا تقريب الأعداد المتوقعة من RSEM لكنها لا تقدم فوائد tximport مثل تطبيع أطوال النسخ لكل جين لتحليل التعبير على مستوى الجين 13.


      خلفية

      يوفر تسلسل (كدنا) عالي الإنتاجية (RNA-seq) صورًا لمشهد النسخ بدقة غير مسبوقة [1 ، 2]. ينتج RNA-seq عادةً الملايين من قراءات التسلسل ، كل منها يوفر القليل من المعلومات للأحداث الجينومية في الخلية. وهكذا ، على عكس المصفوفة الدقيقة ، فإن RNA-seq لها تطبيقات متنوعة للتحليلات الجينية مثل القياس الكمي للتعبير الجيني ، وإيجاد النصوص الجديدة ، واكتشاف الأشكال المتعددة للنيوكليوتيدات المفردة ، وتحرير الحمض النووي الريبي ، واكتشاف اندماج الجينات وما إلى ذلك [3-8]. من بين هذه التطبيقات ، قد يكون التقدير الكمي للتعبير الجيني وظيفة رئيسية لـ RNA-seq. يتم إجراؤه ببساطة عن طريق حساب القراءات المتوافقة مع كل منطقة من الجينات أو exon. تتمتع RNA-seq أيضًا بمزايا في هذا التطبيق على المصفوفة الدقيقة في كل من قابلية التكاثر والحساسية في اكتشاف النصوص المعبر عنها بشكل ضعيف [9].

      ركزت الأبحاث البيولوجية الجزيئية على أسئلة مثل "ما يحدث في الخلية" و "ما الذي يتغير بين ظروف الخلية المختلفة". في حين أظهرت تقنية التسلسل مزايا للإجابة على السؤال السابق ، فإن الأخير أدى إلى بعض القضايا المعقدة على النحو التالي: (1) تطبيع: في تباين أعداد RNA-seq بين ظروف الخلية المختلفة ، يمكن أن يكون لكل عينة أعماق تسلسل مختلفة وتركيبات RNA. لذلك ، يجب تطبيق التطبيع المناسب لجعل مستويات التعبير الجيني قابلة للمقارنة أو لتقدير معلمات النموذج [10-12]. (2) النمذجة الاحتمالية: نظرًا لأنهم يعدون البيانات ، فقد تم استخدام نماذج الاحتمالات المنفصلة (Poisson أو النموذج ذي الحدين السالب) لاختبار التعبير التفاضلي (DE) للجينات. يعتبر تقدير المعلمة مسألة حرجة خاصة بالنسبة للبيانات ذات التكرارات الصغيرة [9 ، 13 ، 14]. (3) التحيزات في تحليل DE: تم العثور على تحيزات مذهلة مع تحليل DE لبيانات تعداد RNA-seq في أن الجينات المعبر عنها بشكل كبير أو الجينات الطويلة لديها احتمالية أكبر لاكتشافها للتعبير عنها بشكل تفاضلي ، والتي تسمى قراءة التحيز العد و تحيز طول الجين، على التوالي [15]. أعاقت هذه التحيزات تحليل التمثيل الزائد في Gene Ontology (المشار إليه بواسطة تحليل GO) مثل أن مصطلحات GO التي تم شرحها للعديد من الجينات الطويلة لديها فرصة أكبر للاختيار. تم تطوير طريقة قائمة على إعادة التشكيل في النهاية لمراعاة تحيز الاختيار في تحليل GO [16] وتليها نُهج أخرى [17 ، 18]. نظرًا لأن تحيز عدد القراءة وتحيز طول الجين يمثلان فعليًا نفس النوع من التحيز ، فسوف نركز بشكل أساسي على تحيز عدد القراءة ونضيف بعض النتائج لتحيز طول الجين. على الرغم من التأثير العميق الذي قد يحدثه تحيز عدد القراءة على DE والتحليلات الوظيفية النهائية ، فقد لوحظ أن بعض مجموعات بيانات RNA-seq لا تعاني من مثل هذا التحيز الذي يستلزم مزيدًا من التحقيق [19 ، 20]. لاحظ أنه تم عرض انحياز طول الجين في الأصل من أجل البساطة بواسون نموذج والبيانات التقنية المكررة في الغالب [15]. وبالتالي ، يحتاج هذا التحيز إلى مزيد من التحليل من أجل التشتت المفرط بواسون نموذج (ذو حدين سالب) وبيانات مكررة بيولوجية.

      في هذه الدراسة ، يتضح أن قيمة تشتت الجين كما تم تقديرها في النمذجة ذات الحدين السالبة لعدد القراءة [13 ، 14] هي المحدد الرئيسي لتحيز عدد القراءة. وجدنا أن تحيز عدد القراءة في تحليل DE لبيانات RNA-seq كان محصوراً في الغالب على البيانات ذات التشتت الجيني الصغير مثل التكرار التقني أو بعض متطابقة وراثيا (GI) تكرار البيانات (الناتجة من خطوط الخلايا أو الكائنات الحية النموذجية الفطرية). في المقابل ، البيانات المكررة من الأفراد غير المرتبطين ، المشار إليها بواسطة مكررات غير ذات صلة، لديها قيم تشتت جيني أكبر من عشرات إلى مئات المرات من تلك الخاصة ببيانات النسخ المتماثل التقني ، ولم يُظهر تحليل DE مع مثل هذه البيانات المكررة غير ذات الصلة تحيز عدد القراءة باستثناء الجينات التي تحتوي على بعض أعداد القراءة الصغيرة (& lt عشرات). لوحظ مثل هذا النمط لمستويات مختلفة من تغييرات أضعاف DE وأعماق التسلسل. على الرغم من أن تحليل DE للتكرارات التقنية ليس ذا معنى ، إلا أنه يتم تضمينه لمقارنة الأنماط وتحديد سبب تحيز عدد القراءة. أخيرًا ، يتضح أن تحليل إثراء مجموعة الجينات (GSEA) [21] يتأثر بشدة بانحياز عدد القراءة وبالتالي ينتج عنه عددًا كبيرًا من الإيجابيات الخاطئة ، في حين أن GSEA المزيف لا يولد نتائج إيجابية خاطئة بواسطة قراءة التحيز العد. راجع أيضًا الورقة التي أعدها Zheng وزملاؤه لمعرفة الأنواع الأخرى من التحيزات في قياس التعبير الجيني لـ RNA-seq بدلاً من تحليل DE [22]. نلاحظ أيضًا دراسة حديثة تفيد بأن التشتت الصغير يؤدي إلى قوة إحصائية عالية في تحليل DE لبيانات RNA-seq [23].


      نتائج

      تقدير معامل التحجيم

      أحد المكونات الرئيسية في إجراء التطبيع الخاص بنا هو تقدير مقياس موثوق لتغير أضعاف عالمي ، يُشار إليه بـ Zي خلال هذه الورقة. يمثل هذا المقياس التغيير في إجمالي RNA أو polyA + RNA ، اعتمادًا على السكان قيد الدراسة. تم استخدام طريقتين للحصول على تقدير لتقلبات مستويات الحمض النووي الريبي في الجنين ، واحدة بيولوجية والأخرى رياضية. أولاً قمنا بعزل وقياس كمية الإجمالي و polyA + RNA من عدد متساوٍ من الأجنة في نقاط زمنية تنموية مختلفة قبل تنشيط الجينوم اللاقحي (ZGA) (خلية واحدة ، و 4 خلايا ، و 16 خلية ، و 128 خلية) وبعدها ( 3.5 حصان و 5.5 حصان). يشار إلى هذه الفترات الزمنية كعينات ما قبل وما بعد ZGA من الآن فصاعدًا. لم يتغير إجمالي مستويات الحمض النووي الريبي بشكل كبير بين المراحل ، لكننا لاحظنا اتجاهًا متناقصًا (الشكل S1a في الملف S1). زادت مستويات polyA + RNA من المرحلة 1 خلية إلى مرحلة 128 خلية ، واستقرت نحو 3.5 حصانًا وانخفضت بين 3.5 حصان و 5.3 حصان (الشكل 2 الشكل. S1b في الملف S1). نظرًا للتباين الكبير في كميات الحمض النووي الريبي المطلقة ، اخترنا استخدام نسبة polyA + RNA كمقاييس التطبيع (الشكل 2) (انظر الطرق). نشير إلى هذه المقاييس على أنها Zي السيرة الذاتية .

      تم عزل إجمالي الحمض النووي الريبي من 5 مراحل تنموية قبل وبعد ZGA واستخدم كاناميسين بولي إيه + الحمض النووي الريبي لضبط الاختلافات في عائد الحمض النووي الريبي. تم عزل PolyA + RNA وتم إنشاء أربع مكتبات (كدنا) لمقارنة نتائج qPCR باستخدام قوالب وأشعال مختلفة.

      تُظهر قياسات polyA + RNA التي تحددها طريقة معملية قياسية (خط كامل) وباستخدام المتوسط ​​المشذب لقيم M (TMM) (الخط المنقط) نمطًا متطابقًا تقريبًا أثناء التطور الجنيني المبكر مع زيادة مبكرة ونقص لاحق. المستويات مرتبطة بمرحلة الخلية الواحدة.

      في النهج الثاني ، قمنا بتقدير عوامل قياس TMM كما وصفها Robinson و Oshlack (2010) (انظر الطرق). نشير إلى عوامل القياس هذه على أنها Zي TMM. يقع Zي ترتبط قيم TMM جيدًا بـ Zي المقاييس الحيوية التي تم الحصول عليها من خلال قياسات تجريبية لـ polyA + RNA (الشكل 2). علاوة على ذلك ، مقارنة Zي أظهر TMM بين مجموعتي بيانات RNA-seq مختلفتين (مجموعة البيانات 1 [6] ، مجموعة البيانات 2 [12]) إمكانية التكاثر عبر المنصات (SOLiD3 و Illumina) ، وكذلك التكرارات (مجموعة البيانات 2) (الشكل S2a ، b في الملف S1). أيضًا ، أظهرت بيانات RNA-seq المستمدة من إجمالي RNA عدم وجود زيادة قبل ZGA (الشكل S2c في الملف S1). من هذه البيانات ، نستنتج أن هناك تقلبات كبيرة في كميات polyA + RNA أثناء التطوير ، وأن Zي TMM و Z.ي السيرة الذاتية هي تقديرات صالحة للتغيير الشامل في ظل الظروف المدروسة هنا. في ما تبقى من دراستنا ، استخدمنا العامل Z المشتق من المختبري السيرة الذاتية لمجموعة البيانات 1 و Zي موازين TMM لمجموعة البيانات 2 عند التطبيع باستخدام BSN. لقد قمنا سابقًا بتحويل الجذر التربيعي لعوامل القياس [6] ، لكن التحليل الجديد يوضح أن هذا النهج المحافظ أقل دقة من استخدام عوامل القياس بدون تحويل (الشكل S3a-c في الملف S1).

      تكشف المقارنة بين مكتبات (كدنا) المشتقة من الحمض النووي الريبي (RNA) و (polyA + RNA) عن اختلافات جوهرية

      لتحديد ما إذا كانت نتائج RT-qPCR تتأثر باستخدام إجمالي أو polyA + RNA و / أو نوع من البادئات المستخدمة لتوليد cDNA (بادئات عشوائية أو قليلة (dT)) ، أجرينا تجارب متوازية لنفس العينات باستخدام مجموعات مختلفة من القالب والاشعال. توضح النتائج أن اكتشاف الزيادة في وفرة الرنا المرسال قبل ZGA يعتمد على إثراء النصوص في جزء polyA + RNA بدلاً من إجمالي الحمض النووي الريبي (الشكل 3 الشكل S4a و b في الملف S1). تتوافق هذه النتائج مع زيادة طول ذيل polyA للنصوص الموجودة وليس كذلك من جديد النسخ خلال فترة ما قبل ZGA [6]. مستوى الزيادة بعد ZGA أكثر تشابهًا بين المكتبات الكلية و polyA + RNA (الشكل S4c في الملف S1).

      مقارنة بين نتائج RT-qPCR بناءً على polyA + ومجموع RNA و oligo (dT) والبادئات العشوائية لـ stat3. تم الكشف عن الزيادة قبل ZGA فقط في مكتبات (كدنا) المستندة إلى polyA + RNA. PolyA = polyA + RNA ، المجموع = مجموع الحمض النووي الريبي ، OdT = الأوليجو (dT) ، RP = البادئات العشوائية.

      مقارنة بين طرق التطبيع RNA-seq

      تمت مقارنة ثلاث طرق مختلفة لتطبيع بيانات RNA-seq. تم تقسيم أعداد القراءة الأولية على العدد الإجمالي لملايين القراءة المعينة في كل عينة كما هو موصوف لـ RPKM [4] ، ولكن بدون القسمة على طول النصوص ، فإن هذا النهج من هنا فصاعدًا يسمى القراءة لكل مليون (RPM). تم الحصول على قيم TMM المقيسة باستخدام حزمة R "limma" (انظر الطرق) وقيم BSN المقيسة باستخدام Excel (انظر الطرق). تمثل طرق التطبيع الثلاث هذه المجموعات الرئيسية لطرق تطبيع RNA-seq المتاحة اليوم [2]. يمكن رؤية التأثير الشامل للتطبيع في المخططات الصندوقية (الشكل 4). يحاكي BSN اتجاهات polyA + RNA العالمية (الشكل 2) ، على عكس تطبيع RPM و TMM الذي يتسبب في أن تصبح العينات أكثر تشابهًا. يوضح هذا الاختلاف الرئيسي بين طرق التطبيع مقارنة تسعى BSN للحفاظ على الاختلافات البيولوجية ، بينما يؤدي RPM و TMM إلى عينات ذات توزيع مماثل لمستويات التعبير الجيني.

      مخطط مربع لتوزيع أعداد أو قيم النص قبل (غير طبيعي) وبعد التطبيع (BSN و RPM و TMM).

      على مستوى النص الفردي ، ركزنا على نقطتين زمنيتين للتغيير الديناميكي بين مرحلة الخلية 1 ومرحلة 3.5 حصان (قبل ZGA) ، وبين 3.5 حصان و 5.3 حصان (بعد ZGA). تمت إضافة Spike-in RNA إلى كاشف Trizol قبل عزل RNA وتم استخراج polyA + RNA من أحجام متساوية من إجمالي RNA من كل مرحلة لضمان قيم RT-qPCR غير متحيزة لـ 20 نسخة مختلفة (انظر الطرق). النصوص مع زيادة خلال مراحل ما قبل ZGA (ن = 8) في 7 من 8 أمثلة أفضل تقريبها بواسطة BSN (الشكل 5 أ). بشكل عام ، كانت تغييرات أضعاف ما قبل ZGA أعلى بنسبة 55٪ و 163٪ لـ BSN مقارنة بـ RPM و TMM ، على التوالي. الأهم من ذلك ، تم أيضًا تقدير نسختين تقللان ما قبل ZGA باستخدام BSN (الشكل 5 ب). بالنسبة لجميع النصوص الـ 11 التي تم فحصها بتناقص التعبير بين 3.5 و 5.3 حصان ، تكون القيم المقدرة لـ BSN في جميع الحالات الأقرب إلى نتائج qPCR (الشكل 5 ج). ل sod2، حتى أن هناك اختلافًا في اتجاه تغيير الطية المقدّر بين قيم BSN و TMM المقيسة. بالنسبة للنصوص التي تم فحصها بزيادة من 3.5 إلى 5.3 حصان (ن = 9) ، فإن قيم BSN هي الأقرب إلى معيار qPCR في جميع الحالات (الشكل 5 د). بالنسبة لبعض هذه النصوص ، اكتشفنا اختلافات جوهرية بين نتائج qPCR و RNA-seq (تاردبل, بكتريا 2, tex10, ملف ctcf) لكن هذا مستقل عن طريقة التطبيع. في المتوسط ​​، كانت تغييرات الطية بعد ZGA أقل بنسبة 32٪ و 64٪ بالنسبة لـ BSN ، مقارنة بـ RPM و TMM. كان أداء طريقة BSN أفضل أيضًا عند استخدام حسابات كفاءة التمهيدي لضبط تغييرات الطيات ، وتم تقليل التناقضات بين qPCR و RNA-seq (الشكل S5 في الملف S1). تُظهر نتائجنا مجتمعة زيادة كبيرة في الدقة باستخدام BSN مقارنةً بتطبيع RPM و TMM.

      تغييرات الطية المتحولة Log2 التي تقارن بيانات RT-qPCR و RNA-seq التي تم تطبيعها باستخدام RPM و TMM و BSN للنصوص التي تزيد ما قبل ZGA (أ) ، وتقليل ما قبل ZGA (ب) ، وتقليل ما بعد ZGA (ج) وزيادة المشاركة -ZGA (د).

      كشفت المقارنات بين طرق التطبيع و qPCR للنصوص المتغيرة بعد ZGA باستخدام مجموعة البيانات 2 عن نفس الاتجاه كما في مجموعة البيانات 1 ومع ذلك ، كان هناك تباين أقل بين نتائج qPCR و RNA-seq (الشكل S6a ، b في الملف S1). كانت مستويات التعبير المعياري BSN الأقرب إلى قيم qPCR في 10 من 11 مثالًا للنصوص الخاضعة للتنظيم ، وفي جميع الحالات للنصوص المنظمة.


      ملخص المؤلف

      يستخدم مجال الترانسكريبتوميات mRNA ويقيسها كوكيل للتعبير الجيني. يوجد حاليًا منصتان رئيسيتان قيد الاستخدام لقياس mRNA و microarray و RNA-Seq. أظهرت العديد من الدراسات المقارنة أن نتائجها ليست متسقة دائمًا. في هذه الدراسة ، نهدف إلى إيجاد طريقة قوية لزيادة إمكانية المقارنة بين كلا النظامين الأساسيين مما يتيح تحليل بيانات البيانات المدمجة من كلا النظامين الأساسيين. قمنا بتحويل بيانات النسخ عالية الأبعاد من النظامين الأساسيين المختلفين إلى درجات مجموعة الجينات ذات الأبعاد الأقل وذات الصلة بيولوجيًا. تم تعريف مجموعات الجينات هذه مسبقًا على أنها مجموعة محددة من الجينات (على سبيل المثال ، منظمة في مسار معين). لاحظنا أنه على الرغم من أن مستويات التعبير ميكروأري و RNA-Seq قد تبدو مختلفة ، فإن استخدام مجموعات الجينات هذه لتحويل البيانات يزيد بشكل كبير من ارتباطها. هذه خطوة إلى الأمام في تكامل البيانات بين النظامين الأساسيين. يُقترح إجراء المزيد من التحقيقات المتعمقة حول تأثير التركيب والحجم وعدد مجموعات الجينات المستخدمة في التحول للبحث في المستقبل.

      الاقتباس: van der Kloet FM و Buurmans J و Jonker MJ و Smilde AK و Westerhuis JA (2020) زيادة المقارنة بين بيانات RNA-Seq و microarray عن طريق استخدام مجموعات الجينات. بلوس كومبوت بيول 16 (9): e1008295. https://doi.org/10.1371/journal.pcbi.1008295

      محرر: جيسون أ. بابين ، جامعة فيرجينيا ، الولايات المتحدة

      تم الاستلام: 1 نوفمبر 2019 وافقت: 27 أغسطس 2020 نشرت: 30 سبتمبر 2020

      حقوق النشر: © 2020 فان دير كلويت وآخرون. هذا مقال مفتوح الوصول يتم توزيعه بموجب شروط ترخيص Creative Commons Attribution License ، والذي يسمح بالاستخدام غير المقيد والتوزيع والاستنساخ في أي وسيط ، بشرط ذكر المؤلف والمصدر الأصليين.

      التمويل: تم دعم FK مالياً من قبل Amsterdam Academic Alliance Data Science (https://amsterdamdatascience.nl/). لم يكن للممولين دور في تصميم الدراسة أو جمع البيانات وتحليلها أو اتخاذ قرار النشر أو إعداد المخطوطة.

      تضارب المصالح: وقد أعلن الباحثون إلى أن لا المصالح المتنافسة موجودة.


      التعبير التفاضلي مع limma-voom

      يوصى بتصفية الجينات المعبر عنها بشكل ضعيف عند تشغيل أداة limma-voom. توفر الجينات ذات التعداد المنخفض جدًا في جميع العينات القليل من الأدلة للتعبير التفاضلي وتتداخل مع بعض التقديرات الإحصائية التي يتم استخدامها لاحقًا في خط الأنابيب. كما أنها تضيف إلى عبء الاختبار المتعدد عند تقدير معدلات الاكتشاف الخاطئ ، مما يقلل من القدرة على اكتشاف الجينات المعبر عنها تفاضليًا. يجب تصفية هذه الجينات قبل إجراء مزيد من التحليل.

      هناك عدة طرق لتصفية الجينات منخفضة التعبير. عندما تكون هناك مكررات بيولوجية في كل مجموعة ، في هذه الحالة يكون لدينا حجم عينة 2 في كل مجموعة ، فإننا نفضل التصفية على حد أدنى من التعداد لكل مليون (CPM) موجود في عينتين على الأقل. يمثل اثنان أصغر حجم عينة لكل مجموعة في تجربتنا. في مجموعة البيانات هذه ، نختار الاحتفاظ بالجينات إذا تم التعبير عنها بتكلفة لكل ألف ظهور أعلى من 0.5 في عينتين على الأقل. يمكن مقارنة حد التكلفة لكل ألف ظهور المحدد بالعدد الأولي باستخدام CpmPlots (انظر أدناه).

      تفاصيل مزيد من التفاصيل حول التصفية

      تستخدم أداة limma وظيفة cpm من حزمة edgeR Robinson و McCarthy و Smyth 2010 لتوليد قيم التكلفة لكل ألف ظهور والتي يمكن تصفيتها بعد ذلك. لاحظ أنه من خلال التحويل إلى التكلفة لكل ألف ظهور ، فإننا نعمل على تطبيع أعماق التسلسل المختلفة لكل عينة. يتم استخدام تكلفة الألف ظهور 0.5 لأنها تتوافق مع عدد من 10 إلى 15 لأحجام المكتبة في مجموعة البيانات هذه. إذا كان العدد أصغر ، فإنه يعتبر منخفضًا جدًا ، مما يشير إلى أن الجين المرتبط لا يتم التعبير عنه في تلك العينة. يتم استخدام مطلب للتعبير في مكتبتين أو أكثر حيث تحتوي كل مجموعة على نسختين متماثلتين. هذا يضمن أن الجين سيتم الاحتفاظ به إذا تم التعبير عنه في مجموعة واحدة فقط. عادةً ما تكون عتبات CPM الأصغر مناسبة للمكتبات الأكبر. كقاعدة عامة ، يمكن اختيار عتبة جيدة عن طريق تحديد التكلفة لكل ألف ظهور الذي يتوافق مع عدد 10 ، وهو في هذه الحالة حوالي 0.5. يجب عليك التصفية باستخدام الكلفة بالألف ظهور (CPM) بدلاً من التصفية على الأعداد مباشرة ، حيث أن هذا الأخير لا يأخذ في الحسبان الاختلافات في أحجام المكتبات بين العينات.


      أساليب

      جمع العينات وإعداد المكتبة

      حصلنا على بيانات إحصاء قراءة RNA-Seq من الأفراد ذبابة الفاكهة لوحة المرجع الجيني (DGRP) الذباب [34 ، 35]. يتم توفير تفاصيل استخراج الحمض النووي الريبي وإعداد المكتبة في ملف إضافي 4: الطرق التكميلية. باختصار ، جمعنا 8 ذكور عذراء و 8 إناث عذراء من 16 نمطًا وراثيًا من DGRP لدراستنا في ثلاث مكررات بيولوجية منفصلة. الأنماط الجينية التي تم فحصها كانت: راؤول-93, راؤول-229, راؤول-320, راؤول-352, راؤول-370, راؤول-563, راؤول-630, راؤول-703, راؤول-761, راؤول-787, راؤول-790, راؤول-804, راؤول-812, راؤول-822, راؤول-850 و راؤول-900. تم تجميد الذباب بعد 7 أيام من الكسوف في 96 طبق جيد. قمنا بتكرار التجربة ثلاث مرات لإنتاج 768 تسلسل من الحمض النووي الريبي. للسيطرة على الظروف البيئية ، قمنا بزرع مزارع الذباب مع 5 ذكور و 5 إناث قاموا بتربية الذباب في حاضنة واحدة وفقًا للمعايير. ذبابة الفاكهة طعام (بلومنجتون ، إنديانا) عند 25 درجة مئوية ، ورطوبة 60٪ ، وضوء 12: 12 ساعة: دورة مظلمة جمعت ذكور وإناث من الذباب البكر للسيطرة على حالة التزاوج ، حافظت على العذارى عند 20 إلى قارورة من نفس الجنس لمدة أربعة أيام قبل إلى استخراج الحمض النووي الريبي للتحكم في التعرض الاجتماعي [36] وتجميد جميع الذباب لاستخراج الحمض النووي الريبي في نفس الوقت اليومي (1:00 مساءً). لقد عزلنا الحمض النووي الريبي الكلي باستخدام RNeasy 96 Plate Kit (Qiagen ، فالنسيا ، كاليفورنيا) وفقًا لتعليمات الشركة المصنعة باستخدام تقنية الفراغ أو الدوران كما تم تعديلها في الملف الإضافي 4: الطرق التكميلية. أضفنا 96 من الحمض النووي الريبي الاصطناعي ERCC للتحكم في الارتفاع إلى إجمالي الحمض النووي الريبي قبل إعداد المكتبة. تم إعداد المكتبات الخاصة بالجدار 300-350 نقطة أساس في الحجم عن طريق تعديل بروتوكول موجود [37] (ملف إضافي 4).

      قد يكون الاختلاف في أعداد القراءة بين الذباب الفردي بسبب الاختلافات البيولوجية ، أو قد يكون بسبب الاختلاف التقني في إعداد المكتبة وتسلسلها. قمنا بإعداد مكتبات RNA-Seq مكررة لـ 118 ذبابة تم اختيارها عشوائيًا. لتحديد ما إذا كانت اختلافات عدد القراءة التي لوحظت بين الذباب بيولوجية أو تقنية ، فإننا نلائم نموذجًا خطيًا معممًا لبيانات عدد القراءة المقيسة DESeq. اعتبر النموذج كل ذبابة فردية (F) كعامل ومكتبات RNA-Seq المكررة كنسخ مكررة داخل العامل.

      بينما تم التعبير عن 9495 جينًا بشكل تفاضلي بين الذباب الفردي ، لم يتم التعبير عن أي من عناصر التحكم في الارتفاع المفاجئ في ERCC بشكل تفاضلي ، مما يشير إلى وجود تأثيرات بيولوجية كبيرة وليست تقنية (FDR & lt0.05). درسنا أيضًا الاختلافات التقنية من خلال رسم الاختلاف المطلق في أعداد القراءة الأولية (غير الطبيعية) بين مكتبات النسخ المتماثل لكل عينة (ملف إضافي 1: الشكل S8). الاختلافات بين المكتبات أقل من عتبة التعبير المنخفض (النسبة المئوية 95 من أعداد القراءة الأولية بين الجينات) ، مما يشير إلى وجود اختلاف تقني بسيط بين المكتبات.

      إجراءات ضمان الجودة

      استخدمنا بيانات التسلسل الأولي للتحقق من فهرس تجمع التسلسل ، والنمط الجيني ، والتسمية الجنسية لكل ذبابة ، لتحديد عتبة للتعبير الجيني المنخفض (غير القابل للكشف) ، ولتقييم التباين التقني بين تحضيرات المكتبة. بحثنا في بيانات التسلسل الأولي لجميع المؤشرات الـ 24 المستخدمة في التجربة من أجل تأكيد الفهرس المتوقع وتحديد أي مؤشرات ملوثة. احتفظنا بجميع العينات بنسبة 95٪ أو أكثر من المؤشر المتوقع في التحليل. تم تسلسل خطوط DGRP بالكامل [34 ، 35] وبالتالي ، تمكنا من استخدام مواقع تعدد أشكال النوكليوتيدات المفردة المعروفة (SNP) للتحقق من النمط الجيني لكل ذبابة. المكالمات الأساسية في 2،192،560 موقعًا إعلاميًا SNP معروفة لجميع خطوط DGRP البالغ عددها 16. تم استخراج المكالمات الأساسية من بيانات التسلسل باستخدام SAMtools mpileup [38] لمواقع SNP التي تحتوي على أكثر من قراءتين. لقد طلبنا أن تكون الاستدعاءات الأساسية موجودة في أكثر من 95٪ من القراءات مع أقل من 5٪ أخطاء فنية من التسلسل. تم اختيار 1000 موقع SNP عبر الجينوم لها استدعاء أساسي في أكبر عدد من العينات لتحديد كل خط DGRP بشكل فريد. حسبنا الاختلافات في تعدد الأشكال بين كل عينة ذبابة و SNPs المعروفة في كل خط DGRP باستخدام متغيرين للقياس ص اي جاي و ص اي جاي.

      ،أين د اي جاي هو عدد مواقع SNP غير المتطابقة بين العينة أنا وخط DGRP ي و م اي جاي هو عدد مواقع SNP المتطابقة بين العينة أنا وخط DGRP ي. ( _= 1- فارك<>- دقيقة اليسار (_ حق)><>_ يمين) - دقيقة يسار (_ يمين)> ) ، حيث ماكس (ص أنا.) هو الحد الأقصى ص اي جاي أكثر من العينة أنا وجميع خطوط DGRP ، و min (ص أنا.) هو الحد الأدنى من ص اي جاي أكثر من العينة أنا وجميع خطوط DGRP. ص اي جاي له قيمة مع النطاق [0،1] ، حيث ص اي جاي = 1 متى ص اي جاي = دقيقة (ص أنا.) و ص اي جاي = 0 عندما ص اي جاي = ماكس (ص أنا.). تم تعيين النمط الجيني لكل ذبابة إلى خط DGRP الذي يحتوي على ص اي جاي = 1. استخدمنا مستوى 5٪ لتوزيع ص اي جاي عبر الأنماط الجينية ، 0.10 ، كحد أدنى لعدد النيوكلوتايد غير المتطابق المقبول. قمنا بتضمين جميع تسلسلات الطيران التي يمكن تخصيصها لخط DGRP المتوقع في التحليلات اللاحقة.

      بعض الجينات الموجودة على كروموسوم Y لها تكرارات في مناطق أخرى من الجينوم ، والكروموسوم Y فقير الجينات ، وبالتالي فإن تعيين التسلسلات على كروموسوم Y ليس مؤشرًا موثوقًا للجنس. استخدمنا المستويات العالية المعروفة من إزدواج الشكل الجنسي في ذبابة الفاكهة التعبير الجيني [39-46] للتحقق من جنس كل ذبابة. حددنا عينة قياسية من الذكور على أنها القيمة المتوسطة لعدد القراءة الطبيعية لكل جين عبر جميع عينات الذكور ، وحددنا عينة معيارية من الإناث بنفس الطريقة. قمنا بحساب معاملات ارتباط سبيرمان لتعداد القراءة الطبيعي بين كل عينة ذبابة وكل معيار جنس. أظهرت المقارنة أن 95٪ من الذباب كان له ارتباط 0.795 أو أقل بمعيار الجنس الآخر. لذلك طلبنا ارتباطًا بمقدار 0.795 أو أكثر لكل ذبابة بمعيارها من نفس الجنس كحد أدنى للتحقق من الجنس. لقد أزلنا تسلسل أي ذبابة لم تجتاز اختبارات جودة التركيب الوراثي والجنس ، والعينات التي فشلت في استخراج الحمض النووي الريبي أو إعداد المكتبة ، والعينات التي لم تحتوي على 2.5 مليون قراءة محددة على الأقل (اتحاد ModENCODE ، الاتصال الشخصي) وهذا تركنا مع بيانات التسلسل لـ 726 ذبابة. تتوفر مجموعة البيانات هذه والمعلومات الإضافية في NCBI Gene Expression Omnibus (GEO) تحت رقم الانضمام GSE60314.

      تحديد عتبة التعبير التجريبي المنخفض

      لقد حددنا عتبة التعبير الجيني بناءً على مقارنة توزيع أعداد القراءة في مناطق الجينات المشروحة (تعليق Flybase 5.57) [47] لقراءة الأعداد التي لوحظت في المناطق الجينية. قمنا بتجميع أعداد القراءة من جميع المناطق الجينية. أزلنا جميع المناطق الجينية الأصغر من طول القراءة البالغ 76 نقطة أساس ، حيث لن تكون هناك قراءات فريدة لهذه المناطق. نظرًا لأن أي طريقة تطبيع مستخدمة ستغير توزيع أعداد القراءة ، فقد أنشأنا مخططات توزيع منفصلة لكل طريقة تسوية وبيانات العد غير المقيسة. قمنا بدمج البيانات الجينية وبين الجينات وقمنا بتطبيعها ، ثم قمنا برسم التوزيعات بشكل منفصل. لقد اخترنا النسبة المئوية الخامسة والتسعين للتوزيع الجيني كمستوى عتبة منخفض للتعبير الجيني [20]. أزلنا تلك الجينات التي لديها أعداد قراءة طبيعية أقل من مستوى العتبة المنخفضة في جميع العينات. عندما تم تطبيق إستراتيجية التصفية هذه ، تم تطبيقها على أعداد القراءة الطبيعية من المناطق الجينية فقط. يمكن تنفيذ هذا التحليل باستخدام خط الأنابيب في ملف إضافي 5.

      تطبيع تسلسل الحمض النووي الريبي

      قمنا بفحص التأثير الذي تحدثه طرق تطبيع حساب القراءة على تحديد الجينات المعبر عنها تفاضليًا. لقد درسنا تأثير سبع طرق تطبيع شائعة مستخدمة في تحليل بيانات تسلسل الحمض النووي الريبي بالإضافة إلى العدد غير الطبيعي للقراءات التي تم تعيينها بشكل فريد لكل جين. طبقنا تطبيع العدد الإجمالي (TC) [9 ، 21] ، التطبيع في الربع العلوي (UQ) [6] ، التطبيع المتوسط ​​(Med) [21] ، التطبيع الكمي الكامل (Q) [23 ، 24] ، يقرأ لكل كيلو قاعدة لكل مليون mapped reads (RPKM) [7], trimmed mean of M-values (TMM) [22], and the normalization method supplied in the DESeq package (DESeq) [13] (see Additional file 5 for pipeline). Here we defined the un-normalized number of reads (counts) that mapped uniquely to each gene as the raw count data (RC). To use the TC, UQ, and Med normalization methods, the raw count data in each sample is divided by a ratio. For the TC method, the ratio is the total number of mapped reads for a given sample divided by the mean total number of mapped reads across all samples. Likewise, the UQ ratio is the upper quartile of the raw count data across all genes in each sample divided by the mean upper quartile across all samples. In addition, the Med ratio is the median read counts for all genes in a given sample divided by the median read across all samples. Both the upper quartile and the median ratios are calculated after removing genes with zero read counts across all samples from the data. The Q normalization equalizes the distribution of raw counts across samples by ranking the raw counts for each gene in each sample and applying a new mean count for each gene based upon rank. RPKM normalization is widely used for RNA-Seq data and consists of multiplying the raw counts for each gene in each sample by a factor incorporating both sequencing depth and gene length [7]. The trimmed mean of M-values (TMM) normalization [22] is accomplished in two steps. In the first step, the gene-wise log fold-changes (M-values) and absolute expression levels (A-values) are calculated, respectively, where

      ث is the weight calculated as the inverse of approximate asymptotic variance as given by the following expression:

      To obtain the TMM-normalized read counts when using the DESeq program, we also divided the normalized read counts by the mean of the normalized library size [21].

      Like the TMM normalization, DESeq normalization requires a reference sample to calculate the scaling factor for normalization [13]. DESeq constructs the reference sample as the geometric mean of raw counts across all samples for each gene. The scaling factor for each sample is then calculated as the median of the ratio of raw counts of the sample and the reference sample across all genes.

      In addition to the seven normalization methods applied above, we also considered a recently published normalization method called remove unwanted variation with negative control genes (RUVg) [8]. RUVg normalization assumes that a set of negative control genes is available and the expression of these negative control genes are affected by technical, but not biological, sources of variation in the same way as gene read counts. RUVg normalization constructs the factors that capture technical variation from negative control genes, which are treated as additional covariates in the models for differential expression analysis. We used External RNA Control Consortium (ERCC) spike-ins during library preparation [5] 32 of these spike-ins were added across all samples and did not vary with biological sources of variation when compared as replicate libraries. We used these 32 ERCC spike-ins as negative control genes and applied the RUVSeq R package [8] to normalize our read count data.

      Count data distribution estimations

      We modeled the count data as both a negative binomial distribution and as a normal distribution. To model the count data as a negative binomial (NB) distribution, [13, 26, 48], we assumed that the number of read counts for gene أنا in sample ك can be modeled by

      أين ميكرومتر ik is the mean, and σ 2 ik is the variance. The mean is

      and the relation between variance and mean is given as:

      The dispersion parameter ϕ أنا determines the extent to which the variance exceeds the mean. We used the DESeq و edgeR packages to estimate the dispersion parameter [13, 14] (Additional file 5).

      Another strategy for RNA-Seq count data analysis is to model a normal distribution by ln-transforming normalized count data. This is done by simply taking the ln of the read count data then applying standard microarray analysis techniques [49, 50] using the limma R package (Additional file 5). We used both the negative binomial and the normal distribution to model the read count data.

      Model fitting and hypothesis testing

      To understand how gene expression varies among individual flies, we tested each gene for differential expression among DGRP genotype, environment, sex, and their interactions. For count data modeled with a negative binomial distribution, we fitted the following generalized linear model (GLM) for each gene أنا:

      أين س is sex, جي represents the DGRP genotype, and ه is the environmental condition. To test the significance of all factors in the model, we fitted the following series of models:

      To test each term of the main effects, we used Model 1 as the full model, and calculated the likelihood ratio between Model 1 و Model 1 with each of the main effects removed in turn, which we term the reduced Model 1. The likelihood ratio statistic comparing these two models is simply the difference between the deviances of the full model and the reduced model

      To test the two-way interaction terms جي × ه, جي × س، و ه × س, we used the same approach we added each term to be tested in turn, defining it as the full model, and compared it to the previous reduced version of the model. على سبيل المثال، Model 2(b) و 2(a) were used to find genes with a significant جي × س interaction Model 2(b) was the full model, while Model 2(a) was the reduced model. To test the significance of the three-way interaction term س × جي × ه, we used the same approach, where Model 2 was the reduced model. Inspection of the Model 2, 2(a)، و 2(b) equations above suggests that differential expression detected for each first-order interaction term is dependent upon its ordering in the equation. We therefore compared this analysis with two other ways of detecting differential gene expression for first-order interaction terms. In the second approach, we used the Model 1 as the reduced model and then added each first-order interaction term in turn to Model 1 to test the significance of each first-order interaction term. In the third approach, we assessed the contribution of each first-order interaction term by using Model 2 as the full model and Model 2 without each of the first-order interaction terms in turn as the reduced model.

      In addition to using the GLM with negative binomial distribution to model the count data, we also evaluated the ln-transformation of the normalized count data combined with analysis of variance (ANOVA), which we called the ln&ANOVA method. We ln-transformed the normalized read counts and then fitted the ANOVA model below using SAS (version 9.3) [25]:

      أين س, جي، و ه are as defined above, and β 0 is the intercept, while ε is error.

      Correction for multiple tests

      The Benjamini-Hochberg procedure [51] was used to control the false discovery rate (FDR) based on the ص-values obtained from the analysis. Genes having ص-values with an FDR threshold of < 0.05 were designated as differentially expressed (Additional file 5).

      Statistical power calculations

      For a fixed-effect multi-factor ANOVA model, the test statistic has an F distribution under the null hypothesis [52]. The test statistic has a non-central F distribution with non-centrality parameter φ when the null hypothesis is false [52]. Thus, the power of an F test is the probability that the observed test statistic is greater than a critical value of the test, where the probability is calculated using the significance level and non-centrality parameter λ (or φ). Given an ANOVA model with three fixed factors [52, 53], the non-centrality parameter for testing the three-way interaction term with balanced design is given as ( lambda =frac<^a^b^c_^2>>>> ) or ( ^2=frac^asum_^bsum_^c_^2>> ) , where a, b, c are the number of conditions for the three main effects (i.e., a = 16, b = 3 and c = 2), and (αβγ) ijk is the difference between the condition mean and the value that would be expected if main effects and two-way interaction terms are sufficient to account for all factor effects. By introducing a new parameter ( d=frac< max left(_ ight)- min left(_ ight)>=frac ) [54], it can be shown that the minimum value of λ is ( frac<>^2> <2>) , that is ( frac<>^2><2^2> ) , where ميكرومتر ijk refers to the mean of the three-way interaction condition for the first factor at the أنا th level, the second factor at the ي th level and the third factor at the ك th level. For our data, ميكرومتر ijk is the mean of ln-transformed normalized counts under the condition of أنا th genotype, ي th environmental condition and ك th sex D is called the fold-change. Hence we can calculate a conservative power estimate using the ln-transformed normalized counts, the desired significance level, sample size (1–8 flies), and variance σ 2 (as estimated by the mean sum of squares).

      Implementation of analysis

      Additional file 5 provides the R code used to implement these analyses.

      بيان الأخلاق

      The research performed in this study on the fruit fly, ذبابة الفاكهة سوداء البطن, did not require approval from an ethics committee.


      SimSeq: a nonparametric approach to simulation of RNA-sequence datasets

      Motivation: RNA sequencing analysis methods are often derived by relying on hypothetical parametric models for read counts that are not likely to be precisely satisfied in practice. Methods are often tested by analyzing data that have been simulated according to the assumed model. This testing strategy can result in an overly optimistic view of the performance of an RNA-seq analysis method.

      نتائج: We develop a data-based simulation algorithm for RNA-seq data. The vector of read counts simulated for a given experimental unit has a joint distribution that closely matches the distribution of a source RNA-seq dataset provided by the user. We conduct simulation experiments based on the negative binomial distribution and our proposed nonparametric simulation algorithm. We compare performance between the two simulation experiments over a small subset of statistical methods for RNA-seq analysis available in the literature. We use as a benchmark the ability of a method to control the false discovery rate. Not surprisingly, methods based on parametric modeling assumptions seem to perform better with respect to false discovery rate control when data are simulated from parametric models rather than using our more realistic nonparametric simulation strategy.

      Availability and implementation: The nonparametric simulation algorithm developed in this article is implemented in the R package SimSeq, which is freely available under the GNU General Public License (version 2 or later) from the Comprehensive R Archive Network (http://cran.rproject.org/).

      اتصل: [email protected]

      Supplementary information: Supplementary data are available at Bioinformatics online.


      Identifying Differentially Expressed Genes from RNA-Seq Data

      This example shows how to test RNA-Seq data for differentially expressed genes using a negative binomial model.

      مقدمة

      A typical differential expression analysis of RNA-Seq data consists of normalizing the raw counts and performing statistical tests to reject or accept the null hypothesis that two groups of samples show no significant difference in gene expression. This example shows how to inspect the basic statistics of raw count data, how to determine size factors for count normalization and how to infer the most differentially expressed genes using a negative binomial model.

      The dataset for this example comprises of RNA-Seq data obtained in the experiment described by Brooks et al. [1]. The authors investigated the effect of siRNA knock-down of pasilla, a gene known to play an important role in the regulation of splicing in ذبابة الفاكهة سوداء البطن . The dataset consists of 2 biological replicates of the control (untreated) samples and 2 biological replicates of the knock-down (treated) samples.

      Inspecting Read Count Tables for Genomic Features

      The starting point for this analysis of RNA-Seq data is a count matrix, where the rows correspond to genomic features of interest, the columns correspond to the given samples and the values represent the number of reads mapped to each feature in a given sample.

      The included file pasilla_count_noMM.mat contains two tables with the count matrices at the gene level and at the exon level for each of the considered samples. You can obtain similar matrices using the function featurecount .

      Note that when counting is performed without summarization, the individual features (exons in this case) are reported with their metafeature assignment (genes in this case) followed by the start and stop positions.

      You can annotate and group the samples by creating a logical vector as follows:

      Plotting the Feature Assignments

      The included file also contains a table geneSummaryTable with the summary of assigned and unassigned SAM entries. You can plot the basic distribution of the counting results by considering the number of reads that are assigned to the given genomic features (exons or genes for this example), as well as the number of reads that are unassigned (i.e. not overlapping any feature) or ambiguous (i.e. overlapping multiple features).

      Note that a small fraction of the alignment records in the SAM files is not reported in the summary table. You can notice this in the difference between the total number of records in a SAM file and the total number of records processed during the counting procedure for that same SAM file. These unreported records correspond to the records mapped to reference sequences that are not annotated in the GTF file and therefore are not processed in the counting procedure. If the gene models account for all the reference sequences used during the read mapping step, then all records are reported in one of the categories of the summary table.

      Plotting Read Coverage Across a Given Chromosome

      When read counting is performed without summarization using the function featurecount , the default IDs are composed by the attribute or metafeature (by default, gene_id) followed by the start and the stop positions of the feature (by default, exon). You can use the exon start positions to plot the read coverage across any chromosome in consideration, for example chromosome arm 2L.

      Alternatively, you can plot the read coverage considering the starting position of each gene in a given chromosome. The file pasilla_geneLength.mat contains a table with the start and stop position of each gene in the corresponding gene annotation file.

      Normalizing Read Counts

      The read count in RNA-Seq data has been found to be linearly related to the abundance of transcripts [2]. However, the read count for a given gene depends not only on the expression level of the gene, but also on the total number of reads sequenced and the length of the gene transcript. Therefore, in order to infer the expression level of a gene from the read count, we need to account for the sequencing depth and the gene transcript length. One common technique to normalize the read count is to use the RPKM (Read Per Kilobase Mapped) values, where the read count is normalized by the total number of reads yielded (in millions) and the length of each transcript (in kilobases). This normalization technique, however, is not always effective since few, very highly expressed genes can dominate the total lane count and skew the expression analysis.

      A better normalization technique consists of computing the effective library size by considering a size factor for each sample. By dividing each sample's counts by the corresponding size factors, we bring all the count values to a common scale, making them comparable. Intuitively, if sample A is sequenced N times deeper than sample B, the read counts of non-differentially expressed genes are expected to be on average N times higher in sample A than in sample B, even if there is no difference in expression.

      To estimate the size factors, take the median of the ratios of observed counts to those of a pseudo-reference sample, whose counts can be obtained by considering the geometric mean of each gene across all samples [3]. Then, to transform the observed counts to a common scale, divide the observed counts in each sample by the corresponding size factor.

      You can appreciate the effect of this normalization by using the function boxplot to represent statistical measures such as median, quartiles, minimum and maximum.

      Computing Mean, Dispersion and Fold Change

      In order to better characterize the data, we consider the mean and the dispersion of the normalized counts. The variance of read counts is given by the sum of two terms: the variation across samples (raw variance) and the uncertainty of measuring the expression by counting reads (shot noise or Poisson). The raw variance term dominates for highly expressed genes, whereas the shot noise dominates for lowly expressed genes. You can plot the empirical dispersion values against the mean of the normalized counts in a log scale as shown below.

      Given the small number of replicates, it is not surprising to expect that the dispersion values scatter with some variance around the true value. Some of this variance reflects sampling variance and some reflects the true variability among the gene expressions of the samples.


      Why do we need to model RNA-seq data using Poisson, negative binomial,

      I am a biologist and use different packages like DESeq, . to normalize my data and find deferential expressed genes.
      Recently I have started to learn probability and statistics and I have studied distributions quite well. But I still have a problem: I think I do not very well understand why we really use this distributions to infer expression levels for genes, normalization, find differential expressed genes?

      Why do we need e.g. Poisson model, negative binomial, . for obtaining an approximate expression level? or in a package called mmseq: "Expression levels are inferred for each transcript using the mmseq program by modelling mappings of reads or read pairs (fragments) to sets of transcripts"!! why modeling? why do we need to estimate expression level while we can directly count the number of reads per gene?

      Or why is it appropriate to model read counts as a e.g. Poisson process?

      Is it only due to the fact that knowing the distribution (e.g negative binomial which can very well explain the observed counts, considering noise, . ) help us to apply the right properties like mean, var, . on data or there are more things to learn from the distributions?

      Sorry if my question is primitive but it is a long time that I am struggling with that


      شاهد الفيديو: تابع انواع الاحماض النووية الريبوزية الصف الثالث الثانوى (قد 2022).


تعليقات:

  1. Khuzaymah

    هذه هي العبارة الثمينة

  2. Tin

    أنصحك بزيارة موقع يوجد فيه العديد من المقالات حول هذا السؤال.

  3. Terr

    يا له من موضوع رائع

  4. Steven

    أعتقد أنه خطأ. أنا متأكد. دعونا نحاول مناقشة هذا.

  5. Dayton

    أعتقد أنك لست على حق. أنا متأكد. سنناقش.



اكتب رسالة