معلومة

تنسيق ستوكهولم إلى تنسيق نقطة بين قوسين؟

تنسيق ستوكهولم إلى تنسيق نقطة بين قوسين؟


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أحتاج إلى تحويل كل التسلسلات الخاصة بي بتنسيق ستوكهولم إلى هذا:

hg19_11_6_Ala ----------------. GG - gggaguggugu… gguuacgaaugUGGCCUCUGC ----- AA… GCAGACA… G… CCUGGGUUCAAUU… # = GR hg19_11_6_Ala PP… 22… 45679999899 ... … 8999999… 9… *************…

في شيء مثل هذا:

hg19_11_6_Ala… ((... (((((((((...)))))))))))))))))))) ... ((...)))))) ))) ...)))) ...

من الواضح ، أن تكون متماسكًا مع تنسيق ستوكهولم. أي تلميح؟


إذا كان ما تريده هو العثور على بنية إجماع لمجموعة من المحاذاة في تنسيق stockholm ، فقد تحاول استخدام RNAalifold وللتحقق من طي التسلسل الفردي RNAfold. كلاهما لهما خوادم على الإنترنت ويمكن تشغيلهما دون اتصال.

بعد الحصول على هيكل الإجماع ، قم بتحديث ملف ستوكهولم عن طريق إضافة خط توافق الهيكل على النحو التالي:# = GC SS_consمتبوعًا بتدوين القوس النقطي.

محرر لهيكل الحمض النووي الريبي اللطيف الذي سيجعل حياتك أسهل هو EMACS عند استكماله بـ RALEE. يتيح لك عرض هياكل الحمض النووي الريبي ومعالجتها ، والتنبؤ بطي الهيكل ولون المحاذاة بناءً على علاقات الأزواج الأساسية. سيكون من المفيد استثمار الوقت في إتقان RALEE.


محتويات

يمكن قراءة التسلسلات وكتابتها بتنسيقات متنوعة. قد تكون هذه مربكة للغاية للمستخدمين ، ولكن EMBOSS تهدف إلى جعل الحياة أسهل من خلال التعرف تلقائيًا على تنسيق التسلسل عند الإدخال.

هذا يعني أنك إذا كنت تقوم بالتحويل من استخدام حزمة تسلسل أخرى إلى EMBOSS وكان لديك تسلسلاتك الحالية بتنسيق محدد لتلك الحزمة ، على سبيل المثال تنسيق GCG ، فلن تواجه مشكلة في قراءتها.

إذا لم تحتفظ بالتسلسل بتنسيق قياسي معترف به ، فلن تتمكن من تحليل تسلسلك بسهولة.

عندما نتحدث عن "تنسيق التسلسل" ، فإننا لا نتحدث عن أي نوع من التنسيق الخاص بالبرنامج مثل تنسيق معالج الكلمات أو لغة تنسيق النص ، لذلك نحن لا نتحدث عن أشياء مثل: "المفكرة" ، "WORD" ، "WORDPAD" و "PostScript" و "PDF" و "RTF" و "TeX" و "HTML"

إذا تمكنت بطريقة ما من كتابة تسلسل في معالج كلمات (!) فيجب عليك:

  • احفظ التسلسل في ملف كنص ASCII (حاول تحديد: ملف ، حفظ باسم ، نص)
  • توقف عن استخدام معالجات الكلمات لكتابة التسلسلات.
  • تحقق من محرر التسلسل ، مثل ماجستير
  • تحقق من استخدام برامج تحرير النصوص البسيطة ، مثل بيكو, nedit أو عند الضرورة الدفتر

الآن ، كرر بعدي:
تنسيق Microsoft WORD ليس تنسيق تسلسل

لن تقرأ برامج EMBOSS في أي شيء موجود في ملفات Microsoft WORD.

تنسيقات التسلسل هي ASCII TEXT.

إنها الترتيب المطلوب للأحرف والرموز والكلمات الرئيسية التي تحدد ما تبدو عليه الأشياء مثل التسلسل واسم المعرف والتعليقات وما إلى ذلك في إدخال التسلسل وأين يجب أن يبحث البرنامج في الإدخال للعثور عليها.

لا توجد بشكل عام أحرف "تحكم" مخفية وغير قابلة للطباعة في أي تنسيق تسلسل (لا يوجد أي أحرف في تلك التي يدعمها EMBOSS). يمكن طباعة جميع تنسيقات التسلسل القياسية أو عرضها ببساطة عن طريق عرض ملفها.

يوجد على الأقل بضع عشرات من تنسيقات التسلسل الموجودة في الوقت الحالي. بعضها أكثر شيوعًا من البعض الآخر.

تم تصميم التنسيقات بحيث تكون قادرة على الاحتفاظ ببيانات التسلسل وغيرها من المعلومات حول التسلسل.

تقريبًا كل حزمة تحليل تسلسل مكتوبة منذ استخدام البرامج لأول مرة لقراءة وكتابة التسلسلات اخترعت تنسيقها الخاص. باستثناء EMBOSS.

تقريبًا كل مجموعة من التسلسلات التي تتجرأ على استدعاء نفسها قاعدة بيانات قد خزنت بياناتها بتنسيقها الخاص.

التسلسل لا يتطلب أي نوع من التعريف ، لكنه بالتأكيد يساعد!

تتضمن معظم تنسيقات التسلسل نموذجًا واحدًا على الأقل من اسم المعرف ، وعادة ما يتم وضعه في مكان ما في أعلى تنسيق التسلسل.

الشكل البسيط فاستا له اسم المعرف باعتباره الكلمة الأولى في سطر العنوان الخاص به. على سبيل المثال ، اسم المعرف "xyz":


تعليق توضيحي مخصص

قد يرغب بعض المستخدمين في إضافة تعليق توضيحي مخصص بخلاف ما تم تعيينه أعلاه. يوجد حاليًا طريقتان للقيام بذلك ، ومع ذلك ، قد تتغير الطرق المستخدمة لإضافة مثل هذا التعليق التوضيحي في المستقبل ، لا سيما إذا تم تقديم فئات المحاذاة Writer. على وجه الخصوص ، لا تعتمد على تغيير المتغيرات العامةWRITEORDER أو٪ WRITEMAP حيث قد يتم جعلها خاصة في وقت ما.

1) استخدام (وإساءة استخدام) العلامة & # 39custom & # 39. يمكن أن يختلف اسم العنصر عن الاسم المستخدم لتخزين الكائن في AnnotationCollection.

2) قم بتعديلWRITEORDER العام و٪ WRITEMAP.


محتويات

الهيكل الأساسي لملف CRAM هو سلسلة من الحاويات ، يحتوي أولها على نسخة مضغوطة من عنوان SAM. تتكون الحاويات اللاحقة من حاوية ضغط رأس متبوعة بسلسلة من الشرائح التي بدورها تحتفظ بسجلات المحاذاة نفسها ، منسقة كسلسلة من الكتل.

الرقم السحري وعاء
(رأس SAM)
وعاء
(البيانات)
. وعاء
(البيانات)
وعاء
(EOF)

وعاء
رأس
ضغط
رأس
شريحة . شريحة

شريحة
رأس
حاجز حاجز . حاجز

يبني CRAM سجلات من مجموعة من سلاسل البيانات ، تصف مكونات المحاذاة. يحدد رأس ضغط الحاوية أي سلسلة بيانات مشفرة في أي كتلة ، وما هو برنامج الترميز الذي سيتم استخدامه ، وأي بيانات تعريفية خاصة ببرنامج الترميز (على سبيل المثال جدول أطوال رمز هوفمان). بينما يمكن خلط سلاسل البيانات معًا داخل نفس الكتلة ، فإن الاحتفاظ بها منفصلة عادةً ما يؤدي إلى تحسين الضغط ويوفر فرصة لفك تشفير انتقائي فعال حيث تكون بعض أنواع البيانات فقط مطلوبة.

يتم منح الوصول الانتقائي إلى ملف CRAM عبر الفهرس (مع لاحقة اسم الملف ".crai"). في البيانات المصنفة على الكروموسوم والمواضع ، يشير هذا إلى المنطقة التي تغطيها كل شريحة. في البيانات غير المفروزة ، يمكن استخدام الفهرس لجلب الحاوية N ببساطة. يمكن أيضًا تحقيق فك التشفير الانتقائي باستخدام رأس الضغط لتخطي سلسلة البيانات المحددة إذا كانت السجلات الجزئية مطلوبة.

عام الإصدار (الإصدارات) ملحوظات
2010-11 ما قبل CRAM ورقة أولية تصف التنسيق المستند إلى المرجع. لم يستخدم هذا الاسم CRAM ، ولكنه أطلق عليه اسم mzip. تم تنفيذ هذا البرنامج في Python كنموذج أولي وعرض للمفاهيم الأساسية. [1]
2011-12 0.3 - 0.86 أنتج Vadim Zalunin من المعهد الأوروبي للمعلومات الحيوية (EBI) أول تطبيق يسمى CRAM كحزمة تسمى CRAMtools ، [8] مكتوبة بلغة برمجة Java.
2012 1.0 [9] تم تنفيذه في Java CRAMtools. [10]
2013 تمت إضافة تطبيق C إلى أداة Scramble [11] [5] ، بواسطة James Bonfield من معهد Wellcome Sanger.
2013 2.0 تضمنت التغييرات دعمًا لأكثر من مرجع واحد لكل شريحة (مفيدة مع التجميعات المجزأة للغاية) ، وترميز أفضل للعلامات المساعدة لـ SAM ، وتقسيم القصاصة الناعمة والقواعد المدرجة في سلسلة البيانات الخاصة بها ، والبيانات الوصفية لتتبع عدد السجلات والقواعد لكل شريحة ، وتصحيحات سلسلة بيانات BF (علامة BAM).
2013 تمت الإضافة إلى htslib (0.2.0).
2014 2.1 [12] تمت إضافة كتل EOF للمساعدة في تحديد الملفات المقطوعة.
2014 يضاف إلى htsjdk (1.127).
2014 3.0 [13] تضمين برامج الترميز lzma و rANS لضغط الكتلة ، جنبًا إلى جنب مع مجموعات اختبارية متعددة لضمان تكامل البيانات
2018 تنفيذ Javascript كجزء من JBrowse [4] (1.15.0) ، بواسطة Rob Buels.

يوجد إصدار CRAM 4.0 كنموذج أولي في Scramble ، [5] تم عرضه مبدئيًا في عام 2015 ، ولكن لم يتم اعتماده كمعيار بعد.


محاذاة التسلسل

يتم كتابة التسلسلات واحدة في كل سطر. يتم كتابة اسم التسلسل أولاً ، وبعد أي عدد من المسافات البيضاء يتم كتابة التسلسل. عادة ما تكون أسماء التسلسل في الشكل & # 8220name / start-end & # 8221 أو فقط & # 8220name & # 8221. قد تتضمن أحرف التسلسل أي أحرف باستثناء المسافة البيضاء. يمكن الإشارة إلى الفجوات بـ & # 8220. & # 8221 أو & # 8220 - & # 8220. يشير السطر & # 8220 // & # 8221 إلى نهاية المحاذاة.

يُسمح بالمحاذاة الالتفافية من حيث المبدأ ، لأسباب تاريخية بشكل أساسي ، ولكن لا يتم استخدامها على سبيل المثال. بفام. يتم تثبيط المحاذاة الملفوفة نظرًا لصعوبة تحليلها.


مناقشة

كانت حزمة ViennaRNA أداة مفيدة لمجتمع المعلوماتية الحيوية RNA لما يقرب من عقدين من الزمن. تم بناء عدد غير قليل من أدوات البرامج المستخدمة على نطاق واسع وخطوط أنابيب تحليل البيانات على هذا الأساس ، إما بدمج المكالمات إلى البرامج التفاعلية أو التفاعل المباشر مع RNAlib. الخصائص الرقمية للهياكل الثانوية ، مثل طاقة جيبس ​​الحرة Δجي، تم استخدام الحد الأدنى من الطاقة الحرة (MFE) ، أو تنوع المجموعات أو احتمالات هياكل MFE في المجموعة ، على نطاق واسع كميزات لتصنيف التعلم الآلي ، على سبيل المثال في سلائف الرنا الميكروي واكتشاف الهدف [91-94]. الباحث عن جينات الحمض النووي الريبي غير المشفر RNAz [95 ، 96] ، وكاشف snoRNA snoReport [97] ، و RNAstrand [98] ، وهي أداة تتنبأ باتجاه القراءة من RNAs منظم من محاذاة تسلسل متعدد ، تجمع بين الخصائص الديناميكية الحرارية المحسوبة باستخدام RNAlib وظائف ومكون التعلم الآلي. يستفيد RNAsoup [99] من برامج RNAfold و RNAalifold وبعض الأدوات الأخرى التي توفرها حزمة ViennaRNA للتكتل البنيوي لـ ncRNAs. يستخدم برنامج تصميم siRNA RNAxs [100] تنبؤات إمكانية الوصول إلى الموقع التي يوفرها RNAplfold ، كما يفعل IntaRNA [60] ، وهو برنامج للتنبؤ بمواقع تفاعل الحمض النووي الريبي. العديد من أدوات التنبؤ بالبنية الثانوية ، مثل CentroidFold [22] أو McCaskill-MEA [101] أو RNAsalsa [102] ، تستخدم احتمالات زوج القاعدة التي تنبأ بها RNAfold -p كمدخل ، بينما تستخدمها حزمة LocARNA [59] للمحاذاة الهيكلية . تعتمد أداة المحاذاة والمقارنة القائمة على الحافز ExpaRNA [103] وبرنامج محاذاة الشجرة RNAforester [75] أيضًا على الخوارزميات التي يوفرها RNAlib. منذ نشرها الأولي [25] ، لم يظهر وصف شامل [104] لحزمة ViennaRNA. يطبق الإصدار 2.0 الآن أحدث طراز للطاقة ، ويوفر العديد من الوظائف الجديدة والمحسّنة ، وكما نأمل - فهو أسهل وأكثر كفاءة في الاستخدام بسبب بنية خيط آمنة ، وواجهة برمجة تطبيقات محسّنة ، ومجموعة أكثر اتساقًا من الخيارات ، و وثائق أكثر تفصيلاً. لقد تم الحرص على ضمان التوافق مع الإصدارات السابقة بحيث يمكن استبدال ViennaRNA Package 2.0 بسهولة بالإصدارات السابقة.


التطورات الجديدة

الإصدار "العشري" من Rfam 10.0

من أجل الحفاظ على Rfam محدثًا قدر الإمكان ، نهدف إلى إصدار إصدارات منتظمة من قاعدة البيانات. هذه الإصدارات هي لقطات سريعة للنسخة الحية والداخلية لقاعدة البيانات التي يتم إتاحتها للجمهور عبر مواقع الويب وبروتوكول نقل الملفات. لدينا نوعان من الإصدار. عادةً ما يتضمن الإصدار الرئيسي (المشار إليه بعدد صحيح و ".0" في رقم الإصدار على سبيل المثال "10 .0") تحديث قاعدة بيانات التسلسل الأساسي ، Rfamseq ، إلى أحدث إصدار من EMBL وإعادة تعيين جميع التسلسلات الأولية إلى قواعد البيانات الجديدة. يتم لاحقًا تفتيش جميع العائلات وفقًا لقاعدة البيانات الجديدة ، وإذا لزم الأمر ، يتم إعادة تحديد العتبة. تتم الإشارة إلى الإصدارات الثانوية بـ ".1" و ".2" وما إلى ذلك في رقم الإصدار ، على سبيل المثال "10 .1". يتم إجراء هذه عادةً بعد إضافة العديد من العائلات الجديدة إلى قاعدة البيانات المبنية على نفس قاعدة بيانات التسلسل الأساسية.

تم إصدار Rfam 10.0 في أوائل عام 2010. تضمن هذا الإصدار تحديثًا رئيسيًا لخوارزمية البحث الأساسية ، بالتبديل إلى إصدار جديد من Infernal ، v1.0 (9). يتطلب هذا إعادة تحديد عتبة كل عائلة Rfam بشكل فردي بسبب تغيير مهم في مخطط الدرجات الأساسي لـ Infernal من درجات محاذاة الاحتمالية القصوى إلى مجموع الدرجات على جميع المحاذاة الممكنة [أي التحول من استخدام خوارزمية CYK إلى الخوارزمية الداخلية (11)]. بالإضافة إلى ذلك ، يقدّر الإصدار الجديد من التقارير الجهنمية الأهمية الإحصائية للنتائج ( ه -values) التي تم إرجاعها من عمليات البحث في قاعدة البيانات باستخدام ملفات Rfam 10.0 CM. قمنا أيضًا بتعيين جميع العائلات وبحثنا في إصدار جديد من Rfamseq استنادًا إلى EMBL 100 (10). نتج عن هذه التحسينات وغيرها من التحسينات الداخلية لخط الأنابيب لدينا زيادة بنسبة 178 ٪ في عدد المناطق التي يغطيها Rfam ، وهو ما يتناقض مع الزيادة المتواضعة في حجم Rfamseq بنسبة 40 ٪. لقد تسبب هذا في أن تصبح بعض تحالفاتنا كبيرة جدًا. على سبيل المثال ، تحتوي المحاذاة الكاملة لـ tRNA الآن على أكثر من مليون تسلسل. كان مقدار الحوسبة المطلوب لهذا الإصدار حوالي 5 أشهر من وحدة المعالجة المركزية لمعايرة النماذج ، وعام واحد من وحدة المعالجة المركزية لتشغيل الانفجار ، و 3 سنوات لوحدة المعالجة المركزية لتشغيل عمليات البحث باستخدام CM (البحث) و 15 يومًا من وحدة المعالجة المركزية لإنتاج محاذاة تسلسل متعددة مشتقة من CM (cmalign ).

تقييم نجاح نموذج التعليق التوضيحي لمجتمع ويكيبيديا

واحدة من المشاكل الأساسية التي تواجه أي جهود للتكوين البيولوجي هي الحفاظ على التعليقات التوضيحية للكيانات المخزنة في قاعدة بيانات محدثة مع الأدبيات الحالية. عادةً ما يتغير التعليق التوضيحي للإدخالات الحالية بسرعة أقل من إضافة البيانات الجديدة ، لذلك تصبح الإدخالات قديمة بسرعة.

في منتصف عام 2007 ، بدأ Rfam تجربة استخدام ويكيبيديا كوسيلة لتخزين وتنظيم التعليقات التوضيحية النصية لعائلات الحمض النووي الريبي. بعد ثلاث سنوات ، تلقت صفحات عائلة RNA أكثر من 9000 تعديل من أكثر من 1000 مستخدم فريد. تم التعرف على ما يزيد قليلاً عن 1٪ من هذه التعديلات على أنها تخريب محتمل (الشكل 1). أدى التعليق التوضيحي المميز والمراجع المنسقة الناتجة إلى تحسين محتوى قاعدة بيانات Rfam بشكل كبير مقارنة بالنص الثابت قبل عام 2007. تساعد إدخالات Wikipedia أيضًا في توجيه المستخدمين إلى موقع Rfam على الويب. ما يقرب من 15 ٪ من جميع زيارات الويب إلى http://rfam.sanger.ac.uk تأتي الآن عبر ويكيبيديا. كما لوحظ من قبل الآخرين ، فإن بحث Google النموذجي عن مصطلح بيولوجي يعرض إدخال ويكيبيديا بين أفضل النتائج (12 ، 13). من وجهة نظر أمين المعرض ، تعد ويكيبيديا نموذجًا ممتازًا للاستفادة منه لأنها تضم ​​مجتمعًا كبيرًا من المساهمين وتأتي مع عدد من الأدوات سهلة الاستخدام التي تساعد في التحرير الأساسي والحفاظ على المراجع والتحديثات التلقائية للصفحات التي تحتوي على برامج تسمى برامج الروبوت. يتمتع المجتمع الكبير أيضًا بمزايا أخرى ، مثل التأثير طويل الذيل الموثق جيدًا ، حيث تتم إضافة غالبية المحتوى الجديد بواسطة عدد كبير من المحررين ، كل منهم يقوم ببعض التعديلات فقط (12 ، 13). هناك أيضًا محررين متخصصين مهووسين بالتفاصيل الصغيرة ولكن المهمة التي قد لا يكون لدى المنسق العادي الوقت الكافي لحضورها ، مثل اتساق الأسلوب والقواعد والهجاء. هناك أيضًا محررين مكرسين للتراجع عن التعديلات الواضحة غير البناءة ، والتي يشار إليها عادةً باسم "التخريب" ، والتي يتم التعرف عليها وإعادتها في غضون ثوانٍ. من المهم ملاحظة أنه تتم مراجعة جميع التعديلات قبل الظهور على موقع Rfam على الويب ، وبالتالي فإن مقدار التخريب العلني الذي يصل إلى Rfam هو 0. نظرًا لتجاربنا الإيجابية ، يمكننا أن نوصي بشدة بجهود التنظيم الأخرى التي تحول إلى ويكيبيديا للتعليق عليها. ومع ذلك ، يجب ألا يغيب عن الأذهان أن ويكيبيديا تم بناؤها بالإجماع وللحصول على فوائدها ستفقد السيطرة الصارمة على البيانات التي يسمح بها التنظيم الداخلي.

تعديلات لمقالات ويكيبيديا حول عائلات الحمض النووي الريبي. يظهر العدد التراكمي للتعديلات منذ 1 يناير 2007 لمقالات ويكيبيديا البالغ عددها 733 مقالة مرتبطة بإدخالات Rfam باللون الأسود. يظهر العدد الإجمالي للتعديلات التي تم إرجاعها أو تم تصنيفها على أنها تخريب باللون الأحمر. حتى منتصف عام 2010 ، كان هناك 106 فقط من هؤلاء. ومع ذلك ، قد تكون بعض التعديلات التي تم التراجع عنها حسنة النية ولكنها اعتبرت غير مناسبة لـ Wikipedia.

تعديلات لمقالات ويكيبيديا حول عائلات الحمض النووي الريبي. يظهر العدد التراكمي للتعديلات منذ 1 يناير 2007 لمقالات ويكيبيديا البالغ عددها 733 مقالة مرتبطة بإدخالات Rfam باللون الأسود. يظهر العدد الإجمالي للتعديلات التي تم إرجاعها أو تم تصنيفها على أنها تخريب باللون الأحمر. حتى منتصف عام 2010 ، كان هناك 106 فقط من هؤلاء. ومع ذلك ، قد تكون بعض التعديلات التي تم التراجع عنها حسنة النية ولكنها اعتبرت غير مناسبة لـ Wikipedia.

عشائر Rfam

إحدى خطوات مراقبة الجودة الأساسية التي يستخدمها Rfam هي أنه لا يمكن لعائلتين التعليق على نفس النيوكليوتيد. تمنعنا هذه القاعدة بناء عائلتين أو أكثر لنفس الكيان أساسًا. عند بناء عائلات Rfam جديدة أو توسيع عائلة موجودة ، نجد أنفسنا أحيانًا نزيد العتبة بشكل مصطنع لتجنب التداخل مع عائلة أخرى أو تقليم أطراف العائلات التي لديها حدود غير صحيحة. نجد أيضًا أن محاذاة واحدة قد لا تلتقط كل تنوع مجموعة من الحمض النووي الريبي المتماثل. لحل بعض هذه المشكلات ، اقترضنا مفهوم العشيرة من قواعد بيانات MEROPS و Pfam (14 ، 15).

لقد أضفنا 99 عشيرة لإصدار Rfam 10.0. تصف هذه العشائر العلاقات الواضحة بين العائلات التي إما تشترك في سلف مشترك بشكل واضح ولكنها متباينة جدًا بحيث لا يمكن أن تكون متماشية بشكل معقول أو مجموعات من العائلات التي يمكن مواءمتها ، ولكن لها وظائف متميزة بوضوح وبالتالي يجب الاحتفاظ بها كعائلات منفصلة. على سبيل المثال ، تحتوي عشيرة RNase P على خمس عائلات متماثلة RNase MRP ، و RNase P ، والنووي RNase P ، والبكتيريا RNase P ، من النوعين a و b. هذه RNAs هي ريبوزيمات تشارك في معالجة ما قبل الحمض الريبي النووي النقال وتسلسل ما قبل الرنا الريباسي. ومع ذلك ، من المعروف أن RNase Ps يصعب التوفيق بينها. علاوة على ذلك ، فإن RNase P و RNase MRP عبارة عن جزيئات مميزة وظيفيًا (16). عشيرة أخرى ذات أهمية هي Glm. تحتوي هذه العشيرة على نوعين من الحمض النووي الريبي (RNAs) صغيران متماثلان ولكنهما متميزان وظيفيًا ، وهما GlmY و GlmZ ، والتي تعمل بطريقة هرمية لتنظيم ترجمة glmS جين الترميز. ينشط GlmY التعبير عن GlmZ الذي يقوم بدوره بفك حبس تسلسل GlmS Shine-Dalgarno عبر تفاعل مضاد للحساسية (17). تعني العشائر الجديدة أنه يمكن تخفيف بعض تدابير مراقبة الجودة الداخلية التي يستخدمها Rfam للعائلات العشائرية. يعني هذا في المقام الأول أنه يمكننا تجاهل قاعدة عدم التداخل ، مما يعني أنه في الماضي كان لدى بعض هذه العائلات عتبات عالية بشكل مصطنع لتجنب التداخل مع عائلة ذات صلة ولكنها متميزة.

من أجل المساعدة في تقييم احتمالية وجود علاقة بين عائلتين أو أكثر ، استخدمنا عددًا من خطوط الأدلة المستقلة. تضمنت هذه تحليل التسلسل استنادًا إلى تحليل يشبه SCOOP لمقارنة النتائج المتداخلة من كل من نموذج ماركوف المخفي (HMM) وعمليات البحث في نموذج التباين المشترك (18) ، وأداة مقارنة الملف الشخصي PRC (19) والبحث الأدبي عن العلاقات الوظيفية والتطورية . بالنسبة لعائلات snoRNA و miRNA ، تمكنا من استخدام بعض مصادر المعلومات الإضافية من أجل إنشاء التنادد. بالنسبة إلى snoRNAs ، استخدمنا بعض قواعد بيانات snoRNA المتخصصة لتأكيد ما إذا كانت العائلات قد استهدفت مناطق متعامدة من الرنا الريباسي ، بالنسبة للعديد من snoRNAs ، ساعد هذا في تأكيد العلاقة بين العائلات (20-23). بالنسبة إلى miRNAs ، استخدمنا منطقة البذور المشروحة للميرنا الناضج (24). إذا كانت عائلتان أو أكثر من عائلات miRNA تشترك في قدر كبير من التشابه في منطقة البذور ، وإذا كان لديهم المزيد من أوجه التشابه التي تم تحديدها بواسطة أدوات تحليل التسلسل ، فعندئذٍ تمت إضافة هذه أيضًا إلى العشائر.

تسميات الأنواع

تستخدم المجموعة الجديدة من البذور والمحاذاة الكاملة المتاحة عبر موقع الويب تسميات الأنواع الوصفية لأسماء التسلسل بدلاً من عمليات إدخال وإحداثيات EMBL الأكثر تشفيرًا التي تم توفيرها مسبقًا. يتم الاحتفاظ بمصدر بيانات التسلسل باستخدام علامات "# = GS" من تنسيق ستوكهولم (25) لتقديم تعيين مرة أخرى لمدخلات EMBL (الشكل 2). ستوكهولم هو تنسيق ترميز متعدد الاستخدامات لمحاذاة التسلسل البيولوجي. يسمح بترميز معلومات الملف العامة ، بما في ذلك المراجع والتعليقات والارتباطات المتقاطعة. كما يسمح أيضًا بترميز مناطق المحاذاة التي لا يمكن محاذاتها مع علامات التلدة في خطوط "# = GC RF".

مثال على محاذاة ستوكهولم للعقدة الكاذبة UPSK من فيروس الفسيفساء الأصفر اللفت. تنسيق محاذاة ستوكهولم مرن بدرجة كافية للسماح بترميز معلومات الملف بشكل عام بخطوط "# = GF" ومعلومات التسلسل مع خطوط "# = GS" ومعلومات العمود مع خطوط "# = GC". يتبع كل منها رمز مكون من حرفين على الأقل يشير إلى ما يلي ، على سبيل المثال يشير "المعرّف" إلى "المعرّف" ، و "AC" يشير إلى "الانضمام" ، و "AU" يشير إلى "المؤلف" ، وما إلى ذلك. تم توثيق جميع العلامات شائعة الاستخدام في مقالة Wikipedia لمحاذاة ستوكهولم (25).

مثال على محاذاة ستوكهولم للعقدة الكاذبة UPSK من فيروس الفسيفساء الأصفر اللفت. تنسيق محاذاة ستوكهولم مرن بدرجة كافية للسماح بترميز معلومات الملف بشكل عام بخطوط "# = GF" ومعلومات التسلسل مع خطوط "# = GS" ومعلومات العمود مع خطوط "# = GC". يتبع كل منها رمز مكون من حرفين على الأقل يشير إلى ما يلي ، على سبيل المثال يشير "المعرّف" إلى "المعرّف" ، و "AC" يشير إلى "الانضمام" ، و "AU" يشير إلى "المؤلف" ، وما إلى ذلك. تم توثيق جميع العلامات شائعة الاستخدام في مقالة Wikipedia لمحاذاة ستوكهولم (25).

علم الوجود

من السمات المهمة لأي جهد للتكوين الحيوي الارتباط بالموارد ذات الصلة ، على سبيل المثال ، قواعد بيانات موارد التسلسل الأولية والجينومات والموارد المتخصصة مثل miRBase وقواعد بيانات snoRNA. في الآونة الأخيرة ، بدأ عدد من المجموعات في تطوير مفردات محكومة لوصف الكيانات البيولوجية. هناك جهدان لهما صلة خاصة بـ Rfam هما علم الوجود المتسلسل (SO) وعلم الوجود الجيني (GO) (26 ، 27). بالنسبة لغالبية عائلات Rfam ، أضفنا الآن روابط متقاطعة إلى كل من SO و GO. تم توفير العديد من هؤلاء من قبل الباحثين في قاعدة بيانات RNA الوظيفية (28). في المستقبل القريب ، نخطط لإدخال المزيد من مصطلحات ncRNA في الأنطولوجيات. حتى ذلك الحين ، سيظل التعيين خشنًا إلى حد ما ومرتبط ارتباطًا وثيقًا بالأنواع الحالية التي يستخدمها Rfam كتعليق توضيحي (6). يعمل هذا التعيين على تجميع الحمض النووي الريبي في ثلاث مجموعات رئيسية: "cis-reg" و "gene" و "intron" مع أنواع فرعية مثل "riboswitch" و "miRNA" و "snoRNA".

التطورات المستقبلية

عائلات جديدة في رفام 10.1

للإفراج الطفيف القادم عن Rfam ، أضفنا عددًا من العائلات الجديدة والبارزة. وتجدر الإشارة بشكل خاص إلى التقديمات المباشرة للمحاذاة المنسقة في ستوكهولم ومقالات ويكيبيديا المقابلة من مجتمع RNA عبر مسار عائلات RNA في RNA Biology (8). لقد أطلق هذا المسار الكثير من عبء بناء هذه العائلات الجديدة من القيمين لدينا ، وقد تم بناء العائلات المنتجة وتعليقها من قبل خبراء وبالتالي فهي ذات جودة عالية. تشمل العائلات المحدثة من هذا المسار RNase MRP و SRP و tmRNA و U3 snoRNA (29-32). بالإضافة إلى ذلك ، تم نشر العديد من العائلات المفقودة من إصدارات Rfam السابقة ، بما في ذلك SmY RNA ، و RNA Cyanobacterial RNA Yfr2 ، وعدة جزيئات من المثقبيات الرناوية ، و ribozyme GIR1 ، وعقدة زائفة للأنفلونزا ، و RNA RNA RNA صغير للمكورات العنقودية ، ومضاد للسموم المفترض للحمض النووي الريبي ، ptaRNA1 (33-39). نبهتنا مقالة ptaRNA1 إلى حقيقة أن Rfam لا يحتوي على أي من مضادات السموم RNA المنشورة والمميزة جيدًا مثل sok و symE (40). سيتم معالجة هذه الإغفالات في Rfam 10.1. طبقة متنامية من رابطة الدول المستقلة - العناصر التنظيمية هي أجهزة الاستشعار البيئية. يتم تنظيم هذه العناصر بشكل عام 5 UTR التي تغير التشكل استجابة للتغيرات البيئية مثل درجة الحرارة أو درجة الحموضة ، ويؤثر هذا التغيير لاحقًا على التعبير عن البروتين المشفر في mRNA المضيف. أضفنا الأمثلة الأولى لجهاز استشعار البرودة ومستشعر الأس الهيدروجيني (41 ، 42). أخيرًا ، لقد تلقينا عددًا كبيرًا من الطلبات المقدمة من شاشة المعلومات الحيوية الحديثة التي أعقبها تحليل شامل للتنبؤات التي تستند إلى حد كبير على السياق الجيني. وقد نتج عن ذلك أكثر من 80 إضافة جديدة إلى قاعدة البيانات (43). لحسن الحظ ، يقدم المؤلفون كل من محاذاة تنسيق ستوكهولم ومقالات ويكيبيديا لهذه العائلات الجديدة.

المرشحات المسبقة لنموذج التغاير

تتمثل إحدى المشكلات الملحة في Rfam في استبدال WU-BLAST كمرشح مسبق للبحث في قاعدة بيانات Rfamseq. تم الحصول مؤخرًا على الحقوق القانونية للإصدارات المحدثة من WU-BLAST بواسطة كيان تجاري ولم يعد من الممكن اعتبار البرنامج مجانيًا بأي معنى. ومع ذلك ، كانت هناك العديد من التطورات التي ينبغي أن تسمح باستخدام ملفات تعريف HMMs كمرشحات مسبقة فعالة لعمليات البحث عن نماذج التباين المشترك (44). البحث السريع عن ملف HMM متاح الآن من خلال حزمة HMMER (45-47). في المستقبل القريب ، ستكون Rfam في وضع يمكنها من استبدال المرشحات الحالية القائمة على BLAST بملفات التعريف المتسارعة HMMs.

مقياس

إن مشاريع التسلسل مثل Genome 10K (48) ومحاولات أخرى لملء فجوات التسلسل في شجرة الحياة (49) تعني أن معظم عائلات Rfam ستزيد بشكل كبير في العمق في المستقبل القريب. تشكل المحاذاة الكبيرة بالفعل تحديًا كبيرًا عندما يتعلق الأمر بعرض أو توزيع المحاذاة نفسها ، أو بناء وعرض البيانات ذات الصلة مثل الأنواع وأشجار النشوء والتطور. سوف تحتاج تقنيات الرواية إلى التطوير من أجل التعامل مع هذه والعديد من قضايا الحجم الأخرى. نتطلع إلى العمل مع المجتمع الأوسع لتطوير هذه الأدوات والتقنيات الجديدة.


حزمة Bio.AlignIO¶

إدخال / إخراج محاذاة تسلسل متعدد ككائنات محاذاة.

تتشابه واجهة Bio.AlignIO بشكل كبير مع Bio.SeqIO ، وفي الواقع ، يتم توصيل الاثنين داخليًا. تستخدم كلتا الوحدتين نفس مجموعة أسماء تنسيق الملفات (سلاسل الأحرف الصغيرة). من وجهة نظر المستخدم ، يمكنك القراءة في ملف PHYLIP يحتوي على واحد أو أكثر من المحاذاة باستخدام Bio.AlignIO ، أو يمكنك القراءة في التسلسلات داخل هذه المحاذاة باستخدام Bio.SeqIO.

تم توثيق Bio.AlignIO أيضًا على http://biopython.org/wiki/AlignIO ومن خلال فصل كامل في برنامجنا التعليمي:

مدخل¶

للحالة الخاصة النموذجية عندما يحتوي الملف أو المقبض على محاذاة واحدة فقط ، استخدم الوظيفة Bio.AlignIO.read (). هذا يأخذ مقبض ملف الإدخال (أو في الإصدارات الحديثة من Biopython اسم ملف كسلسلة) ، تنسيق سلسلة وعدد اختياري من التسلسلات لكل محاذاة. سيعيد كائن MultipleSeqAlignment واحد (أو يثير استثناءً إذا لم يكن هناك محاذاة واحدة فقط):

للحالة العامة ، عندما يمكن للمقبض أن يحتوي على أي عدد من المحاذاة ، استخدم الدالة Bio.AlignIO.parse (...) التي تأخذ نفس الوسيطات ، ولكنها تُرجع مكررًا يعطي كائنات MultipleSeqAlignment (تُستخدم عادةً في حلقة for). إذا كنت تريد الوصول العشوائي إلى المحاذاة حسب الرقم ، فحول هذا إلى قائمة:

يمكن ربط معظم تنسيقات ملفات المحاذاة بحيث تحتوي على أكبر عدد ممكن من محاذاة التسلسل المتعدد المختلفة. أحد الأمثلة الشائعة هو إخراج الأداة seqboot في مجموعة PHLYIP. في بعض الأحيان يمكن أن يكون هناك رأس وتذييل للملف ، كما يظهر في إخراج محاذاة EMBOSS.

انتاج¶

استخدم الوظيفة Bio.AlignIO.write (...) ، والتي تأخذ مجموعة كاملة من كائنات المحاذاة (إما كقائمة أو مكرر) ، ومقبض ملف الإخراج (أو اسم ملف في الإصدارات الحديثة من Biopython) وبالطبع تنسيق الملف :

إذا كنت تستخدم مقبض ، فتأكد من إغلاقه لمسح البيانات إلى القرص:

بشكل عام ، يُتوقع منك استدعاء هذه الوظيفة مرة واحدة (مع جميع المحاذاة الخاصة بك) ثم إغلاق مقبض الملف. ومع ذلك ، بالنسبة إلى تنسيقات الملفات مثل PHYLIP حيث يتم تخزين المحاذاة المتعددة بالتسلسل (بدون رأس وتذييل الملف) ، يجب أن تعمل الاستدعاءات المتعددة لوظيفة الكتابة كما هو متوقع عند استخدام المقابض.

إذا كنت تستخدم اسم ملف ، فإن الاستدعاءات المتكررة لوظائف الكتابة ستحل محل الملف الموجود في كل مرة.

تحويل¶

تتيح وظيفة Bio.AlignIO.convert (…) واجهة سهلة لتحويلات تنسيق ملف المحاذاة البسيطة. بالإضافة إلى ذلك ، قد يستخدم تحسينات خاصة بتنسيق الملف ، لذا يجب أن تكون هذه هي أسرع طريقة أيضًا.

بشكل عام ، يمكنك دمج وظيفة Bio.AlignIO.parse (...) مع وظيفة Bio.AlignIO.write (...) لتحويل ملف التسلسل. يوفر استخدام تعبيرات المولد طريقة فعالة للذاكرة لإجراء تصفية أو عمليات إضافية أخرى كجزء من العملية.

تنسيقات الملفات¶

عند تحديد تنسيق الملف ، استخدم السلاسل الصغيرة. تُستخدم أسماء التنسيقات نفسها أيضًا في Bio.SeqIO وتتضمن ما يلي:

  • clustal - الإخراج من Clustal W أو X ، انظر أيضًا الوحدة النمطية Bio.Clustalw التي يمكن استخدامها لتشغيل أداة سطر الأوامر من Biopython.
  • الزخرفة - تنسيقات المحاذاة "الأزواج" و "البسيطة" لأدوات EMBOSS.
  • fasta - تنسيق ملف التسلسل العام حيث يبدأ كل سجل بسطر معرف يبدأ بحرف "& gt" ، متبوعًا بسطر التسلسل.
  • fasta-m10 - لإخراج المحاذاة الزوجية بواسطة أدوات FASTA الخاصة بـ Bill Pearson عند استخدامها مع خيار سطر الأوامر -m 10 للإخراج القابل للقراءة آليًا.
  • ig - تنسيق ملف IntelliGenetics ، على ما يبدو هو نفس تنسيق محاذاة MASE.
  • nexus - ناتج من NEXUS ، راجع أيضًا الوحدة النمطية Bio.Nexus التي يمكنها أيضًا قراءة أي أشجار نسج في هذه الملفات.
  • phylip - PHYLIP المتشابك ، كما تستخدمه أدوات PHLIP.
  • PHYLIP متسلسل - PHYLIP متسلسل.
  • phylip-relaxed - تنسيق PHYLIP مثل السماح بأسماء أطول.
  • stockholm - تنسيق ملف محاذاة غنيّ بالشرح مستخدَم بواسطة PFAM.
  • البنفسجي - الناتج من ProgressiveMauve / Mauve

لاحظ أنه بينما يمكن لـ Bio.AlignIO قراءة جميع تنسيقات الملفات المذكورة أعلاه ، لا يمكنها الكتابة عليها جميعًا.

يمكنك أيضًا استخدام أي تنسيق ملف مدعوم من Bio.SeqIO ، مثل "fasta" أو "ig" (المدرجة أعلاه) ، بشرط أن تكون التسلسلات في ملفك بنفس الطول.

السيرة الذاتية. يتحول ( in_file, in_format, out_file, out_format, الأبجدية = لا شيء ) ¶

التحويل بين ملفي محاذاة ، وإرجاع عدد من المحاذاة.

  • in_file - معالجة إدخال أو اسم ملف
  • in_format - تنسيق ملف الإدخال ، سلسلة أحرف صغيرة
  • الإخراج - مقبض الإخراج أو اسم الملف
  • out_file - تنسيق ملف الإخراج ، سلسلة أحرف صغيرة
  • الأبجدية - الأبجدية الاختيارية التي يجب افتراضها

ملاحظة - إذا قمت بتوفير اسم ملف الإخراج ، فسيتم فتحه والذي سيحل محل أي ملف موجود دون سابق إنذار. قد يحدث هذا حتى إذا تم إحباط التحويل (على سبيل المثال ، تم تقديم اسم out_format غير صالح).

السيرة الذاتية. تحليل ( يتعامل, صيغة, seq_count = لا شيء, الأبجدية = لا شيء ) ¶

كرر عبر ملف محاذاة ككائنات MultipleSeqAlignment.

  • مقبض - التعامل مع الملف ، أو اسم الملف كسلسلة (لاحظ أن الإصدارات القديمة من Biopython أخذت فقط مقبض).
  • format - سلسلة تصف تنسيق الملف.
  • الأبجدية - عنصر أبجدي اختياري ، يكون مفيدًا عندما لا يمكن استنتاج نوع التسلسل تلقائيًا من الملف نفسه (على سبيل المثال fasta ، phylip ، clustal)
  • seq_count - عدد صحيح اختياري ، عدد التسلسلات المتوقعة في كل محاذاة. يوصى به لملفات تنسيق Fasta.

إذا كان لديك اسم الملف في سلسلة "filename" ، فاستخدم:

إذا كانت لديك سلسلة "بيانات" تحتوي على محتويات الملف ، فاستخدم:

استخدم الدالة Bio.AlignIO.read () عندما تتوقع سجلًا واحدًا فقط.

السيرة الذاتية. اقرأ ( يتعامل, صيغة, seq_count = لا شيء, الأبجدية = لا شيء ) ¶

قم بتحويل ملف المحاذاة إلى كائن MultipleSeqAlignment واحد.

  • مقبض - التعامل مع الملف ، أو اسم الملف كسلسلة (لاحظ أن الإصدارات القديمة من Biopython أخذت فقط مقبض).
  • format - سلسلة تصف تنسيق الملف.
  • الأبجدية - عنصر أبجدي اختياري ، يكون مفيدًا عندما لا يمكن استنتاج نوع التسلسل تلقائيًا من الملف نفسه (على سبيل المثال fasta ، phylip ، clustal)
  • seq_count - عدد صحيح اختياري ، عدد التسلسلات المتوقعة في كل محاذاة. يوصى به لملفات تنسيق Fasta.

إذا كان المقبض لا يحتوي على محاذاة ، أو أكثر من محاذاة ، فسيتم رفع استثناء. على سبيل المثال ، باستخدام ملف PFAM / ستوكهولم يحتوي على محاذاة واحدة:

إذا كنت تريد المحاذاة الأولى من ملف يحتوي على محاذاة متعددة ، فإن هذه الوظيفة ستثير استثناءً.

يجب عليك استخدام وظيفة Bio.AlignIO.parse () إذا كنت تريد قراءة سجلات متعددة من المؤشر.

السيرة الذاتية. اكتب ( المحاذاة, يتعامل, صيغة ) ¶

Write complete set of alignments to a file.

  • alignments - A list (or iterator) of MultipleSeqAlignment objects, or a single alignment object.
  • handle - File handle object to write to, or filename as string (note older versions of Biopython only took a handle).
  • format - lower case string describing the file format to write.

You should close the handle after calling this function.

Returns the number of alignments written (as an integer).

© Copyright 1999-2017, The Biopython Contributors Revision 93a498d8 .


Example Run

In this example we first downloaded elephant sequences from Genbank ( approx 11MB ) into a file called elephant.fa.

Create a Database for RepeatModeler

RepeatModeler uses a NCBI BLASTDB or a ABBlast XDF database ( depending on the search engine used ) as input to the repeat modeling pipeline. A utility is provided to assist the user in creating a single database from several types of input structures.

Run "BuildDatabase" without any options in order to see the full documentation on this utility. There are several options which make it easier to import multiple sequence files into one database.

TIP: It is a good idea to place your datafiles and run this program suite from a local disk rather than over NFS. This will greatly improve runtime as the filesystem access is considerable

RepeatModeler runs several compute intensive programs on the input sequence. For best results run this on a single machine with a moderate amount of memory > 32GB and multiple processors.
Our setup is Xeon(R) CPU E5-2680 v4 @ 2.40GHz - 28 cores, 128GB RAM. To specify a run using 20 parallel jobs, and including the new LTR discovery pipeline:

The nohup is used on our machines when running long ( > 3-4 hour ) jobs. The log output is saved to a file and the process is backgrounded. For typical runtimes ( can be > 2 days with this configuration on a well assembled mammalian genome ) see the run statistics section of this file. It is important to save the log output for later usage.
It contains the random number generator seed so that the sampling process may be reproduced if necessary. In addition the log file contains details about the progress of the run for later assesment of peformance or debuging problems.

RepeatModeler produces a voluminous amount of temporary files stored in a directory created at runtime named like:

and remains after each run for debugging purposes or for the purpose of resuming runs if a failure occures. At the succesful completion of a run, two files are generated:

The seed alignment file is in a Dfam compatible Stockholm format and may be uploaded to the Dfam database by submiting the data to [email protected] In the near future we will provide a tool for uploading families directly to the database.

The fasta format is useful for running quick custom library searches using RepeatMasker. Ie.:

Other files produced in the working directory include:

If for some reason RepeatModeler fails, you may restart an analysis starting from the last round it was working on. The -recoverDir [ResultDir] option allows you to specify a diretory ( i.e RM_

. / ) where a previous run of RepeatModeler was working and it will automatically determine how to continue the analysis.


Custom annotation

Some users may want to add custom annotation beyond those mapped above. Currently there are two methods to do so however, the methods used for adding such annotation may change in the future, particularly if alignment Writer classes are introduced. In particular, do not rely on changing the global variables @WRITEORDER or %WRITEMAP as these may be made private at some point.

1) Use (and abuse) the 'custom' tag. The tagname for the object can differ from the tagname used to store the object in the AnnotationCollection.

2) Modify the global @WRITEORDER and %WRITEMAP.



تعليقات:

  1. Hamzah

    يمكن مناقشته إلى ما لا نهاية.

  2. Eorl

    فكرة رائعة وفي الوقت المناسب

  3. Malashakar

    شكرًا للمساعدة في هذا السؤال ، أنا أيضًا أعتبر أنه كلما كان ذلك أسهل ، كلما كان ذلك أفضل ...

  4. Pancratius

    إنها توافق ، هذه الفكرة الرائعة ضرورية بالمناسبة

  5. Bowen

    من فضلك قل بمزيد من التفصيل.



اكتب رسالة