انتقل إلى المحتوى

يونيپروت

من ويكيبيديا، الموسوعه الحره
(تحويل من يونيبروت)

UniProt هيا قاعدة بيانات ممكن الوصول ليها بحرية لتسلسل البروتين والمعلومات الوظيفية، حيث يتم استخلاص الكتير من الإدخالات من مشاريع تسلسل الجينوم . وفيه كمية كبيرة من المعلومات حول الوظيفة البيولوجية للبروتينات المستمدة من الأدبيات البحثية. يتم صيانته من قبل اتحاد UniProt، اللى يتكون من الكتير من منظمات المعلوماتية الحيوية الأوروبية ومؤسسة من واشنطن العاصمة ، الولايات المتحدة الأمريكية .

اتحاد UniProt

[تعديل]

اتحاد UniProt يضم المعهد الأوروبى للمعلومات الحيوية (EBI)، والمعهد السويسرى للمعلومات الحيوية (SIB)، ومورد معلومات البروتين (PIR). يستضيف معهد EBI، اللى فى حرم Wellcome Trust Genome فى هينكستون بالمملكة المتحدة، مورد كبير من قواعد البيانات والخدمات المتعلقة بالمعلومات الحيوية. تحتفظ شركة SIB، اللى فى جنيف بسويسرا، بخوادم ExPASy (نظام تحليل البروتين الخبير) اللى تعتبر مورد مركزى لأدوات وقواعد بيانات التحليل البروتيني. يعد مركز PIR، اللى تستضيفه مؤسسة الأبحاث الطبية الحيوية الوطنية (NBRF) فى المركز الطبى لجامعة جورج تاون فى واشينطون العاصمة، امريكا، وريث لأقدم قاعدة بيانات لتسلسل البروتين، و هو أطلس مارجريت دايهوف لتسلسل البروتين وبنيته، اللى اتنشر لأول مرة سنة 1965. سنة 2002، انضمت EBI وSIB وPIR لاتحاد UniProt.[1]

جذور قواعد بيانات UniProt

[تعديل]

كل عضو يشارك فى الكونسورتيوم بشكل كبير فى صيانة قاعدة بيانات البروتين وشرحها. لحد وقت قريب، أنتجت EBI وSIBمع بعضقواعد بيانات Swiss-Prot وTrEMBL، فى الوقت نفسه أنتجت PIR قاعدة بيانات تسلسل البروتين (PIR-PSD).[2][3][4] تتعايش قواعد البيانات دى مع تغطية تسلسل البروتين المختلفة و أولويات الشرح. اتعمل Swiss-Prot سنة 1986 بAmos Bairoch وقت حصوله على درجة الدكتوراه وتم تطويره بالمعهد السويسرى للمعلومات الحيوية وتم تطويره بعدين بRolf Apweiler فى المعهد الأوروبى للمعلومات الحيوية .[5][6][7] تهدف Swiss-Prot لتوفير تسلسلات بروتينية موثوقة مرتبطة بمستوى عالى من التوضيح (مثل وصف وظيفة البروتين، وبنية مجاله ، والتعديلات بعد الترجمة ، والمتغيرات، وما لذلك)، ومستوى أدنى من التكرار ومستوى عالى من التكامل مع قواعد البيانات التانيه. مع إدراك أن بيانات التسلسل ى اتنشأت بسرعة تتجاوز قدرة Swiss-Prot على مواكبة ذلك، اتعمل TrEMBL (مكتبة بيانات تسلسل النوكليوتيدات EMBL المترجمة) لتوفير التعليقات التوضيحية الآلية لتلك البروتينات غير الموجودة فى Swiss-Prot. و فى الوقت نفسه، حافظت PIR على PIR-PSD وقواعد البيانات ذات الصلة، بما فيها iProClass ، هيا قاعدة بيانات لتسلسلات البروتين والعائلات المنسقة. أعضاء الكونسورتيوم جمعو مواردهم وخبراتهم المتداخلة، و أطلقو UniProt فى ديسمبر 2003.[8]

تنظيم قواعد بيانات UniProt

[تعديل]

UniProt يوفر 4 قواعد بيانات أساسية: UniProtKB (مع الأجزاء الفرعية Swiss-Prot وTrEMBL)، وUniParc، وUniRef، وProteome.

يونى بروتكب

[تعديل]

UniProt Knowledgebase (UniProtKB) هيا قاعدة بيانات بروتينية تم تنظيمها جزئى بخبراء، وتتكون من قسمين: UniProtKB/Swiss-Prot (فيها إدخالات تمت مراجعتها وشرحها يدوى) وUniProtKB/TrEMBL (فيها إدخالات غير مراجعة وشرحها تلقائى).[9] As of 22 فبراير 2023[[تصنيف:Articles containing potentially dated statements from غلط تعبيري: عامل < مش متوقع]] يحتوى الإصدار "2023_01" من UniProtKB/Swiss-Prot على 569,213 إدخال تسلسل (يشتمل على 205,728,242 حمض أمينى مستخلص من 291,046 مرجع) ويحتوى الإصدار "2023_01" من UniProtKB/TrEMBL على 245,871,724 إدخال تسلسل (يشتمل على 85,739,380,194 حمض أمينى).[10]

UniProtKB/السويسري-Prot

[تعديل]

UniProtKB/Swiss-Prot قاعدة بيانات تسلسل بروتين غير مكررة يتم التعليق عليها يدوى. إنه يجمع بين المعلومات المستخرجة من الأدبيات العلمية والتحليل الحسابى اللى تم تقييمه بbiocurator . يهدف UniProtKB/Swiss-Prot لتوفير كل المعلومات ذات الصلة المعروفة حول بروتين معين. يتم مراجعة التعليقات التوضيحية بانتظام لمواكبة النتائج العلمية دلوقتى . يتضمن التعليق اليدوى على المدخل تحليل تفصيلى لتسلسل البروتين والأدبيات العلمية.[11]

يتم دمج التسلسلات من نفس الجين ونفس النوع فى نفس إدخال قاعدة البيانات. يتم تحديد الاختلافات بين التسلسلات، وتوثيق سببها (على سبيل المثال، الوصل البديل ، والتباين الطبيعى ، ومواقع البدء غير الصحيحة، وحدود الإكسون غير الصحيحة، والإطارات التحولية ، والصراعات غير المحددة). يتم استخدام مجموعة من أدوات تحليل التسلسل فى شرح إدخالات UniProtKB/Swiss-Prot. يتم تقييم التوقعات الحاسوبية يدوى، ويتم اختيار النتائج ذات الصلة للتضمين فى الإدخال. تتضمن دى التوقعات تعديلات ما بعد الترجمة، والمجالات عبر الغشاء والطوبولوجيا ، وببتيدات الإشارة ، وتحديد المجال، وتصنيف عيلة البروتين .[11][12]

يتم تحديد المنشورات ذات الصلة بالبحث فى قواعد البيانات زى PubMed . يتم قراية النص الكامل لكل ورقة، واستخراج المعلومات و إضافتها لالمدخل. تتضمن التعليقات التوضيحية الناتجة عن الأدبيات العلمية، على سبيل المثال لا الحصر:[8][11][12]

  • أسماء البروتينات والجينات
  • وظيفة
  • معلومات خاصة بالإنزيم زى النشاط التحفيزى والعوامل المساعدة والبقايا التحفيزية
  • الموقع الفرعى للخلية
  • تفاعلات البروتين مع البروتين
  • نمط التعبير
  • مواقع و أدوار المجالات والمواقع الهامة
  • مواقع ربط الأيونات والركيزة والعوامل المساعدة
  • أشكال متغيرات البروتين الناتجة عن التنوع الجينى الطبيعي، وتحرير الحمض النووى الريبى ، والربط البديل، والمعالجة البروتينية ، والتعديل بعد الترجمة

تخضع الإدخالات الموضحة لضمان الجودة قبل تضمينها فى UniProtKB/Swiss-Prot. لما تصبح البيانات الجديدة متاحة، يتم تحديث الإدخالات.

يونى بروتكب/تريميبل

[تعديل]

UniProtKB/TrEMBL فيه سجلات عالية الجودة تم تحليلها حسابى، اللى تم إثرائها بالتعليق التلقائي. تم تقديمه استجابة لزيادة تدفق البيانات الناتجة عن مشاريع الجينوم، حيث ماكانش من الممكن توسيع عملية التعليق اليدوى اللى تستغرق وقت طويل والعمالة فى UniProtKB/Swiss-Prot لتشمل كل تسلسلات البروتين المتاحة.[8] يتم معالجة ترجمات تسلسلات الترميز الموضحة فى قاعدة بيانات تسلسل النوكليوتيدات EMBL-Bank/GenBank/DDBJ تلقائى و إدخالها فى UniProtKB/TrEMBL. يحتوى UniProtKB/TrEMBL كمان على تسلسلات من PDB ، ومن التنبؤ بالجينات، بما فيها Ensembl و RefSeq و CCDS .[13] من 22 يوليه 2021، بقا يشمل كمان الهياكل المتوقعة باستخدام AlphaFold2 .[14]

يونيبارك

[تعديل]

UniProt Archive (UniParc) قاعدة بيانات شاملة و مش مكررة، فيها كل تسلسلات البروتين من قواعد بيانات تسلسل البروتين الرئيسية المتاحة للجمهور.[15] ممكن أن توجد البروتينات فى شوية قواعد بيانات مصدرية مختلفة، و فى نسخ متعددة فى نفس قاعدة البيانات. لتجنب التكرار، يقوم UniParc بتخزين كل تسلسل فريد مرة واحدة بس. يتم دمج التسلسلات المتدورة، بغض النظر عما إذا كانت من نفس النوع أو من أنواع مختلفة. يتم منح كل تسلسل معرف ثابت وفريدًا (UPI)، ده يخللى من الممكن تحديد نفس البروتين من قواعد بيانات مصدر مختلفة. يحتوى UniParc بس على تسلسلات البروتين، دون أى تعليق توضيحي. تسمح المراجع المتبادلة لقواعد البيانات فى إدخالات UniParc باسترجاع مزيد من المعلومات حول البروتين من قواعد البيانات المصدر. لما تتغير التسلسلات فى قواعد البيانات المصدر، يتم تعقب دى التغييرات بUniParc ويتم أرشفة تاريخ كل التغييرات.

قواعد البيانات المصدرية

[تعديل]

UniParc الايام دى فيه تسلسلات بروتينية من قواعد البيانات المتاحة للجمهور اللى بعد كده :

  • قواعد بيانات تسلسل النوكليوتيدات INSDC EMBL -Bank/ DDBJ / GenBank
  • فرقة مزيكا
  • المكتب الأوروبى لبراءات الاختراع
  • FlyBase: المستودع الأساسى للبيانات الجينية والجزيئية لعيلة الحشرات Drosophilidae (FlyBase)
  • قاعدة بيانات H-Invitational (H-Inv)
  • مؤشر البروتين الدولى (IPI)
  • مكتب براءات الاختراع الياباني
  • مصدر معلومات البروتين (PIR-PSD)
  • بنك بيانات البروتين
  • مؤسسة أبحاث البروتين (PRF) [16]
  • مرجعية
  • قاعدة بيانات جينوم السكارومايسيس (SGD)
  • موارد معلومات نبات أرابيدوبسيس (TAIR)
  • تروم
  • مكتب براءات الاختراع الأمريكى (USPTO)
  • UniProtKB/Swiss-Prot، أشكال البروتين UniProtKB/Swiss-Prot، UniProtKB/TrEMBL
  • قاعدة بيانات شرح الفقاريات والجينوم (VEGA)
  • قاعدة الديدان

يونيريف

[تعديل]

تتكون مجموعات UniProt المرجعية (UniRef) من 3 قواعد بيانات لمجموعات مجمعة من تسلسلات البروتين من UniProtKB وسجلات UniParc المحددة.[17] تقوم قاعدة بيانات UniRef100 بدمج التسلسلات المتدورة و أجزاء التسلسل (من أى كائن حى ) فى إدخال UniRef واحد. يتم عرض تسلسل البروتين التمثيلى و أرقام الوصول لجميع الإدخالات المدمجة والروابط لسجلات UniProtKB وUniParc المقابلة. يتم تجميع تسلسلات UniRef100 باستخدام خوارزمية CD-HIT لبناء UniRef90 وUniRef50.[17][18] تتكون كل مجموعة من تسلسلات فيها ما يقلش عن 90% أو 50% من هوية التسلسل، على التوالي، لأطول تسلسل. يؤدى تجميع التسلسلات لتقليل حجم قاعدة البيانات بشكل كبير،و ده يتيح إجراء عمليات بحث أسرع فى التسلسلات.

UniRef متاح من موقع UniProt FTP .

تمويل

[تعديل]

تمويل UniProt بالمنح المقدمة من المعهد الوطنى لأبحاث الجينوم البشرى ، والمعاهد الوطنية للصحة (NIH)، والمفوضية الأوروبية ، والحكومة الفيدرالية السويسرية بالمكتب الفيدرالى للتعليم والعلوم، و NCI-caBIG ، ووزارة الدفاع الأمريكية.[9]

شوف كمان

[تعديل]

مصادر

[تعديل]
  1. "2002 Release: NHGRI Funds Global Protein Database". National Human Genome Research Institute (NHGRI). Archived from the original on 24 September 2015. Retrieved 14 April 2018.
  2. O'Donovan, C.; Martin, M. J.; Gattiker, A.; Gasteiger, E.; Bairoch, A.; Apweiler, R. (2002). "High-quality protein knowledge resource: SWISS-PROT and TrEMBL". Briefings in Bioinformatics. 3 (3): 275–284. doi:10.1093/bib/3.3.275. PMID 12230036. Archived from the original on 2024-01-24. Retrieved 2024-01-24.
  3. Wu, C. H.; Yeh, L. S.; Huang, H.; Arminski, L.; Castro-Alvear, J.; Chen, Y.; Hu, Z.; Kourtesis, P.; Ledley, R. S. (2003). "The Protein Information Resource". Nucleic Acids Research. 31 (1): 345–347. doi:10.1093/nar/gkg040. PMC 165487. PMID 12520019.
  4. Boeckmann, B.; Bairoch, A.; Apweiler, R.; Blatter, M. C.; Estreicher, A.; Gasteiger, E.; Martin, M. J.; Michoud, K.; O'Donovan, C. (2003). "The SWISS-PROT protein knowledgebase and its supplement TrEMBL in 2003". Nucleic Acids Research. 31 (1): 365–370. doi:10.1093/nar/gkg095. PMC 165542. PMID 12520024.
  5. Bairoch, A.; Apweiler, R. (1996). "The SWISS-PROT protein sequence data bank and its new supplement TREMBL". Nucleic Acids Research. 24 (1): 21–25. doi:10.1093/nar/24.1.21. PMC 145613. PMID 8594581.
  6. Bairoch, A. (2000). "Serendipity in bioinformatics, the tribulations of a Swiss bioinformatician through exciting times!". Bioinformatics. 16 (1): 48–64. doi:10.1093/bioinformatics/16.1.48. PMID 10812477. Archived from the original on 2024-02-05. Retrieved 2024-02-05.
  7. Séverine Altairac, "Naissance d’une banque de données: Interview du prof. Amos Bairoch نسخة محفوظة 2010-07-12 على موقع واي باك مشين.".
  8. أ ب ت Apweiler, R.; Bairoch, A.; Wu, C. H. (2004). "Protein sequence databases". Current Opinion in Chemical Biology. 8 (1): 76–80. doi:10.1016/j.cbpa.2003.12.004. PMID 15036160. المرجع غلط: وسم <ref> غير صالح؛ الاسم "pmid15036160" معرف أكثر من مرة بمحتويات مختلفة.
  9. أ ب Uniprot, C. (2009). "The Universal Protein Resource (UniProt) in 2010". Nucleic Acids Research. 38 (Database issue): D142 – D148. doi:10.1093/nar/gkp846. PMC 2808944. PMID 19843607. المرجع غلط: وسم <ref> غير صالح؛ الاسم "pmid19843607" معرف أكثر من مرة بمحتويات مختلفة.
  10. "UniProtKB/Swiss-Prot Release 2023_01 statistics". web.expasy.org. Archived from the original on 4 April 2023. Retrieved 31 March 2023.
  11. أ ب ت "How do we manually annotate a UniProtKB entry?". UniProt. September 21, 2011. Archived from the original on Dec 13, 2013. Retrieved 14 April 2018. المرجع غلط: وسم <ref> غير صالح؛ الاسم "faq45" معرف أكثر من مرة بمحتويات مختلفة.
  12. أ ب Apweiler, R.; Bairoch, A.; Wu, C. H.; Barker, W. C.; Boeckmann, B.; Ferro, S.; Gasteiger, E.; Huang, H.; Lopez, R. (2004). "UniProt: The Universal Protein knowledgebase". Nucleic Acids Research. 32 (90001): 115D–1119. doi:10.1093/nar/gkh131. PMC 308865. PMID 14681372. المرجع غلط: وسم <ref> غير صالح؛ الاسم "pmid14681372" معرف أكثر من مرة بمحتويات مختلفة.
  13. "Where do the UniProtKB protein sequences come from?". UniProt. September 21, 2011. Archived from the original on Dec 15, 2013. Retrieved 14 April 2018.
  14. Hassabis, Demis (22 July 2022). "Putting the power of AlphaFold into the world's hands". Deepmind. Archived from the original on 24 July 2021. Retrieved 24 July 2021.
  15. Leinonen, R.; Diez, F. G.; Binns, D.; Fleischmann, W.; Lopez, R.; Apweiler, R. (2004). "UniProt archive" (PDF). Bioinformatics. 20 (17): 3236–3237. doi:10.1093/bioinformatics/bth191. PMID 15044231. Archived from the original on Mar 30, 2024.
  16. "Protein Research Foundation". Archived from the original on 2010-08-30. Retrieved 2010-08-25.
  17. أ ب Suzek, B. E.; Huang, H.; McGarvey, P.; Mazumder, R.; Wu, C. H. (2007). "UniRef: Comprehensive and non-redundant UniProt reference clusters". Bioinformatics. 23 (10): 1282–1288. doi:10.1093/bioinformatics/btm098. PMID 17379688.
  18. Li, W.; Jaroszewski, L.; Godzik, A. (2001). "Clustering of highly homologous sequences to reduce the size of large protein databases". Bioinformatics. 17 (3): 282–283. doi:10.1093/bioinformatics/17.3.282. PMID 11294794.

لينكات برانيه

[تعديل]

 

قالب:Bioinformatics