ЦИФРОВЫЕ ТЕХНОЛОГИИ НА СЛУЖБЕ БИОЛОГИЧЕСКОЙ НАУКИ

Н. Н. Мельник; Н. Г. Комаров; О. М. Тамбовцева

doi:10.30850/vrsn/2018/3/6-9

Н. Н. Мельник, кандидат экономических наук ФГБУ «ЦСП» Минздрава России
Н. Г. Комаров, кандидат сельскохозяйственных наук Центральная научная сельскохозяйственная библиотека
О. М. Тамбовцева Центральная научная сельскохозяйственная библиотека

DOI: https://doi.org/10.30850/vrsn/2018/3/6-9

Аннотация

За 2013-2014 годы было создано более 90% мировых научных данных, и темпы ускоряются. У исследователей есть три основных варианта для получения сведений из растущего количества литературы: самостоятельное чтение статей (или рефератов), разбор литературы и написание рефератов кураторами, использование специализированного автоматизированного инструмента интеллектуального анализа текстовых документов. В журналах, которые традиционно мало цитируются, появляется 42% высокоцитируемых статей. В рефератах не присутствует 20% ключевых слов. Из полного текста статьи меньше половины ключевых фактов приводится в реферате. Авторы исключают из реферата некоторую техническую или вторичную информацию и почти в 50% случаев информацию, которая менее благоприятна идеи публикации. В 57% случаев важная информация упоминается только в самой статье и отсутствует в реферате. Даже лучшие кураторы не совсем точны. В одном исследовании с использованием рефератов статей PubMed, написанных вручную, с терминами в соответствии с «Генной онтологией», только 39% терминов, определенных тремя разными экспертами были одинаковыми. В другом исследовании, средняя точность аннотирования тремя экспертами медицинских событий в клинических фактах была в пределах 88%. В период с 2003 по 2012 год более чем одна треть совместных встречаемостей появилась в теле статьи до опубликования в рефератах. Текущая версия технологии интеллектуального текстового разбора от Elsevier достигает 98% точности для обнаружения объекта и 88% точности для извлечения связей. Один из наиболее популярных инструментов по интеллектуальному разбору документов и представлению результатов − Pathway Studio от Elsevier. Количество статей исследователей, упоминающих Pathway Studio, ежегодно растет с 2003 года, достигнув 170 статей в 2014 году. Количество цитирований статей на основе рефератов тоже увеличивается с 2004 года, достигнув 153 цитирования в 2014 году. Также ежегодно с 2006 года растет количество патентов, достигнув 20 патентов в 2014 году. Сочетание контента из журналов высшего качества от Elsevier и технологии автоматизированной интеллектуальной текстовой обработки, которая может обрабатывать и извлекать информацию из буквально миллионов полнотекстовых научных статей и десятков миллионов рефератов в течение нескольких часов, создаёт уникальный инструмент для работы исследователя.

Литература

Elsevier – white paper – harnessing the power of content. – Elsevier B.V., 2014.
2. Bernal-Delgado E., Fisher E. S. Abstracts in high profile journals often fail to report harm // Bmc Medical Research Methodology. – 2008. – T. 8.
3. Camon E. B., Barrell D. G., Dimmer E. C., Lee V., Magrane M., Maslen J., Binns D., Apweiler R. An evaluation of GO annotation retrieval for BioCreAtIvE and GOA // Bmc Bioinformatics. – 2005. – T. 6.
4. Corney D. P. A., Buxton B. F., Langdon W. B., Jones D. T. BioRAT: extracting biological information from full-length papers // Bioinformatics. – 2004. – T. 20, № 17. – C. 3206-3213.
5. Divoli A., Nakov P., Hearst M. A. Do peers see more in a paper than its authors? // Advances in Bioinformatics. – 2012. – T. 2012.
6. Friedman C., Kra P., Yu H., Krauthammer M., Rzhetsky A. GENIES: A natural-language processing system for the extraction of molecular pathways from journal articles // Bioinformatics. – 2001. – T. 17, № SUPPL. 1. – C. S74-S82.
7. McIntosh T., Curran J. R. Challenges for automatically extracting molecular interactions from full-text articles // Bmc Bioinformatics. – 2009. – T. 10.
8. Raghavan P., Fosler-Lussier E., Lai A. M. Inter-annotator reliability of medical events, coreferences and temporal relations in clinical narratives by annotators with varying levels of clinical expertise // AMIA ... Annual Symposium proceedings / AMIA Symposium. AMIA Symposium. – 2012. – T. 2012. – C. 1366-1374.
9. Schuemie M. J., Weeber M., Schijvenaars B. J. A., van Mulligen E. M., van der Eijk C. C., Jelier R., Mons B., Kors J. A. Distribution of information in biomedical abstracts and full-text publications // Bioinformatics. – 2004. – T. 20, № 16. – C. 2597-2604.
10. Shah P. K., Perez-Iratxeta C., Bork P., Andrade M. A. Information extraction from full text scientific articles: Where are the keywords? // Bmc Bioinformatics. – 2003. – T. 4.
11. Suderman M., Hallett M. Tools for visually exploring biological networks // Bioinformatics. – 2007. – T. 23, № 20. – C. 2651-2659.
12. Warner J. L., Anick P., Drews R. E. Physician inter-annotator agreement in the quality oncology practice initiative manual abstraction task // Journal of Oncology Practice. – 2013. – T. 9, № 3. – C. e96-e102.
13. White III F. Mach Is Too Much? Information Overload in Disease and Drug Research // R&D Magazine. – 2015. № July 20.