Hochschulschrift

Processing information about biomolecules with text mining and machine learning approaches

Zusammenfassung: Text Mining approaches cover a range of methods to extract information from usually unstructured literature resources. The largest freely available repository to search for this information is PubMed. Within the amount of different software solutions to gain knowledge from texts, the newly developed software library PubMed2Go provides a unified approach to index abstracts and their meta information on a local computer, thus making them easily searchable for the user. With an appropriate infrastructure, sophisticated approaches like machine learning can be used to learn and predict patterns in texts. Such models were built within this thesis for extracting functional compound-protein relationships from sentences of PubMed abstracts, applying two different kernels with support vector machines. The approach reached an F1 score of around 80 %, based on a newly developed and annotated benchmark data set. Text mining enables the efficient connection of textual information to other sources, like structures of chemical substances and sequences of proteins, by mapping their synonyms in texts to unique identifiers in specific databases. ChemIDplus is such an information repository including expert annotations. It was used for toxicity prediction of small molecules based on their median lethal dose. The machine learning classifiers decision tree, random forest, artificial neural network, and support vector machine reached an accuracy of up to 91 % with different sets of molecular descriptors. The best result was achieved by the random forest approach with an area under curve value of around 97 % on a clearly separated data set. The synchronisation of user-annotated data with information sources like textual and structural identifiers is a complex task, described in this thesis for the StreptomeDB, a database containing different information about the bacteria genus Streptomyces. Around 1,600 structures were included to the new database version via the presented update pipeline, produced by around 600 Streptomyces strains and containing a range of curated synthesis pathways as well as activities. The presented results prove that a combination of machine learning with automated text mining and manual curation is a valuable approach, leading to linkage of published information and generation of new knowledge
Zusammenfassung: Text Mining umfasst eine Vielzahl von Methoden zur Extraktion von Informationen aus Sammlungen von Texten. Der größte frei zugängliche Suchdienst für biomedizinische Forschungsergebnisse ist PubMed. Die Programmbibliothek PubMed2Go wurde im Rahmen dieser Arbeit entwickelt um beliebige Datensätze der PubMed zu indexieren und durchsuchbar zu machen. Desweiteren ermöglicht die Verwendung eines speziellen Dateiformats die einheitliche Nutzung weiterführender Anwendungen zur Wissensgewinnung. Mit Hilfe der geeigneten Infrastruktur konnten Modelle zur Vorhersage von funktionellen Beziehungen zwischen chemischen Kleinstrukturen und Proteinen in Sätzen von Texten der PubMed entwickelt werden. Der gewählte Ansatz des maschinellen Lernens wurde auf Grundlage eines eigens neu annotierten Datensatzes evaluiert. Die erfolgreiche Verwendung einer Support Vector Machine mit zwei verschiedenen Kernel-Funktionen resultierte in einem kreuzvalidierten F-Maß von ca. 80 %. Text Mining ermöglicht die effiziente Verknüpfung von Informationen aus der Literatur mit strukturellen oder sequenzbasierten Information aus spezifischen Datenbanken. Eine Plattform, die auf diese Weise miteinander verbundene Quellen über Annotationen von Experten bereitstellt, ist ChemIDplus. Die Toxizität darin enthaltener chemischer Kleinstrukturen wurde hinsichtlich der mittleren letalen Dosis auf Grundlage von molekularen Deskriptoren mit einer kreuzvalidierten Genauigkeit von bis zu 91 % vorhersagt. Die vier verwendeten algorithmischen Klassifierungsansätze lauten Entscheidungsbaum, Random Forest, künstliches neuronales Netz und Support Vector Machine. Der Random Forest erzielte das beste Ergebnis mit einem Area Under Curve-Wert von ca. 97 %. Das Synchronisieren annotierter Daten ist eine komplexe Aufgabe, die in dieser Arbeit im Zusammenhang mit der StreptomeDB beschrieben wird, einer Datenbank basierend auf verschiedenen Informationsquellen der Bakteriengattung Streptomyces. Es wurde ein Workflow zur Aktualisierung der Datenbank entwickelt, mit Hilfe dessen ca. 1600 neue Strukturen von ca. 600 verschiedenen Organismen in StreptomeDB integriert werden konnten, inklusive einer Fülle von Synthesewegen und Aktivitäten. Die hier vorgestellten Ergebnisse zeigen, dass die Nutzung von maschinellem Lernen in Kombination mit automatisiertem Text Mining und manueller Annotation zur Neuverknüpfung und Generation von Wissen führt

Location
Deutsche Nationalbibliothek Frankfurt am Main
Extent
Online-Ressource
Language
Englisch
Notes
Albert-Ludwigs-Universität Freiburg, Dissertation, 2015

Classification
Biowissenschaften, Biologie
Keyword
Text Mining
Maschinelles Lernen
Bioinformatik
Biomolekül
Toxizität
Streptomyces
PostgreSQL
Python
MongoDB
Java

Event
Veröffentlichung
(where)
Freiburg
(who)
Universität
(when)
2016
Creator
Contributor

DOI
10.6094/UNIFR/10565
URN
urn:nbn:de:bsz:25-freidok-105658
Rights
Der Zugriff auf das Objekt ist unbeschränkt möglich.
Last update
25.03.2025, 1:56 PM CET

Data provider

This object is provided by:
Deutsche Nationalbibliothek. If you have any questions about the object, please contact the data provider.

Object type

  • Hochschulschrift

Associated

Time of origin

  • 2016

Other Objects (12)