Maschinelles Lernen und Data Mining in der Bioinformatik
| Veranstaltungstyp | Vorlesung (4 SWS) + Übung (2 SWS) |
|---|---|
| ects | 8.0 |
| Dozent | Stefan Kramer (Vorlesung) Ullrich Rückert (Übung) |
| Zeit | Dienstag, 14:00-16:00 (Vorlesung) Donnerstag, 10:15-11:45 (Vorlesung) |
| Turnus | wöchentlich |
| Raum | Dienstag, MI 00.02.001 Donnerstag, MW 0250 |
| Unterrichtssprache | Deutsch |
| Materialien (anmeldung erforderlich) |
|---|
| Vorlesungsfolien |
| Übungsblätter |
| Bibliographie |
| WEKA |
| MATLAB |
Die Analyse von experimentellen und anderen Daten (z.B. Text) ist eine zentrale Aufgabe in der Bioinformatik. Das Ziel dabei ist, Muster und Regelmäßigkeiten in Daten zu erkennen, die neue wissenschaftliche Erkenntnisse ermöglichen. Die Muster und Regelmässigkeiten können prädiktiv sein (wie z.B. bei Klassifikations- oder Regressionsproblemen) oder deskriptiv (wie z.B. bei Problemen, bei denen es "nur" um das Finden von Abhängigkeiten in Daten geht). Zur Lösung der obigen Probleme wird in den letzten Jahren immer häufiger auf Algorithmen und Techniken des Maschinellen Lernens und des Data Mining zurückgegriffen. Das Maschinelle Lernen beschäftigt sich mit Algorithmen, die durch Erfahrung ihre Fähigkeit, eine Aufgabe zu lösen, verbessern können. Als "Data Mining" bezeichnet man den Datenanalyseschritt im Prozess der Entdeckung neuen Wissens in Datenbanken ("Knowlege Discovery in Databases"). Algorithmen des Maschinellen Lernens werden oft im Data Mining eingesetzt. Ziel dieser Vorlesung ist, aktuelle Anwendungen des Maschinellen Lernens und des Data Mining in der Bioinformatik systematisch vorzustellen.
In der Vorlesung wird gezeigt, wie Probleme der Bioinformatik, z.B
- die Analyse von Genexpressionsdaten
- die Entdeckung von Proteinsignaturen
- die Entdeckung von Motifs
- Protein-Annotation
- die Analyse metabolischer Netzwerke
- das Finden von Quantitativen Struktur-Aktivitätsbeziehungen (QSAR)
- Vorhersagetoxikologie/Toxicogenomics
mittels Techniken des Maschinellen Lernens und Data Mining, z.B.
- Version Spaces
- Association Rule Mining und Levelwise Search
- Constraint-Based Mining und Induktive Datenbanken
- Entscheidungsbäume
- Lernen von Regeln
- Induktive Logische Programmierung
- Lineare Modelle und Support Vector Machines
- Bayes'sches Lernen
- Instanz-Basiertes Lernen
- Clustering
- Genetische Algorithmen
behandelt werden können. Grundlage für die Abschnitte über das Maschinelle Lernen und Data Mining sind u.a. die Bücher:
- Machine Learning, T. Mitchell, McGraw Hill, 1997.
- Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, I. Witten, E. Frank, Morgan Kaufmann Publishers, 2000.
- Principles of Data Mining, D. Hand, P. Smyth, H. Mannila, MIT Press, 2000.
- The Elements of Statistical Learning: Data Mining, Inference, and Prediction, T. Hastie, R. Tibshirani, J.H. Friedman, Springer, 2001.
Die Beschreibungen der Anwendungen in der Bioinformatik stammen direkt aus der aktuellen Literatur (Bioinformatics-Journal, Journal of Molecular Biology, Journal of Computational Biology, PNAS, etc).
