Physarum Learner: A Novel Strucure Learning Algorithm for Bayesian Networks inspired by Physarum Polycephalum

Promovierende Person
Dr. rer. nat. Thorsten Schön
Zeitraum
01.01.2011 – 12.07.2013
Wissenschaftlich betreuende Person (HSWT)
Prof. Dr. Martin Stetter
Wissenschaftlich betreuende Person (extern)
Prof. Dr. Elmar W. Lang
Universität Regensburg

Abstract

In dieser Arbeit werden zwei neu entwickelte Strukturlernalgorithmen für Bayesische Netzwerke vorgestellt, welche von dem echten Schleimpilz Physarum polycephalum inspiriert sind. Der erste, C-PhyL genannte, Algorithmus berechnet paarweise Korrelationskoeffizienten in dem Datensatz. Ein Initial voll verbundenes Phyasarum-Maze wird generiert, in welchem die Distanzen zwischen den einzelnen Knoten den inversen Korrelationswerten gleichgesetzt werden. Anschließend wird mit Hilfe des Physarum Solvers der kürzeste indirekte Pfad zwischen zwei Knoten ermittelt. In jeder Iteration wird ein Score der verbleibenden Verbindungen erhöht. Basierend auf diesen Score-Werten wird ein Bayesisches Netzwerk aus diesen Verbindungen abgeleitet. Dieser neue entwickelte Algorithmus wird mit verschiedenen Konfigurationen auf künstlich generierten und echten Testdatensätzen angewandt und mit LAGD Hill Climber, Tabu Search und Simulated Annealing verglichen. Hierbei zeigt C-PhyL vergleichbar gute Ergebnisse und kürzere Rechenzeiten für sehr große Datensätze. Ein weiterer, SO-PhyL genannter, Algorithmus wird vorgestellt und es wird gezeigt, dass diese in der Lage ist, herkömmliche Strukturlernalgorithmen für bestimme Datensätze zu übertreffen. SO-Phyl generiert zuerst ein voll verbundenes Physarum-Maze in welchen die Distanzen zwischen allen Knoten gleich sind und die Leitfähigkeiten der Verbindungen zufällig initialisiert werden. In jeder Physarum-Solver Iteration wird ein Start- und ein Endknoten zufällig bestimmt, und die Leitfähigkeiten werden neu berechnet. Verbindungen deren Leitfähigkeit einen vorher bestimmten Schwellenwert überschreiten, werden als möglichen Kanten für ein Bayesisches Netzwerk in Betracht gezogen und es wird ein Score für beide Richtungen berechnet. Basierend auf diesem Score wird den Leitfähigkeiten ein positives oder negatives Feedback gegeben. Da die Initialisierung der Leitfähigkeiten zufällig erfolgt, wird eine Gruppe von SO-PhyLs verwendet um das endgültige Bayesische Netzwerk zu ermitteln. Zuerst wird eine ausführliche Untersuchung der beeinflussenden Parameter des Algorithmus durchgeführt. Anschließend wird die neue Methode mit herkömmlichen Algorithmen verglichen. Hierzu werden sowohl eine Reihe künstlich erzeugter Netzwerke herangezogen, als auch sieben echte Testdatensätze. Es wird beobachtet, dass SO-PhyL ein vergleichbar guter Lernalgorithmus ist, welcher für bestimmte Datensätze sogar bessere Ergebnisse liefert. Weiter wird ein an der Medizinischen Universität Graz (MUG) neu ermittelter Datensatz analysiert, welcher verschiedene Parameter von an Nicht-alkoholischer Fettleber erkrankten Patienten beinhaltet. Hierzu werden Standardmethoden der Datenanalyse verwenden um mögliche Biomarker Kandidaten zu bestimmen. Die Analyse zeigt, dass Magnesium ein vielversprechender Kandidat hierfür ist, und ein Maus-Modell wurde von den Medizin-Experten der MUG eingeleitet um dies zu überprüfen. Zudem wurden die beiden neu vorgestellten Strukturlernalgorithmen dazu benutzt, ein Netzwerk des Datensatzes zu generieren um einen tieferen Einblick in die Beziehungen der Parameter zu erlangen.