Projekt Dokumentenmanagement

Automatisierte, zielgerichtete Datenaufbereitung in Citizen-Science-Projekten

Stand: 01.12.2018

Ziel der Entwicklung

Automatische Extraktion von Kerninformationen (Beispiel: Archiv zu Wildtiersichtungen), © GFaI 2019

Ziel des beantragten Projektes war es, Verfahren und Lösungen zu entwickeln, mit deren Hilfe heterogenes Beobachtungsmaterial, wie es von Teilnehmern von Großprojekten der bundesweiten Bewegung „Bürgerwissenschaften“ (Citizen Science, CS) geliefert wird, mit hohem Automatisierungsgrad zu klassifizieren, zu analysieren, auszuwerten und aufzubereiten.

Vorteile und Lösungen

Es wurden spezielle semantische Verfahren entwickelt, die heterogenes Beobachtungsmaterial analysieren und auswerten. Für die Forschenden können die relevanten Kerninformationen mit hohem Automatisierungsgrad aus den eingegangenen Zuschriften von Bürgern extrahiert werden. Im Fokus des Projekts standen E-Mail-Zuschriften. Alle Verfahren lassen sich jedoch auch auf andere Fließtextmeldungen anwenden wie Tweets, offene Formulartextfelder, Instagram-Bildunterschriften.
In CS.Recana entstanden Software-Verfahren zur abgesicherten Speicherung der Basisdaten (Zeit, Ort, Absender, Originalmitteilung), um Zitierfähigkeit zu gewährleisten und Nachfragen zu ermöglichen sowie zur automatisierten Extraktion von Aussagen, die dem wissenschaftlichen Interesse des jeweiligen CS-Projektes dienen.
Die Extraktionsverfahren werden mit Hilfe von fachspezifischen Ziel-Templates auf die Ausrichtung des CS-Projektes angepasst. Dem Forschenden werden die wichtigen Daten sofort angezeigt und auf Wunsch direkt in eine strukturierte Datenbank übernommen, die nach verschiedenen Aspekten ausgewertet werden kann und die Daten sicher verwaltet.
Durch die in CS.Recana entwickelten Verfahren können die Kernfragen zu den im Text beschriebenen Beobachtungen, nämlich das „WO“, „WANN“ und „WAS“ automatisch herausgefiltert werden. Dabei werden unscharfe oder relative Zeitangaben in standardisierte Daten überführt, Objektbeschreibungen klassifiziert und Ortsangaben in digitalen Karten angezeigt.
Mit Hilfe der im Projekt entwickelten Verfahren können die Antworten auf die „3W-Fragen“ automatisiert aus einer hohen Anzahl von Zusendungen gefiltert und visualisiert werden. Die extrahierten Informationen werden strukturiert verwaltet und können sofort für statistische Auswertungen genutzt werden.

Zielgruppe und Zielmarkt

Durch den Einsatz frei definierbarer Templates ist die Anpassung der Extraktionsverfahren auf verschiedene Fragestellungen einfach möglich, so dass das Ausgangsmaterial für unterschiedliche Forschungsaspekte genutzt werden kann.
Es entsteht ein hohes Einsparpotential bei der Filterung und Auswertung von textuellen CS-Beiträgen. Alle Ausgangsdaten und die generierten Datenextrakte verbleiben durchgängig beim Anwender, so dass die datenschutzrechtlichen Anforderungen erfüllt werden.
Zielgruppe sind Umweltorganisationen und Forschungszentren, die mit Bürgerwissenschaftlern zusammenarbeiten.
Nach Abschluss wurde umgehend damit begonnen, den Transfer von Projektergebnissen vorzubereiten. Verschiedene CS.Recana-Verfahren wurden bereits zur Marktreife weiterentwickelt und in die neue Software SKIMSON® integriert, so dass diese für zukünftige Bürgerprojekte verfügbar gemacht werden können.

Kontakt

GFaI Gesellschaft zur Förderung angewandter Informatik e. V.

Vorstandsvorsitzender: Prof. Dr. Holger Schlingloff, Humboldt-Universität zu Berlin
Geschäftsführer: Dr. Frank Weckend
Stellv. Geschäftsführerin: Dipl.-Math. Silvia Schwochow

Volmerstraße 3

12489 Berlin

+49 30 814563-300

+49 30 814563-302

info@gfai.de

www.gfai.de

Weitere Projekte zum Thema Dokumentenmanagement

29.04.2024

Automatisierte Extraktion und grafisch-schematische Aufbereitung von Kernaussagen in wissenschaftlichtechnischen Publikationen (TEXXAVIS)

Durch die in TEXXAVIS entwickelten Verfahren können wissenschaftlich-technische Literaturrecherchen unterstützt werden. Mit Hilfe des Natural Language Processing (NLP) werden Wissensextrakte automatisiert extrahiert und geordnet bereitgestellt.

12489 Berlin

Übersichtsdarstellung zur ANNOTOS Gesamtlösung, © GFaI Gesellschaft zur Förderung angewandter Informatik e. V.

16.09.2021

Grundlegende Annotationsverfahren der NLP Pipeline und Extraktion von technischen Fakten aus Fließtexten (ANNOTOS)

Durch neue Methoden des Natural Language Processing (NLP), die die kollaborative Annotation anwendungsspezifischer Texte unterstützen, können jetzt qualitativ hochwertige Fachkorpora erzeugt, Analysetools zielgerichtet trainiert und schließlich Fakten aus Fließtexten extrahiert werden.

12489 Berlin

Navigation

Automatisierte, zielgerichtete Datenaufbereitung in Citizen-Science-Projekten

Einleitung

Ziel der Entwicklung

Vorteile und Lösungen

Zielgruppe und Zielmarkt

Themenfelder

Kontakt

Weitere Projekte zum Thema Dokumentenmanagement