04.07.2017 08:00 | Źródło: www.naukawpolsce.pap.pl

Poznańscy naukowcy pomogą ocenić jakość artykułów na Wikipedii

Badacze z Uniwersytetu Ekonomicznego w Poznaniu tworzą modele, które pomogą w ocenie jakości informacji pozyskanych dzięki crowdsourcingowi, czyli danych pozyskanych dzięki "sile tłumu", tak jak ma to miejsce w przypadku Wikipedii.

Naukowcy z Uniwersytetu Ekonomicznego w Poznaniu we współpracy ze studentami opracują metody pomagające w ocenie jakości artykułów w tworzonej przez internautów encyklopedii online - Wikipedii.

"Zamierzamy ściągnąć wiele wersji językowych Wikipedii, przeanalizować poszczególne parametry artykułów i zbadać, jaki mają one związek z jakością artykułów" - opowiada kierownik grantu dr Krzysztof Węcel z Katedry Informatyki Ekonomicznej UEP. Przyznaje, że to spore wyzwanie.

"Na podstawie artykułu - jego treści i powiązań - będziemy w stanie automatycznie ocenić, czy jest on dobrej jakości" - opowiada dr Węcel.

"W przypadku informacji - składowymi jakości są: aktualność, wiarygodność i kompletność" - wymienia naukowiec.

Jeśli chodzi o aktualność artykułu w Wikipedii - algorytm może ją przeanalizować śledząc historię zmian w artykule.

Wiarygodność może trochę trudniej maszynie ocenić, ale nie jest to niemożliwe. Dr Węcel wyjaśnia, że można np. przeanalizować referencje zawarte w artykule - odniesienia do literatury fachowej lub innych stron. W ocenie wiarygodności liczy się też autor - czy ten sam wikipedysta pisał inne artykuły dobrej jakości i czy pokazał do tej pory swoje kompetencje.

Trzecią cechą jest kompletność informacji. "My będziemy analizować infoboksy" - powiedział badacz z UEP. Chodzi o tabelki przy niektórych artykułach, w przejrzysty sposób podsumowujące najważniejsze informacje. Np. w przypadku osoby to miejsce i data jej urodzenia/śmierci, jej stanowisko, czy narodowość. Badacze z UEP chcą sprawdzać poprawność, aktualność i kompletność atrybutów, porównując je z infoboksami z innych wersji językowych. "Być może dzięki temu kiedyś braki w infoboksach moglibyśmy uzupełniać wartościami zaczerpniętymi z innych wersji językowych" - opisuje dr Węcel.

Dodaje, że jego zespół wykorzystuje obecnie ponad sto atrybutów, które mogą pomóc algorytmowi oceniać jakość artykułów. To nie tylko historia aktualizacji, autor, referencje czy dane z infoboksów. To również m.in. liczba znaków w artykule, liczba obrazków, liczba nagłówków, nacechowanie języka, czy gęstość faktów (a więc liczba informacji na liczbę słów). Algorytm musi się nauczyć, które z tych wskaźników mają jak najściślejszy związek z jakością.

Model oceny jakości informacji przyda się w przyszłości wikipedystom np. po to, by szybciej wykrywali oni akty wandalizmu w Wikipedii i reagowali na niekorzystne dla jakości "poprawki" w artykułach.

Projekt „Data Science for improving the quality of crowdsourced information. The case of Wikipedia” wspierany jest w ramach programu Microsoft Azure for Research Award.