| Źródło: www.naukawpolsce.pap.pl
Poznańscy naukowcy pomogą ocenić jakość artykułów na Wikipedii
Naukowcy z Uniwersytetu Ekonomicznego w Poznaniu we współpracy ze studentami opracują metody pomagające w ocenie jakości artykułów w tworzonej przez internautów encyklopedii online - Wikipedii.
"Zamierzamy ściągnąć wiele wersji językowych Wikipedii, przeanalizować poszczególne parametry artykułów i zbadać, jaki mają one związek z jakością artykułów" - opowiada kierownik grantu dr Krzysztof Węcel z Katedry Informatyki Ekonomicznej UEP. Przyznaje, że to spore wyzwanie.
"Na podstawie artykułu - jego treści i powiązań - będziemy w stanie automatycznie ocenić, czy jest on dobrej jakości" - opowiada dr Węcel.
"W przypadku informacji - składowymi jakości są: aktualność, wiarygodność i kompletność" - wymienia naukowiec.
Jeśli chodzi o aktualność artykułu w Wikipedii - algorytm może ją przeanalizować śledząc historię zmian w artykule.
Wiarygodność może trochę trudniej maszynie ocenić, ale nie jest to niemożliwe. Dr Węcel wyjaśnia, że można np. przeanalizować referencje zawarte w artykule - odniesienia do literatury fachowej lub innych stron. W ocenie wiarygodności liczy się też autor - czy ten sam wikipedysta pisał inne artykuły dobrej jakości i czy pokazał do tej pory swoje kompetencje.
Trzecią cechą jest kompletność informacji. "My będziemy analizować infoboksy" - powiedział badacz z UEP. Chodzi o tabelki przy niektórych artykułach, w przejrzysty sposób podsumowujące najważniejsze informacje. Np. w przypadku osoby to miejsce i data jej urodzenia/śmierci, jej stanowisko, czy narodowość. Badacze z UEP chcą sprawdzać poprawność, aktualność i kompletność atrybutów, porównując je z infoboksami z innych wersji językowych. "Być może dzięki temu kiedyś braki w infoboksach moglibyśmy uzupełniać wartościami zaczerpniętymi z innych wersji językowych" - opisuje dr Węcel.
Dodaje, że jego zespół wykorzystuje obecnie ponad sto atrybutów, które mogą pomóc algorytmowi oceniać jakość artykułów. To nie tylko historia aktualizacji, autor, referencje czy dane z infoboksów. To również m.in. liczba znaków w artykule, liczba obrazków, liczba nagłówków, nacechowanie języka, czy gęstość faktów (a więc liczba informacji na liczbę słów). Algorytm musi się nauczyć, które z tych wskaźników mają jak najściślejszy związek z jakością.
Model oceny jakości informacji przyda się w przyszłości wikipedystom np. po to, by szybciej wykrywali oni akty wandalizmu w Wikipedii i reagowali na niekorzystne dla jakości "poprawki" w artykułach.
Projekt „Data Science for improving the quality of crowdsourced information. The case of Wikipedia” wspierany jest w ramach programu Microsoft Azure for Research Award.
Napisz komentarz
Komentujesz jako: Gość Facebook Zaloguj