Archive for the 'Deep Web' Category

Size estimation of non-cooperative data collections

Thursday, November 1st, 2012, posted by Djoerd Hiemstra

by Mohammadreza Khelghati, Djoerd Hiemstra, and Maurice van Keulen

In this paper, approaches for estimating the size of non-cooperative databases and search engines are categorized and reviewed. The most recent approaches are implemented and compared in a real environment. Finally, four methods based on the modification of the available techniques are introduced and evaluated. In one of the modifications, the estimations from other approaches could be improved ranging from 35 to 65 percent.

To be presented at the 14th International Conference on Information Integration and Web-based Applications and Services (iiWAS 2012) on 3-5 December 2012 in Bali, Indonesia

[download pdf]

Bessensap 2012 en het diepe web

Tuesday, June 5th, 2012, posted by Djoerd Hiemstra

Djoerd bij Bessensap in het Museon Meer dan 99 procent van het wereldwijde web is op dit moment niet doorzoekbaar door zoekmachines. Daardoor blijft veel informatie ontoegankelijk. Relatief eenvoudige vragen als ‘Wat is de beste treinreis van Enschede naar Amsterdam op 4 juni 2012?’ en ‘Wat is het telefoonnummer van Djoerd Hiemstra uit Enschede?’ kunnen niet door zoekmachines als Google en Bing worden beantwoord kunnen worden. Toch is het antwoord daarvan wel degelijk beschikbaar op het web. Namelijk in het diepe web, waar zoekmachines niet kunnen komen omdat ze de pagina’s niet van te voren hebben gedownload. De redenen daarvoor zijn divers en de Universiteit Twente onderzoekt methoden waarmee deze informatie toch gevonden kan worden door vragen op juiste te interpreteren, vragen naar de juiste bron te sturen en zoekresultaten te interpreteren en te integreren met resultaten van andere bronnen. De eerste demonstratie van onderzoeksresultaten uit dit onderzoek (http://treinplanner.info) kreeg sinds begin 2012 al 10.000den bezoekers.

Foto: Jan Taco te Gussinklo. Een leuk verslag is te vinden op: Dutch Button Works.

New team member: Mohammad Khelghati

Thursday, December 15th, 2011, posted by Djoerd Hiemstra
Mohammad Khelghati joined the database group to work on deep web entity monitoring. Welcome Mohammad!