Claudia Hauff defends PhD thesis on performance prediction

February 1st, 2010, posted by Djoerd Hiemstra

Predicting the Effectiveness of Queries and Retrieval Systems

by Claudia Hauff

The thesis considers users’ attempts to express their information needs through queries, or search requests and tries to predict whether those requests will be of high or low quality. Intuitively, a query’s quality is determined by the outcome of the query, that is, whether the retrieved search results meet the user’s expectations. The second type of prediction methods under investigation are those which attempt to predict the quality of search systems themselves. Given a number of search systems to consider, these methods estimate how well or how poorly the systems will perform in comparison to each other.

The motivation for this research effort stems primarily from the enormous benefits originating from successfully predicting the quality of a query or a system. Accurate predictions enable the employment of adaptive retrieval components which would have a considerable positive effect on the user experience. Furthermore, if we would achieve sufficiently accurate predictions of the quality of retrieval systems, the cost of evaluation would be significantly reduced.

In a first step, pre-retrieval predictors are investigated, which predict a query’s effectiveness before the retrieval step and are thus independent of the ranked list of results. Such predictors base their predictions solely on query terms, collection statistics and possibly external sources such as WordNet or Wikipedia. A total of twenty-two prediction algorithms are categorized and their quality is assessed on three different TREC test collections, including two large Web collections. A number of newly applied methods for combining various predictors are examined to obtain a better prediction of a query’s effectiveness. In order to adequately and appropriately compare such techniques the current evaluation methodology is critically examined. It is shown that the standard evaluation measure, namely the linear correlation coefficient, can provide a misleading indication of performance. To address this issue, the current evaluation methodology is extended to include cross validation and statistical testing to determine significant differences.

Building on the analysis of pre-retrieval predictors, post-retrieval approaches are then investigated, which estimate a query’s effectiveness on the basis of the retrieved results. The thesis focuses in particular on the Clarity Score approach and provides an analysis of its sensitivity towards different variables such as the collection, the query set and the retrieval approach. Adaptations to Clarity Score are introduced which improve the estimation accuracy of the original algorithm on most evaluated test collections.

The utility of query effectiveness prediction methods is commonly evaluated by reporting correlation coefficients, such as Kendall’s Tau and the linear correlation coefficient, which denote how well the methods perform at predicting the retrieval effectiveness of a set of queries. Despite the significant amount of research dedicated to this important stage in the retrieval process, the following question has remained unexplored: what is the relationship of the current evaluation methodology for query effectiveness prediction and the change in effectiveness of retrieval systems that employ a predictor? We investigate this question with a large scale study for which predictors of arbitrary accuracy are generated in order to examine how the strength of their observed Kendall’s Tau coefficient affects the retrieval effectiveness in two adaptive system settings: selective query expansion and meta-search. It is shown that the accuracy of currently existing query effectiveness prediction methods is not yet high enough to lead to consistent positive changes in retrieval performance in these particular settings.

The last part of the thesis is concerned with the task of estimating the ranking of retrieval systems according to their retrieval effectiveness without relying on costly relevance judgments. Five different system ranking estimation approaches are evaluated on a wide range of data sets which cover a variety of retrieval tasks and a variety of test collections. The issue that has long prevented this line of automatic evaluation to be used in practice is the severe mis-ranking of the best systems. In the experiments reported in this work, however, we show this not to be an inherent problem of system ranking estimation approaches, it is rather data set dependent. Under certain conditions it is indeed possible to automatically identify the best systems correctly. Furthermore, our analysis reveals that the estimated ranking of systems is not equally accurate for all topics of a topic set, which motivates the investigation of relying on topic subsets to improve the accuracy of the estimate. A study to this effect indicates the validity of the approach.

[download pdf]

Searching in the free world

January 13th, 2010, posted by Djoerd Hiemstra

Google faced a cyber attack originating from computers in China, that was serious enough to send an ultimatum to the Chinese government:

…We have decided we are no longer willing to continue censoring our results on Google.cn, and so over the next few weeks we will be discussing with the Chinese government the basis on which we could operate an unfiltered search engine within the law, if at all…

See: Google’s blog.

Another SIKS/Twente Seminar

January 8th, 2010, posted by Djoerd Hiemstra

The 3rd SIKS/Twente Seminar on Searching and Ranking takes place on January 29, 2010 at the University of Twente. The goal of the one day workshop is to bring together researchers from companies and academia working on the effectiveness of search engines. The workshop will take place at the University of Twente at the Spiegel (building 2), lecture hall SP-6. Speakers are:

  • Leif Azzopardi (University of Glasgow, UK)
  • Arjen de Vries (CWI and University of Delft)
  • Vanessa Murdock (Yahoo Research, Barcelona, Spain)
After the seminar, Claudia Hauff will defend her PhD Thesis: Predicting the Effectiveness of Queries and Retrieval Systems. The seminar is sponsored by SIKS (the Netherlands research School for Information and Knowledge Systems) and the CTIT (Centre for Telematics and Information Technology). For more information, check out the SSR 2010 website.

DetectSim software released

January 4th, 2010, posted by Djoerd Hiemstra

DetectSim: contains software for simulating concept detectors for video retrieval. Researchers can use the software to test their concept-based video retrieval approaches without the need to build real detectors.

Concept based video retrieval is a promising search paradigm because it is fully automated and it investigates the fine grained content of a video, which is normally not captured by human annotations. Concepts are captured by so-called concept detectors. However, since these detectors do not yet show a sufficient performance, the evaluation of retrieval systems, which are built on top of the detector output, is difficult. In this report we describe a software package which generates simulated detector output for a specified performance level. Afterwards, this output can be used to execute a search run and ultimately to evaluate the performance of the proposed retrieval method, which is normally done through comparison to a baseline. The probabilistic model of the detectors are two Gaussians, one for the positive and one for the negative class. Thus, the parameters for the simulation are the two means and deviations plus the prior probability of the concept in the dataset.

Download Now!

Download Technical Report.

SIGIR 2010 Call for tutorials

December 9th, 2009, posted by Djoerd Hiemstra

SIGIR 2010 will begin with a full day of tutorials on July 19, 2010.

Proposals are solicited for tutorials of either a half-day (3 hours plus breaks) or full day (6 hours plus breaks) on all topics of information retrieval and its applications. Each tutorial should cover a single topic in detail. For example, tutorials may cover an information retrieval topic in depth, introduce an emerging application for retrieval technologies, or update the information retrieval community on recent advances in related fields.

Submissions should include a cover sheet and an extended abstract. The cover sheet should specify: (1) the title and length of the tutorial; (2) the intended audience (introductory, intermediate, advanced) and prerequisite knowledge or skills required, if any; (3) complete contact information for the contact person and other presenters; and (4) a brief biography (max. 2 paragraphs) for each presenter. The extended abstract should be 3 to 4 pages, and should include an outline of the tutorial, along with descriptions of the course objectives, its relevance to the information retrieval community, and course materials.

Tutorial proposals in PDF format must be sent via email by February 12, 2010 to tutorials@sigir2010.org. The submissions will undergo peer review and tutorials to be presented will be selected by the SIGIR Program Committee. Notifications will be send out by 24 March, 2010.

More information at SIGIR 2010.

Guest lecture by Giovane Moura

December 8th, 2009, posted by Djoerd Hiemstra

Next Friday, 11 December, in the first part of the lecture Giovane Moura will give a guest lecture about analyzing network management data. Giovane is Ph.D. student at the Design and Analysis of Communication Systems Group (DACS). His research topics include scalability of network analysis and intrusion detection, scalable storage for network flows, and self-management approaches for network management.

In the second part of the lecture we will discuss the SIGMOD 2008 paper by Christopher Olston et al.: “Pig Latin: A Not-So-Foreign Language for Data Processing”. The goal of Assignment 6 is to use Pig Latin for analyzing the network management data provided by Giovane and his collegues of the DACS group.

Assignment 5 (Sawzall) and Assignment 6 (Analyzing Network Management Data) for Distributed Data Processing using MapReduce are now on-line in the Blackboard Assignments section.

Sander Bockting wint ENIAC scriptieprijs

December 7th, 2009, posted by Djoerd Hiemstra

Sander Bockting heeft dit jaar de ENIAC scriptieprijs gewonnen. ENIAC is de de alumnivereniging voor oud-studenten van Informatica, Bedrijfsinformatietechnologie en Telematica. ENIAC reikt elk jaar een prijs uit voor de beste afstudeerscriptie. Het juryrapport luidt:

De jury heeft besloten de ENIAC scriptieprijs 2009 toe te kennen aan de scriptie “Collection Selection for Distributed Web Search: Using Highly Discriminative Keys, Query-driven Indexing and ColRank”, van Sander Bockting. De jury heeft gekozen voor deze scriptie, vanwege de relevantie van het onderzoek, de wetenschappelijke benadering en het grote deel ‘ontwerp’ (het prototype Sophos) dat in het werk besloten ligt. Hiernaast biedt Sanders onderzoek een (mogelijk) antwoord op het toegankelijke houden van het internet. Zoeken op internet en de bijbehorende zoekmachines vervullen een maatschappelijke functie in het ontsluiten van informatie. Door de sterke groei van het internet is het echter onmogelijk om het gehele internet centraal te blijven indexeren. Tevens geeft deze methode veel macht aan de eigenaren van enkele centrale zoekmachines. Sander laat zien dat het toepassen van gedistribueerde zoeksystemen een veelbelovende aanpak is, die in potentie gegevens beter ontsluit terwijl de afhankelijkheid van enkele centrale zoekmachines afneemt. De vijf door hem vergelijken technieken zijn dan ook een prima basis voor maatschappelijk en wetenschappelijk relevant vervolgonderzoek.

Verhuisd

December 2nd, 2009, posted by Djoerd Hiemstra

Gisteren kwam ik aan bij gebouw Zilverling, en tot mijn verbazing was het gebouw leeg en gesloten. De ramen waren geblindeerd, en op de glazen schuifdeur was een briefje geplakt: “We zijn verhuisd. Gratis vervoer naar onze nieuwe locatie…” Maar voordat ik kon lezen waarnaar de faculteit verhuisd was, werd ik aangesproken door een man in een auto. De auto had daar blijkbaar al geruime tijd gestaan. “Ik rij je er wel heen!” zei de man, “Service van de UT.” “Waarheen dan?” vroeg ik hem. De man mompelde een adres dat me vaag bekend voor kwam, `knooistroate’ ofzo. Of klonk het alleen maar bekend? “Heb je een momentje?” vroeg ik hem, want ik vertrouwde het niet. “Ik moet eerst even bellen”, riep ik er gauw achteraan. Op het zelfde moment kreeg Peter al aan de lijn. Hij had wel iets van een verhuizing gehoord, maar wat het nieuwe adres was wist hij niet. Het adres wat de man noemde was voor hem ook nieuw. Maar half gerust gesteld belde ik vlug een bekende die bij extrene betrekkingen van de TU Delft werkt. Zij wist dit soort dingen altijd als eerste. “Wat-voor-stroat?” zei ze verbaasd. Dat klinkt niet als een straat van internationale allure. Ik kan me niet voorstellen dat de UT naar zo’n straat zou verhuizen. “Ik bel je later nog terug”, zei ik haar. De twijfel sloeg nu toe. Terwijl ik probeerde te bedenken wie ik nu zou bellen kwam Jan naast me staan. “Nou ja, we zijn verhuisd!” riep hij verbaasd uit. “Heb je het door: naar de knooistroate, of zoiets,” antwoorde ik hem. De man van de auto was nu uitgestapt en zei opnieuw: “Ik breng jullie er zo heen. Service van de UT.” Jan keek me aan. “Dat nieuwe adres ken ik volgens mij wel,” zei hij. Laten we dan gauw instappen zei ik. We stapten in de auto, en reden naar het nieuwe adres van de UT.

Zo’n onaangekondigde, plotselinge verhuizing zonder goede aanleiding lijkt nogal bizar, maar vindt nog wel eens plaats, met name op het world wide web. Sinds september j.l. vinden aspirant studenten die de UT op het adres http://www.utwente.nl proberen te vinden een verwijzing naar http://www.universiteittwente.nl. Je wordt automatisch naar het nieuwe adres gebracht, dat wel: service van de UT. Bij de kritische internet gebruiker hoort er dan meteen een alarmbel af te gaan, dat wil zeggen, bij de internet gebruiker die naar Postbus 51 spotjes kijkt en luistert: “Controleer altijd het webadres voor u iets betaalt“: Hee, universiteittwente.nl is niet het adres dat ik doorgekregen heb! Het klinkt ook lang niet zo internationaal als “utwente”: dat past immers mooi in een rijtje van Amerikaanse universiteiten, zoals “ucla“, of “umass“. Waarom een Nederlands klinkende naam? Zou de UT zich met name op de binnenlandse student en nationaal onderzoek richten? Is internationlisering van ondergeschikt belang bij de UT?

Een beproefde methode om het belang van een web site te bepalen is te kijken wie er naar de site linkt. Is de nieuwe site bekend bij andere sites? Zijn er veel hyperlinks van andere sites naar universiteittwente.nl? en, de sites die naar universiteittwente.nl linken, zijn dat belangrijke sites waar veel naar wordt gelinkt? Om het belang van websites mee te nemen in hun zoekmachine Google, stelden Sergey Brin en Larry Page daarom PageRank voor. PageRank is een algoritme dat de hyperlinks tussen webpagina’s gebruikt om de pagina’s op het world wide web te ordenen van belangrijk naar onbelangrijk. Een belangrijke pagina is altijd maar enkele kliks verwijderd. Een onbelangrijke pagina is vrijwel onbereikbaar via het klikken van hyperlinks. Door PageRank is Google in staat om voor algemene zoekvragen de belangrijkste pagina’s terug te vinden. Voor een algemene zoekvraag als “studeren”, of “techniek studeren” vindt Google belangrijke universiteiten, en niet een weblog over techniek studenten van een willekeurige UT student. Omgekeerd geldt dus ook: zonder goede PageRank, daalt jouw pagina in de resultaten van vrijwel elke zoekvraag. Onderstaande tabel laat de PageRank zien van enkele voorbeeldpagina’s in oktober 2009.

PageRank Voorbeelden van websites
10 google.com
 
9 mit.edu (Massachusetts Institute of Technology)
cam.ac.uk (University of Cambridge)
8 utwente.nl (voorheen Universiteit Twente)
stanford.edu
ucla.edu (University of California, Los Angeles)
7 www.cs.utwente.nl (Informatica aan de UT)
 
6 enschede.nl (Gemeente Enschede)
solarteam.nl (Twente Solar Team)
5 www.cs.utwente.nl/~hiemstra (Djoerds webpagina)
atak.nl (Atak: Poppodium Enschede)
4 universiteittwente.nl (Nieuwe adres van de UT)
4happyfeet.nl (Studenten-dansvereniging UT)
3 hetpaletenschede.nl (Bassischool het Palet)
caferocks.nl (Cafe Rocks)
2 cafehetbolwerk.nl
 
Google PageRank in oktober 2009

Vlak na de verhuizing schatte Google het belang van universiteittwente.nl ongeveer gelijk in met de studenten dansvereniging 4 Happy Feet. Nu, bijna twee maanden verder, is de PageRank van universiteittwente.nl gestegen tot 7, bijna weer op het oude niveau, maar toch nog een punt minder dan utwente.nl had. Bij vrijwel elk internetbedrijf dat ik ken, lijdt een punt dalen in PageRank tot de hoogste alarmfase: De directeur wordt om zeven uur ’s ochtends uit zijn bed gebeld, en alle ontwikkelaars komen nog diezelfde ochtend op kantoor voor spoedoverleg. Een lagere PageRank betekent minder internetverkeer, minder klanten, en minder omzet. PageRank kan het verschil maken tussen een succesvol internetbedrijf en faillisement.
Gelukkig is de UT geen internetbedrijf.

Wordt vervolgd…

Searching in the 21st Century

November 26th, 2009, posted by Djoerd Hiemstra

Information retrieval (IR) can be defined as the process of representing, managing, searching, retrieving, and presenting information. Good IR involves understanding information needs and interests, developing an effective search technique, system, presentation, distribution and delivery. The increased use of the Web and wider availability of information in this environment led to the development of Web search engines. This change has brought fresh challenges to a wider variety of users’ needs, tasks, and types of information. Today, search engines are seen in enterprises, on laptops, in individual websites, in library catalogues, and elsewhere. Information Retrieval: Searching in the 21st Century focuses on core concepts, and current trends in the field. This book focuses on:

  • Information Retrieval Models
  • User-centred Evaluation of Information Retrieval Systems
  • Multimedia Resource Discovery
  • Image Users’ Needs and Searching Behaviour
  • Web Information Retrieval
  • Mobile Search
  • Context and Information Retrieval
  • Text Categorisation and Genre in Information Retrieval
  • Semantic Search
  • The Role of Natural Language Processing in Information Retrieval: Search for Meaning and Structure
  • Cross-language Information Retrieval
  • Performance Issues in Parallel Computing for Information Retrieval
This book is an invaluable reference for graduate students on IR courses or courses in related disciplines (e.g. computer science, information science, human-computer interaction, and knowledge management), academic and industrial researchers, and industrial personnel tracking information search technology developments to understand the business implications. Intermediate-advanced level undergraduate students on IR or related courses will also find this text insightful. Chapters are supplemented with exercises to stimulate further thinking.

More information at Wiley.

MapReduce Assignment 1 corrected

November 25th, 2009, posted by Djoerd Hiemstra

For the course Distributed Data Processing using MapReduce, grades and feedback for Assignment 1 can be found under “3. Feedback From Instructor” when you click on “Assignments” on Blackboard.

There are 7 more assignments, so lot’s of possibilities to improve. If after 8 assignments the average grade is 5 or lower, then there will be additional assignments to pass the course. If you did not get the system working yet, please note that you will have to be able to run Hadoop in (at minimum in stand-alone mode) for Assignment 4.