Towards Affordable Disclosure of Spoken Heritage Archives

by Roeland Ordelman, Willemijn Heeren, Franciska de Jong, Marijn Huijbregts, and Djoerd Hiemstra

This paper presents and discusses ongoing work aiming at affordable disclosure of real-world spoken heritage archives in general, and in particular of a collection of recorded interviews with Dutch survivors of World War II concentration camp Buchenwald. Given such collections, we at least want to provide search at different levels and a flexible way of presenting results. Strategies for automatic annotation based on speech recognition – supporting e.g., within-document search– are outlined and discussed with respect to the Buchenwald interview collection. In addition, usability aspects of the spoken word search are discussed on the basis of our experiences with the online Buchenwald web portal. It is concluded that, although user feedback is generally fairly positive, automatic annotation performance is not yet satisfactory, and requires additional research.

To be published in the Journal of Digital Information 10(6).

[download pdf]

SIGIR 2010 Call for tutorials

SIGIR 2010 will begin with a full day of tutorials on July 19, 2010.

Proposals are solicited for tutorials of either a half-day (3 hours plus breaks) or full day (6 hours plus breaks) on all topics of information retrieval and its applications. Each tutorial should cover a single topic in detail. For example, tutorials may cover an information retrieval topic in depth, introduce an emerging application for retrieval technologies, or update the information retrieval community on recent advances in related fields.

Submissions should include a cover sheet and an extended abstract. The cover sheet should specify: (1) the title and length of the tutorial; (2) the intended audience (introductory, intermediate, advanced) and prerequisite knowledge or skills required, if any; (3) complete contact information for the contact person and other presenters; and (4) a brief biography (max. 2 paragraphs) for each presenter. The extended abstract should be 3 to 4 pages, and should include an outline of the tutorial, along with descriptions of the course objectives, its relevance to the information retrieval community, and course materials.

Tutorial proposals in PDF format must be sent via email by February 12, 2010 to tutorials@sigir2010.org. The submissions will undergo peer review and tutorials to be presented will be selected by the SIGIR Program Committee. Notifications will be send out by 24 March, 2010.

More information at SIGIR 2010.

Guest lecture by Giovane Moura

Next Friday, 11 December, in the first part of the lecture Giovane Moura will give a guest lecture about analyzing network management data. Giovane is Ph.D. student at the Design and Analysis of Communication Systems Group (DACS). His research topics include scalability of network analysis and intrusion detection, scalable storage for network flows, and self-management approaches for network management.

In the second part of the lecture we will discuss the SIGMOD 2008 paper by Christopher Olston et al.: “Pig Latin: A Not-So-Foreign Language for Data Processing”. The goal of Assignment 6 is to use Pig Latin for analyzing the network management data provided by Giovane and his collegues of the DACS group.

Assignment 5 (Sawzall) and Assignment 6 (Analyzing Network Management Data) for Distributed Data Processing using MapReduce are now on-line in the Blackboard Assignments section.

Sander Bockting wint ENIAC scriptieprijs

Sander Bockting heeft dit jaar de ENIAC scriptieprijs gewonnen. ENIAC is de de alumnivereniging voor oud-studenten van Informatica, Bedrijfsinformatietechnologie en Telematica. ENIAC reikt elk jaar een prijs uit voor de beste afstudeerscriptie. Het juryrapport luidt:

De jury heeft besloten de ENIAC scriptieprijs 2009 toe te kennen aan de scriptie “Collection Selection for Distributed Web Search: Using Highly Discriminative Keys, Query-driven Indexing and ColRank”, van Sander Bockting. De jury heeft gekozen voor deze scriptie, vanwege de relevantie van het onderzoek, de wetenschappelijke benadering en het grote deel 'ontwerp' (het prototype Sophos) dat in het werk besloten ligt. Hiernaast biedt Sanders onderzoek een (mogelijk) antwoord op het toegankelijke houden van het internet. Zoeken op internet en de bijbehorende zoekmachines vervullen een maatschappelijke functie in het ontsluiten van informatie. Door de sterke groei van het internet is het echter onmogelijk om het gehele internet centraal te blijven indexeren. Tevens geeft deze methode veel macht aan de eigenaren van enkele centrale zoekmachines. Sander laat zien dat het toepassen van gedistribueerde zoeksystemen een veelbelovende aanpak is, die in potentie gegevens beter ontsluit terwijl de afhankelijkheid van enkele centrale zoekmachines afneemt. De vijf door hem vergelijken technieken zijn dan ook een prima basis voor maatschappelijk en wetenschappelijk relevant vervolgonderzoek.

Tips and additional information for Assignment 3

The deadline for assignment 3 is Friday 4 December 10.45 h. (start of lecture). Some tips for Assignment 3:

  • To run the example code for regular expression matching in Haskell you need to import Text.Regex and Data.Maybe

  • Assignment 3.4: Tip: calculate some hash value over the complete web site content. Two duplicates will receive the exact same hash value, but because of collisions two different pages might get the same hash value. After computing the hash, you have to do a final check, removing duplicates from pages with the same hash value.
  • As an example of the result of the sample stage of Assignment 3.5, consider sorting people by their length on three machines. The sample stage would set boundaries on the values that approximately divide the data in three equal parts, for instance:
    • values between 0 and 1,75: part 1
    • values between 1,75 and 1,80: part 2
    • values between 1,80 and infinity: part 3
(You might get this if the sampling stage reveals that about 1/3 of persons is small than 1.75m, 1/3 is between 1.75 and 1.80 tall, and 1/3 is bigger than 1.80m)

Note that actual implementation in Hadoop needs a user-defined "partitioner", but for the Haskell assignment this is unimportant.

Finally, for the next lecture, please think of what problem you want to solve with Hadoop for Assignment 4.

More info on Blackboard.

Verhuisd

Gisteren kwam ik aan bij gebouw Zilverling, en tot mijn verbazing was het gebouw leeg en gesloten. De ramen waren geblindeerd, en op de glazen schuifdeur was een briefje geplakt: “We zijn verhuisd. Gratis vervoer naar onze nieuwe locatie…” Maar voordat ik kon lezen waarnaar de faculteit verhuisd was, werd ik aangesproken door een man in een auto. De auto had daar blijkbaar al geruime tijd gestaan. “Ik rij je er wel heen!” zei de man, “Service van de UT.” “Waarheen dan?” vroeg ik hem. De man mompelde een adres dat me vaag bekend voor kwam, `knooistroate' ofzo. Of klonk het alleen maar bekend? “Heb je een momentje?” vroeg ik hem, want ik vertrouwde het niet. “Ik moet eerst even bellen”, riep ik er gauw achteraan. Op het zelfde moment kreeg Peter al aan de lijn. Hij had wel iets van een verhuizing gehoord, maar wat het nieuwe adres was wist hij niet. Het adres wat de man noemde was voor hem ook nieuw. Maar half gerust gesteld belde ik vlug een bekende die bij extrene betrekkingen van de TU Delft werkt. Zij wist dit soort dingen altijd als eerste. “Wat-voor-stroat?” zei ze verbaasd. Dat klinkt niet als een straat van internationale allure. Ik kan me niet voorstellen dat de UT naar zo'n straat zou verhuizen. “Ik bel je later nog terug”, zei ik haar. De twijfel sloeg nu toe. Terwijl ik probeerde te bedenken wie ik nu zou bellen kwam Jan naast me staan. “Nou ja, we zijn verhuisd!” riep hij verbaasd uit. “Heb je het door: naar de knooistroate, of zoiets,” antwoorde ik hem. De man van de auto was nu uitgestapt en zei opnieuw: “Ik breng jullie er zo heen. Service van de UT.” Jan keek me aan. “Dat nieuwe adres ken ik volgens mij wel,” zei hij. Laten we dan gauw instappen zei ik. We stapten in de auto, en reden naar het nieuwe adres van de UT.

Zo'n onaangekondigde, plotselinge verhuizing zonder goede aanleiding lijkt nogal bizar, maar vindt nog wel eens plaats, met name op het world wide web. Sinds september j.l. vinden aspirant studenten die de UT op het adres http://www.utwente.nl proberen te vinden een verwijzing naar http://www.universiteittwente.nl. Je wordt automatisch naar het nieuwe adres gebracht, dat wel: service van de UT. Bij de kritische internet gebruiker hoort er dan meteen een alarmbel af te gaan, dat wil zeggen, bij de internet gebruiker die naar Postbus 51 spotjes kijkt en luistert: “Controleer altijd het webadres voor u iets betaalt“: Hee, universiteittwente.nl is niet het adres dat ik doorgekregen heb! Het klinkt ook lang niet zo internationaal als “utwente”: dat past immers mooi in een rijtje van Amerikaanse universiteiten, zoals “ucla“, of “umass“. Waarom een Nederlands klinkende naam? Zou de UT zich met name op de binnenlandse student en nationaal onderzoek richten? Is internationlisering van ondergeschikt belang bij de UT?

Een beproefde methode om het belang van een web site te bepalen is te kijken wie er naar de site linkt. Is de nieuwe site bekend bij andere sites? Zijn er veel hyperlinks van andere sites naar universiteittwente.nl? en, de sites die naar universiteittwente.nl linken, zijn dat belangrijke sites waar veel naar wordt gelinkt? Om het belang van websites mee te nemen in hun zoekmachine Google, stelden Sergey Brin en Larry Page daarom PageRank voor. PageRank is een algoritme dat de hyperlinks tussen webpagina's gebruikt om de pagina's op het world wide web te ordenen van belangrijk naar onbelangrijk. Een belangrijke pagina is altijd maar enkele kliks verwijderd. Een onbelangrijke pagina is vrijwel onbereikbaar via het klikken van hyperlinks. Door PageRank is Google in staat om voor algemene zoekvragen de belangrijkste pagina's terug te vinden. Voor een algemene zoekvraag als “studeren”, of “techniek studeren” vindt Google belangrijke universiteiten, en niet een weblog over techniek studenten van een willekeurige UT student. Omgekeerd geldt dus ook: zonder goede PageRank, daalt jouw pagina in de resultaten van vrijwel elke zoekvraag. Onderstaande tabel laat de PageRank zien van enkele voorbeeldpagina's in oktober 2009.

PageRank Voorbeelden van websites
10 google.com
 
9 mit.edu (Massachusetts Institute of Technology)
cam.ac.uk (University of Cambridge)
8 utwente.nl (voorheen Universiteit Twente)
stanford.edu
ucla.edu (University of California, Los Angeles)
7 www.cs.utwente.nl (Informatica aan de UT)
 
6 enschede.nl (Gemeente Enschede)
solarteam.nl (Twente Solar Team)
5 www.cs.utwente.nl (Djoerds webpagina)
atak.nl (Atak: Poppodium Enschede)
4 universiteittwente.nl (Nieuwe adres van de UT)
4happyfeet.nl (Studenten-dansvereniging UT)
3 hetpaletenschede.nl (Bassischool het Palet)
caferocks.nl (Cafe Rocks)
2 cafehetbolwerk.nl
 

Google PageRank in oktober 2009

Vlak na de verhuizing schatte Google het belang van universiteittwente.nl ongeveer gelijk in met de studenten dansvereniging 4 Happy Feet. Nu, bijna twee maanden verder, is de PageRank van universiteittwente.nl gestegen tot 7, bijna weer op het oude niveau, maar toch nog een punt minder dan utwente.nl had. Bij vrijwel elk internetbedrijf dat ik ken, leidt een punt dalen in PageRank tot de hoogste alarmfase: De directeur wordt om zeven uur 's ochtends uit zijn bed gebeld, en alle ontwikkelaars komen nog diezelfde ochtend op kantoor voor spoedoverleg. Een lagere PageRank betekent minder internetverkeer, minder klanten, en minder omzet. PageRank kan het verschil maken tussen een succesvol internetbedrijf en faillisement.
Gelukkig is de UT geen internetbedrijf.

Wordt vervolgd…

Searching in the 21st Century

Information retrieval (IR) can be defined as the process of representing, managing, searching, retrieving, and presenting information. Good IR involves understanding information needs and interests, developing an effective search technique, system, presentation, distribution and delivery. The increased use of the Web and wider availability of information in this environment led to the development of Web search engines. This change has brought fresh challenges to a wider variety of users’ needs, tasks, and types of information. Today, search engines are seen in enterprises, on laptops, in individual websites, in library catalogues, and elsewhere. Information Retrieval: Searching in the 21st Century focuses on core concepts, and current trends in the field. This book focuses on:

  • Information Retrieval Models
  • User-centred Evaluation of Information Retrieval Systems
  • Multimedia Resource Discovery
  • Image Users’ Needs and Searching Behaviour
  • Web Information Retrieval
  • Mobile Search
  • Context and Information Retrieval
  • Text Categorisation and Genre in Information Retrieval
  • Semantic Search
  • The Role of Natural Language Processing in Information Retrieval: Search for Meaning and Structure
  • Cross-language Information Retrieval
  • Performance Issues in Parallel Computing for Information Retrieval

This book is an invaluable reference for graduate students on IR courses or courses in related disciplines (e.g. computer science, information science, human-computer interaction, and knowledge management), academic and industrial researchers, and industrial personnel tracking information search technology developments to understand the business implications. Intermediate-advanced level undergraduate students on IR or related courses will also find this text insightful. Chapters are supplemented with exercises to stimulate further thinking.

More information at Wiley.

MapReduce Assignment 1 corrected

For the course Distributed Data Processing using MapReduce, grades and feedback for Assignment 1 can be found under “3. Feedback From Instructor” when you click on “Assignments” on Blackboard.

There are 7 more assignments, so lot's of possibilities to improve. If after 8 assignments the average grade is 5 or lower, then there will be additional assignments to pass the course. If you did not get the system working yet, please note that you will have to be able to run Hadoop in (at minimum in stand-alone mode) for Assignment 4.