Wat Google vindt, is slechts het topje van de ijsberg aan informatie die publiek op internet beschikbaar is. De overige 90 procent vormt het ‘Deep Web’; databases die niet voor de crawlers van zoekmachines toegankelijk zijn of gewoon informatie waarvan de eigenaar niet wil dat anderen er aan verdienen. De website van de gemeente Haarlem, iTunes of Parlando, de database met alle Kamerstukken, zijn maar enkele voorbeelden van dergelijke gesloten systemen. Het ontsluiten van die informatie is op zich al waardevol. Toch kan de waarde ervan nog sterk toenemen wanneer het mogelijk wordt verbanden te leggen tussen informatie uit verschillende bronnen. Zoeken naar een expert op een bepaald gebied wordt dan bijvoorbeeld veel eenvoudiger, net als het opsporen van alle publicaties over een ziektebeeld, of die nu zijn opgesteld in het Duits, Engels of Chinees.
Voor het leggen van verbanden is het nodig aan de gegevens meta-informatie toe te voegen over de context waaruit die gegevens komen. Die classificatie van gegevens is een van de belangrijkste aspecten van Web 3.0, ook wel het semantische web genoemd. De standaarden daarvoor (Resource Description Framework of RDF) zijn al in 2004 door het World Wide Web Consortium (W3C) vastgelegd. In de open-sourcegemeenschap circuleert allerhande gereedschap om de classificatie geautomatiseerd uit te voeren.
De techniek is dus geen groot probleem. Voor de classificatie moet de informatie echter wel door de eigenaar beschikbaar worden gesteld. “Tot nog toe heeft iedereen de neiging muurtjes te bouwen. Ik merk het zelfs bij mijzelf”, zegt Raymond Franz, directeur van Trendlight en ambassadeur van het Web3.0-model. “Het effect van een muurtje bouwen is echter dat er minder verkeer naar de website komt en de inkomsten dalen. Door informatie vrij te geven genereer je verkeer, en daaromheen kunnen nieuwe verdienmodellen worden ontwikkeld.” Franz werkt samen met hoogleraar Information Retrieval Maarten de Rijken van de Universiteit van Amsterdam aan een demonstratieproject genaamd Open Sahara om een dergelijk nieuw verdienmodel te ontwikkelen.
Een van de doelen van het Open Sahara project is gereedschap te ontwikkelen dat informatie traceerbaar maakt. Informatie-eigenaren kunnen dan met de applicatiebouwers afspreken dat, zodra het gebruik van de informatie hen geld gaat opleveren, de informatie-eigenaar een deel van de opbrengsten krijgt. Met dit gereedschap willen de projectdeelnemers de weerstand bij informatie-eigenaren doorbreken. Franz: “We willen de omstandigheden creëren voor de ontwikkeling van nieuwe producten rond ‘content’. Uitgevers hebben vijftien jaar geprobeerd nieuwe online-succesformules te ontwikkelen. Met dit model kunnen zij terugkeren naar hun kernactiviteiten, namelijk zich bezig houden met journalistiek. De ontwikkeling van online-producten kunnen zij aan webspecialisten overlaten.”
Franz vindt het lastig nu aan te geven welke toepassingen er met het nieuwe gereedschap en beschikbare content kunnen worden ontwikkeld, wanneer het straks beschikbaar is. “In principe zijn er in Nederland 20 miljoen mensen die de mogelijkheid hebben er met eenvoudig gereedschap als Yahoo pipes, slimme applicaties rond te bouwen.” Hij noemt everyblock.com als voorbeeld. De Amerikaanse site is een verzameling websites die per wijk lokaal nieuws, informatie en andere wetenswaardigheden verzamelt uit diverse bronnen.
De gemeente Amsterdam doet in het project mee door de onderzoekers de gelegenheid te geven het gemeentearchief, de notulen van de gemeenteraad en de database met bouwverordeningen op te nemen in een semantische backbone. Alle privacygevoelige gegevens worden daar uit gefilterd.
Ook persbureau ANP doet mee door het vrijgeven van het stadsnieuws, economisch en entertainmentnieuws. De semantische backbone die als een soort clearing house of ‘trusted third party’ optreedt in de afrekening, is inmiddels ingericht bij de Universiteit van Amsterdam. Franz ziet ook een kans om ‘bankzittende’ IT-ers in te zetten mee te bouwen aan nieuwe modellen.
Voor de gemeente Amsterdam is het project aantrekkelijk omdat de stad zich in een Web3.0-context veel beter kan presenteren op internet, dat tot nog toe voornamelijk Engels georiënteerd is. De indeling in categorieën van Web 3.0 is namelijk in vele talen hetzelfde, waardoor niet-Engelstalige informatie makkelijker wordt gevonden.
Ook op andere plekken in de wereld zij voorbeelden te vinden van Web3.0-ontwikkeling. De Amerikaanse overheid heeft met de komst van Barack Obama als president een krachtige draai naar openheid gemaakt. Zo is de site data.gov geïntroduceerd die veel overheidsinformatie op een machineleesbare manier aanbiedt. Ook heeft de regering Obama aan zijn economische herstelplan de voorwaarde gekoppeld dat alle informatie over aanbestedingen openbaar is en bovendien semantisch te classificeren moet zijn. Dat is interessant voor bedrijven, omdat zo de verschillen in aanbestedingsprocedures makkelijker vergeleken kunnen worden en het eenvoudiger wordt een prijs te formuleren.
Franz erkent dat het op dit moment lastig is de trein rijdend te krijgen. Enerzijds is het nu nog lastig sluitende bedrijfsmodellen op te stellen; en bovendien staat de huiver van informatie-eigenaren om hun gegevens beschikbaar te stellen een snelle groei in de weg. Hij ziet dan ook meer in een gefaseerde aanpak waarbij slechts een klein deel van informatie wordt opengesteld of bijvoorbeeld gefaseerd vrijkomt, net zoals de beurskoersen met vertraging voor verschillende doelgroepen beschikbaar komen.