INTERPRETATIE DATA EN TEKST
               Spanningsveld tussen statistiche en tekstuele informatie 

Wie denkt dat het in het bedrijfsleven qua informatiebehandeling en analyses van risks and opportunities anders toegaat dan in bijvoorbeeld de turbulente voetbalsector moet even denken aan de oliereserves van Shell of wat recente beursschandalen. Ook daar is de interactie tussen harde statistische cijfers en de interpretaties van die cijfers in rapporten in natuurlijke taal (tekst) een uitermate explosief mengsel van informatie.

Statistiek als cijfermatige samenvatting van informatie maakt twee belangrijke vertaalslagen door. De cijfers worden uit de natuurlijke taal (vrije tekst) samengevoegd in "verrekenbare" informatie; vaak ook nog in grafische vorm. Vanuit de grafieken worden dan weer analyses gemaakt en conclusies getrokken in vrije tekst. Dat levert nogal een vertekening op en een interpretatieveld van statistics and lies.

Het basisprobleem
Vrije tekst beslaat in de vorm van brieven, rapporten, contracten en vele andere documenten zo’n 95 procent van de informatie in de administratieve omgeving. Om overzicht en inzicht te krijgen worden statistieken gebruikt. Aan de ene kant leveren die kwantitatieve gegevens goed materiaal op om te analyseren, zaken samen te vatten en te vergelijken. Maar deze gecalculeerde tot staafdiagrammen en piechards getransformeerde informatie doet vaak nauwelijks recht aan informatie in natuurlijke taal (vrije tekst). Vrije tekst werd door ICT-ers als lastig ervaren omdat ze maar moeilijk past in de tabellen, velden en records van de traditionele computertechnologie. In dit artikel geven we een aantal voorbeelden uit de praktijk die illustratief zijn voor het spanningsveld tussen statistische en tekstuele informatie; een
geïntegreerd zoeksysteem voor politie, een medische case, een case van de analyse van vliegtuig crashes, en een database voor inbreuk op mensenrechten.

Om grote hoeveelheden tekstuele informatie (documenten) te kunnen doorvorsen, worden statistische samenvattingen gemaakt die, vaak in de vorm van grafische presentaties, de informatie bruikbaar moeten maken. Dit houdt in dat de informatie in een streng geformatteerde vorm middels gestandaardiseerde codes of relationele databases met voorgedefinieerde velden wordt opgeslagen. Deze opslag in formulier vorm kan een flinke belemmering zijn voor latere analyse omdat veel informatie niet in de vakjes van het formulier wordt opgenomen en niet "doorgerekend" kan worden.

Natuurlijke taal, ofwel vrije tekst, bevat uiteraard nu eenmaal veel meer informatie dan gecodeerde formulieren kunnen herbergen. Hierin ligt ook de oorzaak van menig geschil over analyses van belangrijke kwesties. Daar waar traditionele ICT-ers en analisten de "berekende" informatie als harde gegevens interpreteren komen ze in conflict met deskundigen die veel waarde hechten aan de context waarin de gegevens staan. De gap tussen "kwantitatieve" en "niet kwantitatieve" informatie wordt maar moeizaam overbrugd.

Wat de tegenstanders van pure statistiek verwerpen als "Statistics and lies" omarmen de voorstanders van statistische, lees "enige feitelijke" informatie, als "wetenschappelijk verantwoord".

Eenvoudig gesteld: omdat de computer beter met cijfers dan letters kan omgaan wordt de getalsmatige informatie een hogere waarde toegedicht dat de tekstmatige informatie.

Statistische informatie in vrije tekst
De statisticus Douglas Samuelson omschreef het probleem van analyses op basis van statistisch materiaal versus natuurlijke taal eens als volgt: "Het kernprobleem ligt niet in het feit dat natuurlijke taal als informatiebron minder waardevol is dan getalsmatige informatie, maar veeleer in het feit dat het veel moeilijker is om tekstuele informatie in bruikbare formats te gieten voor kwantitatieve analyses. Een rapportage in natuurlijke taal, de gebaseerd is op objectieve voorzichtige waarneming, bevat vaak veel kwantitatieve informatie. Maar het probleem zit in het extraheren en evalueren".

Er zijn talloze voorbeelden van getuigenverklaringen die dit ondersteunen. Bijvoorbeeld, ons word verteld dat iemand een man een groot meer te voet overstak. We denken dan onmiddellijk aan een optische illusie of de bekende paaltjes vlak onder het wateroppervlak. Maar als we dan ook horen dat er verschillende onbevooroordeelde getuigen hebben die de waarneming bevestigen, inclusief video-opname, en onderzoek uitwijst dat er geen steunpunten onder water zijn, dan zijn we geneigd meer geloof aan de observatie te hechten; ook als er geen kwantitatieve metingen gedaan zijn.

Informatie die bruikbaar is, moet bovendien in principe altijd aan de wet van de Griekse treurspelen voldoen: eenheid van tijd, plaats en handeling. Tijd en plaats is duidelijk terwijl handeling bestaat uit zaken als de context en de hoedanigheid (status) van de informatieverschaffer. Als deze drie bronelementen niet met elkaar verbonden zijn is de informatie per definitie instabiel en onbetrouwbaar. Het zal dus niet verbazen dat internet informatie over het algemeen, net als de voorbeschouwingen bij voetbalwedstrijden, in de categorie "hoogst onbetrouwbaar" scoort. De geloofwaardigheid, of wel betrouwbaarheid, van informatie is daarbij afhankelijk van een integratie van kwantitatieve en kwalitatieve maatstaven.

Door middel van onderstaande button kunt u meer informatie over statistische informatie, tekstuele informatie, interpretatie data en tekst en statistiek downloaden. U ontvangt dan het volledige artikel 'Interpretatie data en tekst'.


  

      Hans
    Paalvast   
                               Vraag expert advies!      


Om de complete versie te ontvangen:


Voor meer relevante informatie zie:
- Busines Intelligence
-
Biz & Websolutions

                                                
Google
 




  

Contact  RSS feed