VOLAUTOMATISCH TEKSTEN SAMENVATTEN
VAT SAMEN MET DE SUMMARIZER Iedereen is inmiddels bekend met de term Big data de groeiende hoeveelheid door machines gegenereerde informatie uitgedrukt in cijfers en geld. Minder bekend is de term Big Content de groeiende hoeveelheid door de mens gegeneerde informatie. Naar verwachting groeit Big Content vier keer zo snel als Big Data. In veel zakelijke en wetenschappelijke documenten wordt begonnen met een samenvatting. Uit onderzoek blijkt dat de informatie beter en sneller wordt geabsorbeerd als documenten zijn voorzien van een samenvatting. Om ook die documenten en teksten waar een samenvatting ontbreekt efficiënt en effectief te kunnen verwerken biedt CARP de Summarizer. We krijgen steeds meer informatie te verwerken. Steeds meer nieuws, rapporten, en andere documenten die gelezen moeten worden. Via Internet is een enorme hoeveelheid informatie beschikbaar. Zou het dan niet makkelijk zijn als van al die documenten een samenvatting beschikbaar was? De Summarizer maakt volautomatisch samenvattingen van teksten in het Engels en het Nederlands. De lengte van de samenvattingen die gegenereerd worden is volledig instelbaar. Deze kan worden aangegeven in aantal woorden, zinnen of een percentage van de lengte van het origineel. De samenvatting van een tekst van enkele pagina s wordt binnen enkele seconden gegenereerd. De lengte van de samenvatting is vervolgens in een fractie van een seconde aan te passen. Veel sneller én goedkoper dan een handmatig gemaakte samenvatting! De Summarizer biedt de mogelijkheid om onderwerpen uit het origineel te kiezen en een samenvatting over die onderwerpen te maken. Bijvoorbeeld: uit het persbericht van een bedrijf is alleen de informatie over de omzet interessant. Uit een lijst worden onderwerpen als omzetstijging, omzetvolume en omzetcijfers geselecteerd. Vervolgens genereert de Summarizer een samenvatting die alleen de omzet behandelt. Uit tests is gebleken dat de Summarizer daad-werkelijk in staat is de belangrijke informatie-elementen uit een tekst te halen. De samenvattingen van de Summarizer zijn dus te gebruiken als vervanging van het origineel!
HOE WERKT HET De Summarizer gebruikt een domeinonafhankelijke samenvattingstrategie. Eenvoudig gezegd is deze op te delen in een aantal stappen. Stap 1: het originele document wordt ontleed. In feite gaat het ontleden net zo in zijn werk als op de basisschool wordt gedaan. Van elke zin wordt het onderwerp, persoonvorm, gezegde en dergelijke bepaald. Zo wordt een syntactische structuur van een tekst opgebouwd. Stap 3: uit de betekenisstructuur worden de onbelangrijke delen weggesnoeid. Op een semantische structuur kunnen allerlei wiskundige operaties worden toegepast. Dan wordt dus niet meer met getallen gerekend, maar met de betekenis van de tekst! Stap 4: de gesnoeide betekenisstructuur wordt gebruikt om een nieuwe tekst te genereren. Stap 2: de syntactische structuur uit de vorige stap wordt gebruikt om een structuur van de betekenis van de tekst te maken. Deze bestaat in feite uit concepten en de relaties daartussen. Hieronder staat ter illustratie een zeer eenvoudige betekenisstructuur.
TAALTECHNOLOGIE De Summarizer is beschikbaar als webapplicatie en als webservice zodat deze volledig geintegreerd kan worden in uw bedrijfsproces. Neem gerust contact op als u meer wilt weten over de Summarizer of over onze andere producten: Keyword Extractor: volautomatisch keyword extracitie. Anonimizer: het anonimiseren of pseudonimiseren van teksten. Classifier: het classificeren van teksten op basis van training. Duplicate finder: het vinden van gelijkwaardige teksten mogelijk OVER CARP TECHNOLOGIES CARP is een Nederlandse leider in natuurlijke en computationele taaltechnologie. CARP werd in 1995 opgericht door promovendi van de Universiteit Twente. Het doel van CARP is om individuen en bedrijven te helpen bij het omgaan efficiënt en effectief met een steeds groeiende stroom van ongestructureerde tekstuele gegevens in het algemeen en de communicatie te verbeteren tussen mens en machine in het bijzonder. Copyright 2014 CARP Technologies B.V.
Copyright 2014 CARP Technologies B.V. Tm7-Carp Technologies Munsterstraat 9 7418 EV Deventer Tel. 085 210 1025 Email: info@tm7.nl Web: http://www.tm7.nl/