Samsung's nieuwe Truebench AI-benchmarktests testen real-world taken

Samsung is niet een bedrijf dat volledig is gericht op AI zoals perplexiteit of openai. De huidige en langetermijnstrategie omvat echter het integreren van kunstmatige intelligentie in de overgrote meerderheid van haar producten in alle mogelijke segmenten. De kenmerken van de Galaxy AI -suite in de smartphones en tablets van het bedrijf zijn een duidelijk voorbeeld. Gezien dit scenario heeft Samsung Research een nieuwe eigen benchmark ontwikkeld voor het evalueren van AI -productiviteit genaamd Truebch.

Trubench: Samsung’s AI-benchmark voor real-world AI-prestaties

Ontmoet Samsung’s nieuwe Trubench (betrouwbare real-world gebruiksevaluatie-benchmark). Het bedrijf verklaarde dat het de tool heeft gemaakt om beperkingen aan te pakken die in bestaande AI -benchmarks zijn gevonden. Het bedrijf beweert dat de huidige tools te veel richten op het Engels. Ook dat ze vaak vertrouwen op eenvoudige, single-bocht vraag-en-antwoordstructuren. Dit beperkte hun vermogen om nauwkeurig weer te geven hoe AI wordt gebruikt in een werkomgeving in de praktijk.

Om deze beperkingen te overwinnen, wil Trubench een uitgebreidere en realistische evaluatie geven van hoe grote taalmodellen presteren in professionele omgevingen. De benchmark beoordeelt AI -prestaties op tien veelgebruikte bedrijfstaken. De lijst omvat het genereren van inhoud, gegevensanalyse, samenvatting en vertaling. Deze taken maken deel uit van een enorme verzameling van 2.485 testsets die tien categorieën en 46 subcategorieën omvatten en verschillende dialoogscenario’s in twaalf talen bevatten.

De test stelt zichzelf in variëren van zo kort als acht tekens tot meer dan 20.000 tekens om een verscheidenheid aan taken weer te geven. Ze variëren van eenvoudige verzoeken tot het samenvatten van lange documenten.

Evaluatiesysteem omvat ook mensen

Om betrouwbaar en nauwkeurig scoren te garanderen, maakt Truebch gebruik van een uniek samenwerkingsevaluatiesysteem dat zowel menselijke als AI -beoordeling omvat. Ten eerste stellen menselijke annotators de eerste evaluatiecriteria vast. Vervolgens beoordeelt een AI de criteria om te controleren op fouten, tegenstrijdigheden of onnodige beperkingen. Menselijke annotators verfijnen vervolgens de criteria op basis van de feedback van de AI, waardoor dit proces wordt herhaald om een steeds nauwkeuriger evaluatienorm te creëren. Dit cross-geverifieerde systeem is bedoeld om subjectieve vooringenomenheid te minimaliseren. Tot voorbij deze test moet een AI -model voldoen aan alle vereiste voorwaarden, die meer gedetailleerde en nauwkeurige scoren mogelijk maken tussen taken.

Samsung heeft de gegevensmonsters en leaderboards van Truebench beschikbaar gemaakt op het open-source platform knuffelende gezicht. Met het platform kunnen ontwikkelaars en onderzoekers de prestaties en efficiëntie van maximaal vijf verschillende AI -modellen tegelijkertijd vergelijken. Het bedrijf zal ook de gegevens publiceren over de gemiddelde lengte van de antwoorden van een model. Dit zal een vergelijking van zowel prestaties als efficiëntie opleveren.

Volgens Samsung is het doel van Trubench het vaststellen van nieuwe evaluatienormen voor productiviteit en het versterken van de technologische positie van het bedrijf. Kortom, het belooft realistische en betrouwbare AI -statistieken.

Samsung’s nieuwe Truebench AI-benchmarktests testen real-world taken

Trubench: Samsung’s AI-benchmark voor real-world AI-prestaties

Evaluatiesysteem omvat ook mensen