Projekti
Iesaisties
Blogs
Par mums
Kontakti
← ATPAKAĻ

Datu analīze ar Claude.ai Analysis tool

2024-11-11

Autors: Aivis Brutāns, datu zinātnieks, Datu skolas aktīvists

Šī gada 24.oktobrī uzņēmums Anthropic papildināja Claude.ai tērzēšanas rīku ar datu analīzes funkciju Analysis tool, kas dod lietotājam augšuplādēt datu failus un veikt šo datu analīzi. Uzņēmums tādā veidā vēlas neatpalik no tirgū labu laiku pieejamās ChatGPT datu analīzes funkcijas. Šajā rakstā aplūkošu, cik labi šis rīks spēj analizēt Cēsu novada iedzīvotāju 2021.gada aptaujas rezultātus — datu kopa, kuru nupat izmantoju ChatGPT Canvas testēšanā.

Lai varētu izmantot šo funkcionalitāti, vispirms veic sekojošas darbības:

Enable artifacts — sadaļā Settings -> Profile (https://claude.ai/settings/profile)
“Analysis tool” aktivizēšana “Feature Preview” logā

Tālāk čatam pievieno failu un uzvednē norādi, lai veic šo datu analīzi. Taču ir jāņem vērā sekojošais:

Ar konteksta logu saprot maksimālo tokenu skaitu, ko valodu modelis spēj apstrādāt. Tokens ir vārds vai vārda daļa. Šeit ir pieejams OpenAI izstrādāts rīks, kurš vizuāli atspoguļo, kā izskatās tokenizēts teksts. Tātad, Anthropic valodu modeļiem ir ierobežots tokenu skaits, kurus tie var apstrādāt, tāpēc lielu datu failu gadījumā lietotājam neizdosies veikt analīzi.

Šeit ir piemērs ar konteksta loga ierobežojumu, kurā izmantoju pārveidotos Cēsu novada aptaujas datus:

Konteksta loga ierobežojumi atkarībā no Claude.ai plāna

Kā redzams, tad ChatGPT Canvas analīzē izmantoto datu failu Claude.ai nevar apstrādāt — bezmaksas piekļuves gadījumā tokenu skaits failā pret tokeniem, ko varu izmantot bez maksas, pārsniedz 9 reizes. Brīdī, kad gribēju veikt bezmaksas analīzi, nebija pieejams arī jaunākais Claude modelis:

Paziņojums, ka Claude.ai tērzēšanā izmanto citu modeli.

Arī maksas plāna gadījumā tokenu skaits ir pārāk liels — tas pārsniedz 1/3 no pieļaujamā apjoma. Tāpēc šim nolūkam izmantoju saīsināto pētījumu datus, atmetot nost kolonnas, lai iekļautos konteksta loga ietvaros. Jāņem vērā, ka konteksta logu ietekmē ne tikai pats fails, bet arī uzvednes garums — jo garāks tas ir, jo vairāk tokenu tiek tērēts.

Lai saprastu, vai Analysis tool varēs apstrādāt .csv failu, izveidoju rīku (Token Counter), kurš rēķina cik daudz tokenu liels ir šis fails — ja tas pārsniedz vai ir ļoti tuvs Anthropic modeļu konteksta logam (~200 tūkst. tokenu), tad šo .csv failu Analysis tool apstrādāt nevarēs:

Tokenu skaitītājs .csv failiem — https://huggingface.co/spaces/Aivis/Token_counter

Izveidotais rīks rāda aptuvenu rezultātu, jo ir vēl citi faktori, kas ietekmē kopējo tokenu skaitu: kā .csv fails Claude.ai pusē tiek apstrādāts, uzvednes lielums (t.sk. sistēmas uzvedne, kas rīka lietotājam nav redzama) un pārlieku lielas Claude.ai noslodzes gadījumos tiek ierobežots konteksta loga apjoms — pat ja izvēlētais modelis spēj apstrādāt vairāk tokenus.

Analīzes rezultāts

Ja ir uzrakstīta viena liela uzvedne, kurā norādīts plašs uzdevumu klāsts, kas Claude.ai ir jāatspoguļo, tad var saskārties ar situāciju, ka rīks ir sasniedzis tokenu limitu, ko vienā atbildē tas spēj ģenerēt:

Claude.ai nav pabeidzis datu analīzi, jo sasniedzis tokenu limitu, ko vienā reizē modelis spēj ģenerēt

Tāpēc iztrūkstošo analīzes daļu jāprasa nākamajos soļos.

Tāpat kā ChatGPT datu analīzes rīks, arī Claude.ai Analysis tool spēj veidot grafikus un atspoguļotie skaitļi ir pareizi. Atgādināšu, ka līdzīgā datu analīzes uzdevumā ChatGPT Canvas mēdz skaitļus izdomāt, tāpēc bija jāveic papildu darbības, lai iegūtu pareizu rezultātu. Analysis tool vizualizācijas piemēri:

Trīs aptaujas jautājumu kopsavilkums: apmierinātība ar dzīvi novadā; vai novadā jūtas droši; vai uzticas novada pašvaldībai
TOP prioritātes ar kurām, pēc respondentu domām, ir jāstrādā Cēsu novada pašvaldībai

Lai gan tika prasīts pašvaldības servisus un infrastruktūras aspektus analizēt atsevišķi, nākamajās divās vizualizācijās šīs kategorijas ir saliktas kopā:

Vislabāk novērtētie Cēsu novada pašvaldības infrastruktūras aspekti un pašvaldības pakalpojumi
Vissliktāk novērtētie Cēsu novada pašvaldības infrastruktūras aspekti un pašvaldības pakalpojumi

Analysis tool vizualizācija veidota Javascript programmēšanas valodā. Ja grafikos ir nepieciešams veikt izmaiņas, tad ir jāpārzina šī valoda. Lai rīks ģenerētu grafikus, tas ir jānodefinē uzvednē.

Pati datu analīze ir mazāk interesanta — tas ir rādītāju apkopojums, kurā norādīti vērtējumu vidējie lielumi un % sadalījums. Šāds apkopojums palīdz analīzes rakstīšanā, ko varētu mēģināt uzticēt ChatGPT Canvas.

Otrajā analīzes piegājienā iedevu tikai vienu uzdevumu:

Create a detailed survey analysis of each blocks (“qnum_”, “y_priority_”, “rate_service_”, “rate_availability_”, “y_using_”) considering respondents’ demographics (sex, age_category, education, occupation, residence_change_next_5_yrs and vehicle_to_riga).

Šeit, tāpat kā pirmajā piegājienā, pa punktiem salikti procentu un vidējo vērtējumu atspoguļojums. Interesanti, ka rīks savās atbildēs gandrīz koncentrējās tikai uz vienu demogrāfisko parametru — dzimumu. Taču patīkami pārsteidza analīzes daļa par respondentu pārvietošanās paradumiem. Tajā bija interesants secinājums — no sabiedriskā transporta lietotājiem visbiežāk to izmanto seniori, darba spēka vecuma respondenti vairāk izmanto automašīnu un lielākais velosipēdu izmantošanas īpatsvars ir bērnu un jauniešu vidū:

Ikdienā visbiežāk izmantotie pārvietošanās līdzekļi dalījumā pēc vecuma grupām

Tātad rīks ne tikai apkopoja rādītāju griezumu pēc vecuma grupas, bet arī atrada būtiskās atšķirības starp šīm vecuma grupām.

Kopsavilkums

Ar Analysis tool izveidoto datu analīzi ir iespējams iepazīties šeit.

DATU
SKOLA
Datu skola ir daļa no
SCHOOL OF DATA
Pierādījumā ir spēks!

Datu skola ir te, lai žurnālisti, nevalstisko organizāciju aktīvisti, un citi sabiedrības locekļi iegūst spējas efektīvi strādāt ar datiem.