Abzug der #K10plus Inhaltserschließung im PICA+ Rohformat (September 2022): https://doi.org/10.5281/zenodo.7321969 (~68 Mio. Datensätze)
Die Teilmenge der bereinigten Sacherschließung gibt's schon unter https://doi.org/10.5281/zenodo.7307966 (~24 Mio. Datensätze)
Die Daten des #K10plus eignen sich auch für #DigitalHumanities Fragestellungen. Beispiel: aus welche Sprachen werden Publikationen am häufigsten ins Deutsche übersetzt?
cat *.dat | pica filter "010@{a=='ger'}" | pica select "010@.c" | sort | uniq -c | sort -n
@lpag by far the largest number is manual. Automatically assigned codes are tagged with subfield code $k/$v plus some subjects inferred by mappings (tagged with "coli-conc" $A) but the fraction is low. You better go with the normalized set https://doi.org/10.5281/zenodo.7016625 anyway
@nichtich Wonderful! Will have a closer look.