Probability Distribution Modelling of Scanner Prices and Relative Prices Using Theoretical Distributions with Two, Three, Four, and Five Parameters
Abstract
This article addresses the problem of proper adjustment of the theoretical probability distribution to the empirical distribution of scanner prices. In the empirical study, we use scanner data from one retail chain in Poland, i.e., monthly data on natural yogurt, yogurt drinks, long grain rice and coffee powder sold in 212 outlets in January and February 2022. Prices and relative prices are modelled using fifty two‑, three‑, four‑, and five‑parameter probability distributions with non‑negative support. Some of them consist of somewhat known distributions which are called their special cases. The study indirectly involves over a hundred of these distributions. Information criteria such as AIC, BIC, HQIC and p‑values of goodness‑of‑fit tests are used for comparative analysis. This article shows that models such as Frechet, Pareto IV and Log‑Logistic could be distinguished as very accurate, which provides a good background for simulation research on price indices or for the construction of the so‑called population price indices. The Appendix presents the cumulative distribution function formulas of the models used and the necessary R codes for conducting the research. W artykule podjęto problematykę odpowiedniego dopasowania teoretycznego rozkładu prawdopodobieństwa do empirycznego rozkładu cen skanerów. W badaniu empirycznym wykorzystano dane skanerowe z jednej sieci handlowej w Polsce, tj. miesięczne dane dotyczące jogurtów naturalnych, napojów jogurtowych, ryżu długoziarnistego i kawy w proszku, sprzedanych w 212 placówkach w styczniu i lutym 2022 roku. Ceny i ceny względne modelowano za pomocą pięćdziesięciu dwu‑, trzy‑, cztero‑ i pięcioparametrowych rozkładów prawdopodobieństwa z nieujemną dziedziną. Niektóre z nich składały się z dość znanych rozkładów, które nazywane są ich specjalnymi przypadkami. Łączna liczba tych rozkładów, które pośrednio wzięły udział w badaniu, to ponad sto. Do analizy porównawczej wykorzystywano kryteria informacyjne, takie jak AIC, BIC, HQIC i wartości p testów dobroci dopasowania. W artykule wykazano, że modele takie jak Frechet, Pareto IV i Log‑Logistic można uznać za bardzo dokładne, co stanowi dobrą podstawę do badań symulacyjnych wskaźników cen czy też konstrukcji tzw. wskaźników cen ludności. Wzory na dystrybuantę wykorzystanych modeli oraz kody R niezbędne do przeprowadzenia badań przedstawiono w załączniku.
Collections