On-Line Analytical Processing (OLAP). Online analytisk bearbetning (OLAP)


Analytiska tekniker affärsprocesser

Business Intelligence-system – Business Intelligence (BI) kombinerar olika verktyg och teknologier för att analysera och bearbeta företagsomfattande data. Utifrån dessa verktyg skapas BI-system vars syfte är att förbättra kvaliteten på informationen för att fatta ledningsbeslut.

BI inkluderar mjukvaruprodukter i följande klasser:

· System för online analytisk bearbetning (OLAP);

· Medel för datautvinning (DM);

Mjukvaruprodukter av varje klass utför en specifik uppsättning funktioner eller operationer med hjälp av speciell teknologi.

OLAP (On-Line Analytical Processing) - i drift analytisk bearbetningär inte namnet på en specifik produkt, utan på en hel teknik. OLAP-konceptet är baserat på multidimensionell datapresentation.

1993 publicerade grundaren av det relationella tillvägagångssättet för att bygga databaser, Edgar Codd och partners (Edgar Codd, matematiker och IBM Fellow), en artikel, initierad av företaget och med titeln "Delivering OLAP (On-Line Analytical Processing) for Analytic Users ", som formulerade 12 OLAP-teknikkriterier, som senare blev huvudinnehållet i en ny och mycket lovande teknologi.

De omarbetades senare till FASMI-testet, som definierar kraven för OLAP-produkter:

· Snabbt snabbt). En OLAP-applikation bör ge en minsta åtkomsttid till analytisk data - i genomsnitt cirka 5 sekunder;

ANALYS (analys). En OLAP-applikation ska göra det möjligt för användaren att utföra numerisk och statistisk analys;

DELAD (delad åtkomst). En OLAP-applikation ska ge möjlighet att arbeta med information för många användare samtidigt;

MULTIDIMENSIONELL (flerdimensionalitet);

INFORMATION En OLAP-applikation ska ge användaren möjlighet att få nödvändig information, oavsett vilket elektroniskt datalager det är.

Baserat på FASMI kan följande definition ges: OLAP-applikationer - Dessa är system för snabb åtkomst av flera användare till multidimensionell analytisk information med kapaciteten för numerisk och statistisk analys.

Grundidén bakom OLAP är att bygga flerdimensionella kuber som kommer att vara tillgängliga för anpassade frågor. Flerdimensionella kuber (Figur 5.3) är byggda från rå och aggregerad data som kan lagras i både relationella och flerdimensionella databaser. Därför används för närvarande tre sätt att lagra data: MOLAP (Multidimensional OLAP), ROLAP (Relationell OLAP) och HOLAP (Hybrid OLAP).



Följaktligen är OLAP-produkter indelade i tre liknande kategorier när det gäller datalagringsmetod:

1. När det gäller MOLAP lagras original- och flerdimensionell data i en flerdimensionell databas eller i en flerdimensionell lokal kub. Denna lagringsmetod ger en hög hastighet för exekvering av OLAP-operationer. Men den flerdimensionella basen i detta fall kommer oftast att vara överflödig. Kuben som är byggd på dess bas beror starkt på antalet dimensioner. När antalet dimensioner ökar kommer volymen på kuben att växa exponentiellt. Ibland kan detta leda till "explosiv tillväxt" i mängden data.

2. I ROLAP-produkter lagras källdata i relationsdatabaser eller platta lokala tabeller på en filserver. Aggregat data kan placeras i tjänstetabeller i samma databas. Konvertering av data från en relationsdatabas till flerdimensionella kuber sker på begäran av OLAP-verktyget. I det här fallet kommer hastigheten för att bygga en kub till stor del att bero på typen av datakälla.

3. Vid användning av en hybridarkitektur finns originaldata kvar relationsbas och aggregaten placeras i flerdimensionella. Att bygga en OLAP-kub utförs på begäran av ett OLAP-verktyg baserat på relations- och flerdimensionell data. Detta tillvägagångssätt undviker explosiv datatillväxt. Samtidigt är det möjligt att uppnå den optimala exekveringstiden för klientförfrågningar.

Med hjälp av OLAP-teknologier kan användaren utföra flexibel visning av information, erhålla olika datasegment, utföra analytiska operationer för detaljering, faltning, end-to-end-distribution, jämförelse över tid, d.v.s. sammanställa och dynamiskt publicera rapporter och dokument.

3.4 Metoder för analytisk databehandling

För att de befintliga datalagren ska underlätta antagandet av ledningsbeslut måste informationen presenteras för analytikern i den form som krävs, det vill säga han måste ha utvecklat verktyg för att komma åt och bearbeta data i lagret.

Mycket ofta är informations- och analyssystem skapade med förväntan om direkt användning av beslutsfattare extremt lätta att använda, men kraftigt begränsade i funktionalitet. Sådana statiska system kallas Executive Information Systems (EIS). De innehåller många frågor och är tillräckliga för daglig granskning, och kan inte svara på alla frågor som kan dyka upp när man fattar beslut. Resultatet av arbetet med ett sådant system är som regel flersidiga rapporter, efter noggrann studie, som analytikern har ny serie frågor. Dock var och en ny förfrågan som inte förutsågs i designen av ett sådant system måste först formellt beskrivas, kodas av programmeraren och först därefter exekveras. Väntetiden kan i detta fall vara timmar och dagar, vilket inte alltid är acceptabelt.

Online analytisk bearbetning... Eller On-Line Analytical Processing, OLAP är en nyckelkomponent i datalagringsorganisation. OLAP-konceptet beskrevs 1993 av Edgar Codd och har följande krav för multivariat analysapplikationer:

- Flerdimensionell konceptuell representation av data, inklusive fullt stöd för hierarkier och flera hierarkier (ett nyckelkrav för OLAP).

- förse användaren med analysresultaten inom rimlig tid (vanligtvis inte mer än 5 s), även till priset av en mindre detaljerad analys;

- Möjligheten att utföra alla logiska och statistiska analyser, typiska för denna applikation, och spara den i en form som är tillgänglig för slutanvändaren;

- Fleranvändaråtkomst till data med stöd av lämpliga låsmekanismer och auktoriserade åtkomstmedel.

- möjligheten att kontakta någon den information du behöver oavsett dess volym och lagringsplats.

Ett OLAP-system består av många komponenter. Faktiskt hög nivå Presentationssystemet inkluderar en datakälla, en multidimensionell databas (MDB), som ger möjlighet att implementera en rapporteringsmekanism baserad på OLAP-teknik, en OLAP-server och en klient. Systemet är byggt på klient-server-principen och ger fjärråtkomst och åtkomst för flera användare till MDB-servern.

Tänk på komponenterna i ett OLAP-system.

Källor. Källan i OLAP-system är servern som tillhandahåller data för analys. Beroende på omfattningen av användningen av OLAP-produkten kan källan vara ett datalager, en ärvd databas som innehåller allmänna data, en uppsättning

tabeller som kombinerar finansiella data, eller någon kombination av ovanstående.

Datalagring. Rådata samlas in och lagras i ett förråd utformat i enlighet med principerna för att bygga datalager. HD är en relationsdatabas (RDB). CD-huvudtabellen (faktatabell) innehåller numeriska värden indikatorer för vilka statistisk information samlas in.

Flerdimensionell databas Datalagret fungerar som en leverantör av information för en flerdimensionell databas, som är en samling objekt. Huvudklasserna för dessa objekt är dimensioner och mått. Dimensioner inkluderar uppsättningar värden (parametrar) med vilka data indexeras, till exempel tid, regioner, typ av institution, etc. Varje dimension är fylld med värden från motsvarande dimensionstabeller i datalagret. Uppsättningen av mätningar definierar utrymmet för den undersökta processen. Mått är flerdimensionella datakuber (hyperkuber). Hyperkuben innehåller själva data, såväl som de sammanlagda beloppen för dimensionerna som ingår i indikatorn. Indikatorer utgör huvudinnehållet i MDB och fylls i enligt faktatabellen. Längs varje axel i hyperkuben kan data organiseras i en hierarki som representerar olika detaljnivåer. Detta gör att du kan skapa hierarkiska dimensioner, som kommer att användas för att aggregera eller gå ner i datapresentationen under efterföljande dataanalys. Ett typiskt exempel på en hierarkisk dimension är en lista över territoriella objekt grupperade efter distrikt, regioner, distrikt.

Server. OLAP-servern är den tillämpade delen av OLAP-systemet. Denna komponent gör allt arbete (beroende på systemmodell), och lagrar i sig all information till vilken aktiv åtkomst ges. Serverarkitektur styrs av olika koncept. I synnerhet är den huvudsakliga funktionella egenskapen hos OLAP-produkter användningen av MDB eller RDB för datalagring.

Klientapplikation .Data strukturerad på ett korrekt sätt och lagrad i MDB är tillgänglig för analys med hjälp av klientapplikationen. Användaren får möjligheten Fjärranslutning till data, formulera komplexa frågor, generera rapporter, erhålla godtyckliga delmängder av data. Att få en rapport reduceras till valet av specifika mätvärden och konstruktionen av en sektion av hyperkuben. Tvärsnittet bestäms av de valda mätvärdena. Data för resten av dimensionerna är sammanfattade.

OLAPpå klienten och på servern. Flerdimensionell dataanalys kan utföras med hjälp av olika verktyg, som villkorligt kan delas in i klient- och server-OLAP-verktyg.

OLAP-klientverktyg (till exempel pivottabeller i Excel 2000 från Microsoft eller ProClarity från Knosys) är applikationer som beräknar och visar aggregerade data. I det här fallet finns själva aggregerade data i cachen i adressutrymmet för ett sådant OLAP-verktyg.

Om källdata finns i skrivbordets DBMS, utförs beräkningen av aggregerad data av själva OLAP-verktyget. Om källan till originaldata är en server-DBMS, skickar många av klientens OLAP-verktyg SQL-frågor till servern och som ett resultat tar de emot aggregerade data som beräknats på servern.

Vanligtvis är OLAP-funktionalitet implementerad i verktyg för statistisk databehandling och i vissa kalkylblad.

Många utvecklingsverktyg innehåller bibliotek med klasser eller komponenter som låter dig skapa applikationer som implementerar den enklaste OLAP-funktionaliteten (som Decision Cube-komponenterna i Borland Delphi och Borland C ++ Builder). Dessutom erbjuder många företag ActiveX-kontroller och andra bibliotek som tillhandahåller liknande funktionalitet.

Klient-OLAP-verktyg används som regel med ett litet antal dimensioner (vanligtvis inte mer än sex) och en liten mängd värden för dessa parametrar - eftersom den erhållna aggregerade informationen måste passa in i adressutrymmet för ett sådant verktyg , och deras antal växer exponentiellt med en ökning av antalet dimensioner.

Många OLAP-klientverktyg låter dig spara innehållet i cachen med aggregerade data som en fil för att inte räkna om dem. Denna möjlighet används dock ofta för att alienera aggregerade data i syfte att överföra dem till andra organisationer eller för publicering.

Idén med att lagra en cache med aggregerad data i en fil fick sin ytterligare utveckling i serverns OLAP-verktyg (till exempel Oracle Express Server eller Microsoft OLAP Services), där lagring och ändring av aggregerade data, såväl som stöd för lagringen som innehåller dem, utförs en separat ansökan eller en process som kallas OLAP Server. Klientapplikationer kan begära en sådan flerdimensionell lagring och ta emot viss data som svar. Vissa klientapplikationer kan också skapa sådana arkiv eller uppdatera dem enligt de ändrade källdata.

Fördelarna med att använda serverbaserade OLAP-verktyg jämfört med klient-OLAP-verktyg liknar fördelarna med att använda server-side DBMS jämfört med skrivbordsverktyg: vid användning av serverbaserade verktyg, sker beräkningen och lagringen av aggregerad data på server, och klientapplikationen tar endast emot resultaten av förfrågningar till dem, vilket i allmänhet gör det möjligt att minska nätverkstrafiken, exekveringstiden för frågor och resurskraven för klientapplikationen.

3.5 Tekniska aspekter av flerdimensionell datalagring

Flerdimensionalitet i OLAP-applikationer kan delas in i tre nivåer:

1... Flerdimensionell datarepresentation- Slutanvändarverktyg som tillhandahåller multidimensionell visualisering och datamanipulation; MDI-lagret abstraherar från den fysiska datastrukturen och behandlar data som flerdimensionell.

    Flerdimensionell bearbetning- ett sätt (språk) för att formulera flerdimensionella frågor (traditionell relationell SQL-språk visar sig vara oanvändbar här) och en processor som kan bearbeta och utföra en sådan begäran.

    Flerdimensionell lagring- medel för fysisk organisering av data, som säkerställer effektiv utförande av flerdimensionella frågor.

De två första nivåerna är obligatoriska i alla OLAP-verktyg. Den tredje nivån, även om den är utbredd, krävs inte, eftersom data för den flerdimensionella vyn också kan hämtas från vanliga relationsstrukturer. Den flerdimensionella frågeprocessorn, i det här fallet, översätter de flerdimensionella frågorna till SQL-frågor som exekveras av den relationella DBMS.

I vilket datalager som helst - både konventionellt och multidimensionellt - tillsammans med detaljerad data som hämtas från operativa system, lagras också aggregerade indikatorer (totalindikatorer), såsom summor av försäljningsvolymer per månad, per produktkategori etc. Aggregat lagras explicit för det enda syftet att påskynda förfrågningar. Å ena sidan, som regel, ackumuleras en mycket stor mängd data i lagret, och å andra sidan är analytiker i de flesta fall inte intresserade av detaljerade, utan av generaliserade indikatorer. Och om miljontals individuella försäljningar måste summeras varje gång för att beräkna årsomsättningen skulle hastigheten med största sannolikhet vara oacceptabel. Därför, när data laddas in i en flerdimensionell databas, beräknas och sparas alla sammanfattningsindikatorer eller delar av dem.

Användningen av aggregerad data är dock behäftad med nackdelar. De största nackdelarna är ökningen av mängden lagrad information (när nya dimensioner läggs till växer mängden data som utgör kuben exponentiellt) och tiden det tar att ladda dem. Dessutom kan mängden information öka tiotals och till och med hundratals gånger. Till exempel, i ett av de publicerade standardtesterna, krävde ett fullständigt samlat antal för 10 MB rådata 2,4 GB, det vill säga att data växte 240 gånger!

I vilken grad datavolymen ökar vid beräkning av aggregat beror på antalet dimensioner i kuben och strukturen av dessa dimensioner, det vill säga förhållandet mellan antalet "föräldrar" och "ättlingar" på olika nivåer av dimensionen. För att lösa problemet med att lagra aggregat används komplexa scheman som gör det möjligt att, vid beräkning långt ifrån alla möjliga aggregat, uppnå en betydande ökning av frågeprestanda.

Både initial och aggregerad data kan lagras antingen i

relationella eller i flerdimensionella strukturer. I detta avseende används för närvarande tre sätt att lagra flerdimensionell data:

MOLAP (Multidimensional OLAP) - Källdata och aggregerade data lagras i en flerdimensionell databas. Genom att lagra data i flerdimensionella strukturer kan du manipulera data som en flerdimensionell array, så att hastigheten för beräkning av aggregerade värden är densamma för alla dimensioner. Men i det här fallet visar sig den flerdimensionella databasen vara redundant, eftersom den flerdimensionella datan helt innehåller den ursprungliga relationsdatan.

Dessa system tillhandahåller en fullständig cykel av OLAP-bearbetning. De inkluderar antingen, förutom serverkomponenten, sitt eget integrerade klientgränssnitt eller använder externa kalkylprogram för att kommunicera med användaren.

ROLAP (Relationell OLAP) - originaldata finns kvar i samma relationsdatabas där den ursprungligen fanns. Aggregat data placeras i servicetabeller speciellt skapade för deras lagring i samma databas.

HOLAP (Hybrid OLAP) - originaldatan finns kvar i samma relationsdatabas där den ursprungligen fanns, och den aggregerade datan lagras i den flerdimensionella databasen.

Vissa OLAP-verktyg stöder lagring av data endast i relationsstrukturer, vissa endast i flerdimensionella strukturer. De flesta moderna OLAP-serverbaserade verktyg stöder dock alla tre metoderna för att lagra data. Valet av lagringsmetod beror på storleken och strukturen på källdata, kraven på hastigheten för exekvering av frågor och frekvensen för uppdatering av OLAP-kuberna.

3.6 Datautvinning (DataBrytning)

Termen Data Mining betecknar processen att hitta korrelationer, trender och samband genom olika matematiska och statistiska algoritmer: klustring, regression och korrelationsanalys, etc. för beslutsstödssystem. I detta fall generaliseras den ackumulerade informationen automatiskt till information som kan karakteriseras som kunskap.

Den moderna Data Mining-tekniken är baserad på konceptet med mallar som återspeglar mönstren som är inneboende i dataunderprov och utgör den så kallade dolda kunskapen.

Sökandet efter mönster utförs med metoder som inte använder några a priori antaganden om dessa delprover. En viktig egenskap hos Data Mining är att de sökta mönstren inte är standard och inte är självklara. Med andra ord skiljer sig Data Mining-verktyg från statistiska databearbetningsverktyg och OLAP-verktyg genom att istället för att kontrollera relationerna som antas av användare i förväg

mellan data, baserat på tillgängliga data, kan de självständigt hitta sådana samband, samt bygga hypoteser om deras natur.

Generellt sett består datautvinningsprocessen av tre steg

    identifiera mönster (fri sökning);

    använda de avslöjade mönstren för att förutsäga okända värden (prediktiv modellering);

    analys av undantag, utformad för att identifiera och tolka anomalier i de hittade mönstren.

Ibland urskiljs ett mellanstadium för att kontrollera tillförlitligheten hos de hittade mönstren mellan upptäckt och användning (stadiet för validering).

Tilldela fem standardtyper mönster som avslöjas av Data Mining-metoder:

1.Förening låter dig välja stabila grupper av objekt mellan vilka det finns implicit specificerade länkar. Frekvensen av förekomst av ett enskilt föremål eller grupp av föremål, uttryckt i procent, kallas prevalens. En låg prevalensfrekvens (mindre än en tusendels procent) tyder på att ett sådant samband inte är signifikant. Föreningar skrivs i form av regler: A=> B, var A - paket, V - Följd. För att bestämma vikten av varje erhållen associationsregel är det nödvändigt att beräkna ett värde som kallas konfidens A Till V(eller förhållande A och B). Självförtroende visar hur ofta när A visas V. Till exempel om d (A/B)= 20% betyder detta att när du köper en produkt A i vart femte fall köps även varorna V.

Ett typiskt exempel på användningen av föreningen är analysen av inköpens struktur. När man till exempel gör en studie i en stormarknad kan man konstatera att 65 % av de som köpt potatischips också tar Coca-Cola, och om det finns rabatt på ett sådant set köps Cola i 85 % av fallen. Dessa resultat är värdefulla för att utforma marknadsföringsstrategier.

2. Sekvens - det är en metod för att identifiera associationer i tid. I det här fallet definieras regler som beskriver den sekventiella förekomsten av vissa grupper av händelser. Sådana regler är viktiga för att bygga skript. Dessutom kan de till exempel användas för att bilda en typisk uppsättning tidigare försäljningar som kan innebära efterföljande försäljning av en viss produkt.

3.Klassificering - generaliseringsverktyg. Det låter dig gå från att betrakta enskilda objekt till generaliserade begrepp som kännetecknar vissa uppsättningar av objekt och är tillräckliga för att känna igen objekt som tillhör dessa uppsättningar (klasser). Kärnan i konceptbildningsprocessen är att hitta mönster som är inneboende i klasser. Många olika egenskaper (attribut) används för att beskriva objekt. Problemet med begreppsbildning utifrån funktionsbeskrivningar formulerades av M.M. Bongart. Dess lösning är baserad på tillämpningen av två grundläggande procedurer: utbildning och testning. I träningsprocedurerna konstrueras en klassificeringsregel baserad på bearbetningen av en träningsuppsättning av objekt. Verifierings(undersöknings)proceduren består i att använda den erhållna klassificeringsregeln för att känna igen objekt från ett nytt (undersöknings)prov. Om testresultaten visar sig vara tillfredsställande, avslutas inlärningsprocessen, annars förfinas klassificeringsregeln under ominlärningsprocessen.

4 klustring Är distribution av information (poster) från databasen i grupper (kluster) eller segment med samtidig bestämning av dessa grupper. Till skillnad från klassificering krävs här, för analysen, ingen preliminär tilldelning av klasser.

5 tidsserieprognos är ett verktyg för att bestämma trender för förändringar i attributen för de föremål som övervägs över tid. Analys av beteendet hos tidsserier gör det möjligt att förutsäga värdena för de studerade egenskaperna.

För att lösa sådana problem används olika Data Mining-metoder och algoritmer. På grund av att Data Mining har utvecklats och utvecklas i skärningspunkten mellan discipliner som statistik, informationsteori, maskininlärning, databasteori är det ganska naturligt att de flesta av Data Mining algoritmer och metoder utvecklades utifrån olika metoder av dessa discipliner.

Från de olika befintliga datautvinningsmetoderna kan följande särskiljas:

    regressions-, varians- och korrelationsanalys(implementerat i de flesta moderna statistikpaket, i synnerhet i produkter från företagen SAS Institute, StatSoft, etc.);

    analysmetoder i ett specifikt ämnesområde baserade på empiriska modeller (används ofta till exempel i billiga finansiella analysverktyg);

    neurala nätverksalgoritmer- en metod för att simulera processer och fenomen som möjliggör reproducering av komplexa beroenden. Metoden bygger på användningen av en förenklad modell biologisk hjärna och består i det faktum att de initiala parametrarna betraktas som signaler som transformeras i enlighet med de befintliga kopplingarna mellan "neuronerna", och hela nätverkets respons på initialdata betraktas som ett svar som härrör från analysen. I det här fallet skapas förbindelser med hjälp av den så kallade nätverksträningen med hjälp av ett stort urval som innehåller både initialdata och rätt svar. Neurala nätverk används i stor utsträckning för att lösa klassificeringsproblem;

    rolig logik används för att bearbeta data med luddiga sanningsvärden som kan representeras av en mängd olika språkliga variabler. Fuzzy kunskapsrepresentation används i stor utsträckning för att lösa klassificerings- och prognosproblem, till exempel i XpertRule Miner-systemet (Attar Software Ltd., Storbritannien), såväl som i AIS, NeuFuz, etc.

    induktiva ledningar låter dig få generaliseringar av fakta som lagras i databasen. I processen med induktivt lärande kan en specialist som tillhandahåller hypoteser vara involverad. Detta kallas övervakat lärande. Sökandet efter generaliseringsregler kan utföras utan lärare genom att automatiskt generera hypoteser. I modern mjukvaruverktyg vanligtvis kombineras båda metoderna, och statistiska metoder används för att testa hypoteser. Ett exempel på ett system som använder induktiva ledningar är XpertRule Miner utvecklad av Attar Software Ltd. (Storbritannien);

    resonemang utifrån liknande fall("Nearest neighbor"-metoden) (Case-based resonemang - CBR) baseras på att söka i en databas efter situationer vars beskrivningar i ett antal funktioner liknar en given situation. Analogiprincipen tillåter oss att anta att resultaten av liknande situationer också kommer att ligga nära varandra. Nackdelen med detta tillvägagångssätt är att det inte skapar några modeller eller regler som generaliserar tidigare erfarenheter. Dessutom beror tillförlitligheten hos de utmatade resultaten på fullständigheten i beskrivningen av situationer, som i processerna för induktiv slutledning. Exempel på system som använder CBR är: KATE Tools (Acknosoft, Frankrike), Pattern Recognition Workbench (Unica, USA);

    beslutsträd- en metod för att strukturera en uppgift i form av en trädgraf, vars hörn motsvarar produktionsregler som tillåter klassificering av data eller analys av konsekvenser av beslut. Denna metod ger en visuell representation av systemet för klassificering av regler, om det inte finns särskilt många av dem. Enkla uppgifter löses med denna metod mycket snabbare än att använda neurala nätverk... För komplexa problem och för vissa datatyper kanske beslutsträd inte är lämpliga. Dessutom har denna metod ett problem av betydelse. En av konsekvenserna av hierarkisk dataklustring är frånvaron av ett stort antal träningsexempel för många specialfall, och därför kan klassificeringen inte anses tillförlitlig. Beslutsträdsmetoder är implementerade i många mjukvaruverktyg, nämligen: С5.0 (RuleQuest, Australien), Clementine (Integral Solutions, Storbritannien), SIPINA (University of Lyon, Frankrike), IDIS (Information Discovery, USA);

    evolutionär programmering- sökning och generering av en algoritm som uttrycker det ömsesidiga beroendet av data, baserat på den initialt specificerade algoritmen, modifierad i sökprocessen; ibland utförs sökningen efter ömsesidiga beroenden bland alla specifika typer av funktioner (till exempel polynom);

begränsade sökalgoritmer som beräknar kombinationer av enkla logiska händelser i undergrupper av data.

3.7 IntegrationOLAPochDataBrytning

Online analytisk bearbetning (OLAP) och datautvinning är två delar av beslutsstödsprocessen. Men idag fokuserar de flesta OLAP-system endast på att ge tillgång till flerdimensionell data, och de flesta Data Mining-verktyg som arbetar inom mönsterområdet hanterar endimensionella dataperspektiv. För att effektivisera databehandlingen för beslutsstödssystem bör dessa två typer av analyser kombineras.

För närvarande finns det en sammansatt term "OLAP Data Mining" (multidimensional mining) för att beteckna en sådan kombination.

Det finns tre huvudsakliga sätt att bilda "OLAP Data Mining":

    "Cubing sedan gruvdrift". Förmågan att utföra gruvanalys bör tillhandahållas på alla resultat av en fråga till en flerdimensionell konceptuell representation, det vill säga på vilket fragment som helst av en projektion av en hyperkub av indikatorer.

    Gruvdrift sedan kubning. Liksom data som extraherats från ett förvar måste gruvresultat presenteras i hyperkubisk form för efterföljande multivariat analys.

    "Cubing under gruvdrift". Denna flexibla metod för integration låter dig automatiskt aktivera samma typ av intelligenta bearbetningsmekanismer över resultatet av varje steg av multivariat analys (övergång) mellan generaliseringsnivåerna, extraktion av ett nytt fragment av hyperkuben, etc.).

    Årskurs 11 [Text ... dem hur del hela system ... assisterande professor ... Cheboksary, 2009. Nr 10. S. 44 -49.... Författare- kompilatorer:N.... synopserföredrag, ...

  • Studiehandledningen

    ... föredrag... Förberedelse föredrag matematik. Skrift synopsisföredrag föredrag... Användande informationtekniker ...

  • Jag k kondaurova med v lebedeva

    Studiehandledningen

    ... föredrag... Förberedelse föredrag matematik. Skrift synopsisföredrag... Förberedelse av visuella hjälpmedel. Lästeknik föredrag... Användande informationtekniker ...

  • M MEDIEÖVERVAKNING Modernisering av yrkesutbildningen mars - augusti 2011

    Sammanfattning

    ... 11 .08.2011 "Dead Souls-2" i RNIMU dem ... 3,11 -3,44 ... ... offentlig föredrag ledare... Cheboksary... och klottrar synopser publik - ... informationsystem och tekniker. ... systemet utbildning, säger assisterande professor ... kompilatorer ... delar av förstärker verkliga innehåll ...

4. Klassificering av OLAP-produkter.

5. Principer för OLAP-klienters arbete.

7. Tillämpningsområden för OLAP-teknologier.

8. Ett exempel på användning av OLAP-teknologier för analys inom försäljningsområdet.

1. OLAP:s plats i företagets informationsstruktur.

Termen "OLAP" är oupplösligt kopplad till termen "datalager".

Data i lagret kommer från operativa system (OLTP-system), som är designade för att automatisera affärsprocesser. Dessutom kan förrådet fyllas på med Externa källor såsom statistiska rapporter.

Syftet med förvaret är att tillhandahålla "råvaran" för analys på ett ställe och i en enkel, begriplig struktur.

Det finns ytterligare ett skäl som motiverar uppkomsten av ett separat arkiv - komplexa analytiska frågor till operativ information saktar ner nuvarande jobb företag som permanent blockerar tabeller och beslagtar serverresurser.

En lagring är inte nödvändigtvis en gigantisk ansamling av data – huvudsaken är att den är bekväm för analys.

Centralisering och bekväm strukturering är inte allt som en analytiker behöver. Han behöver fortfarande ett verktyg för att se och visualisera information. Traditionella rapporter, även byggda på basis av ett enda förvar, saknar en sak - flexibilitet. De kan inte vridas, utökas eller komprimeras för att få önskad bild av data. Jag önskar att han hade ett sådant verktyg som skulle tillåta att expandera och komprimera data enkelt och bekvämt! OLAP fungerar som ett sådant verktyg.

Även om OLAP inte är ett nödvändigt attribut för ett datalager, används det allt oftare för att analysera informationen som samlas i detta lager.

OLAP:s plats i företagets informationsstruktur (Fig. 1).

Bild 1... En platsOLAP i företagets informationsstruktur

Driftsdata samlas in från olika källor, rensas, integreras och lagras i en relationslagring. Dessutom finns de redan tillgängliga för analys med hjälp av olika rapporteringsverktyg. Därefter förbereds data (helt eller delvis) för OLAP-analys. De kan laddas in i en speciell OLAP-databas eller lämnas i en relationslagring. Dess viktigaste element är metadata, det vill säga information om struktur, placering och transformation av data. Tack vare dem säkerställs effektiv kommunikation olika komponenter lagring.

Sammanfattningsvis kan OLAP definieras som en samling multidimensionella dataanalysverktyg som samlats på lagret.

2. Operativ analytisk databehandling.

OLAP-konceptet bygger på principen om flerdimensionell datapresentation. 1993 tog EF Codd upp bristerna i relationsmodellen, främst genom att påpeka omöjligheten att "kombinera, betrakta och analysera data ur ett flerdimensionellt perspektiv, det vill säga på det mest förståeliga sättet för företagsanalytiker", och identifierade generella krav för OLAP-system som utökar funktionaliteten relationell DBMS och inkluderar multivariatanalys som en av dess egenskaper.

Enligt Codd är en multidimensionell konceptuell syn ett multipelperspektiv som består av flera oberoende dimensioner längs vilka specifika uppsättningar av data kan analyseras.

Samtidig analys över flera dimensioner definieras som multivariat analys. Varje dimension inkluderar riktningar för datakonsolidering, bestående av en serie på varandra följande nivåer av aggregering, där varje högre nivå motsvarar en högre grad av dataaggregering för motsvarande dimension.

Således kan entreprenörsdimensionen bestämmas av konsolideringsriktningen, som består av generaliseringsnivåerna "företag - avdelning - avdelning - anställd". Dimensionen Tid kan till och med innehålla två konsolideringsriktningar - år - kvartal - månad - dag och vecka - dag, eftersom tidsräkning efter månad och vecka är inkompatibel. I detta fall blir det möjligt att godtyckligt välja den önskade informationsnivån för var och en av mätningarna.

Nedborrningsoperationen motsvarar förflyttningen från de högre stadierna av konsolidering till de lägre; tvärtom innebär en upprullningsoperation att gå från lägre nivåer till högre nivåer (fig. 2).


Figur 2.Mätningar och riktningar för datakonsolidering

3. Krav på verktyg för on-line analytisk bearbetning.

Den flerdimensionella ansatsen växte fram nästan samtidigt och parallellt med den relationella ansatsen. Dock först sedan mitten av nittiotalet, eller snarare sedan
1993, intresse för MSUBD började få en allmän karaktär. Det var i år som en ny programartikel av en av grundarna av det relationella synsättet dök upp E. Codda, där han formulerade 12 grundläggande krav för genomförandet OLAP(Bord 1).

Bord 1.

Flerdimensionell datarepresentation

Verktygen måste stödja en flerdimensionell konceptuell syn på data.

Genomskinlighet

Användaren behöver inte veta vilken specifika medel används för att lagra och bearbeta data, hur data är organiserad och varifrån den kommer.

Tillgänglighet

Det är upp till verktygen att välja och kommunicera med den bästa datakällan för att svara på en given förfrågan. Medel måste ge automatisk visning sin egen logik in i olika heterogena datakällor.

Konsekvent prestanda

Prestanda bör vara praktiskt taget oberoende av antalet dimensioner i en begäran.

Stöd för klient-serverarkitektur

Verktygen måste fungera i en klient-server-arkitektur.

Lika alla mått

Inget av måtten ska vara grundläggande, de ska alla vara lika (symmetriska).

Dynamisk bearbetning av glesa matriser

Odefinierade värden ska lagras och hanteras på det mest effektiva sättet.

Stöd för fleranvändarläge för att arbeta med data

Verktygen måste ge möjlighet att arbeta för mer än en användare.

Stöd för verksamhetsbaserat olika dimensioner

Alla flerdimensionella operationer (t.ex. aggregation) måste tillämpas enhetligt och konsekvent på valfritt antal av alla dimensioner.

Enkel datamanipulering

Verktygen ska ha det mest bekväma, naturliga och bekväma användargränssnittet.

Avancerade presentationsverktyg

Fonder måste stödja olika sätt visualisering (presentation) av data.

Obegränsat antal dimensioner och nivåer av dataaggregering

Det bör inte finnas någon gräns för antalet dimensioner som stöds.

Regler för utvärdering av mjukvaruprodukter av OLAP-klassen

Uppsättningen av dessa krav, som fungerade som de facto definitionen av OLAP, bör betraktas som en riktlinje, och specifika produkter bör bedömas utifrån graden av närhet till perfekt överensstämmelse med alla krav.

Senare reviderades Codds definition till det så kallade FASMI-testet, som kräver en OLAP-applikation för att ge möjligheten att snabbt analysera delad flerdimensionell information.

Att komma ihåg Codds 12 regler är för betungande för de flesta. Det visade sig att man kan sammanfatta OLAP-definitionen med endast fem nyckelord: Snabb analys av delad multidimensionell information - eller kort sagt - FASMI (översatt från engelska:F ast A nalys av S hared M ytterdimensionell jag information).

Denna definition formulerades första gången i början av 1995 och har inte behövt revideras sedan dess.

SNABB ( Snabbt) - innebär att systemet ska kunna ge de flesta svar till användarna inom cirka fem sekunder. Dessutom mest enkla frågor bearbetas inom en sekund och mycket få - mer än 20 sekunder. Forskning har visat att slutanvändare uppfattar processen som misslyckad om inga resultat erhålls efter 30 sekunder.

Vid första anblicken kan det tyckas förvånande att när man tar emot en rapport på en minut, vilket för inte så länge sedan tog dagar, blir användaren mycket snabbt uttråkad medan han väntar, och projektet visar sig vara mycket mindre framgångsrikt än i fallet med en omedelbar respons, även till priset av mindre detaljerad analys.

ANALYS (Analys)innebär att systemet kan hantera vilken logisk och statistisk analys som helst som är specifik för en given applikation, och säkerställer att den sparas i en form som är tillgänglig för slutanvändaren.

Det är inte så viktigt om denna analys görs i vår egen verktyg en leverantör eller i en relaterad extern mjukvaruprodukt såsom ett kalkylblad, är det bara att all nödvändig analysfunktionalitet måste tillhandahållas på ett intuitivt sätt till slutanvändarna. Analysverktyg kan inkludera specifika procedurer som tidsserieanalys, kostnadsallokering, valutaöverföringar, målsökning, flerdimensionella strukturförändringar, icke-procedurmässig modellering, undantagsdetektering, dataextraktion och andra applikationsberoende operationer. Sådana möjligheter varierar mycket mellan produkter, beroende på målinriktningen.

DELAD innebär att systemet uppfyller alla krav på konfidentialitetsskydd (eventuellt ner till cellnivå) och, om flera skrivåtkomster krävs, tillhandahåller modifieringsblockering på lämplig nivå. Alla applikationer behöver inte skriva tillbaka data. Men antalet sådana applikationer växer, och systemet måste kunna hantera flera modifieringar på ett snabbt och säkert sätt.

MULTIDIMENSIONELL - detta är ett nyckelkrav. Om du var tvungen att definiera OLAP i ett ord, skulle du välja det. Systemet bör ge en multidimensionell konceptuell bild av data, inklusive fullt stöd för hierarkier och flera hierarkier, eftersom detta definitivt är det mest logiska sättet att analysera företag och organisationer. Det finns inget minsta antal dimensioner som ska bearbetas eftersom det också är applikationsberoende, och de flesta OLAP-produkter har tillräckligt med dimensioner för de marknader de riktar sig till.

INFORMATION - det är allt. Nödvändig information bör inhämtas där den behövs. Mycket beror dock på applikationen. Kraften hos olika produkter mäts i termer av hur mycket input de kan bearbeta, men inte hur många gigabyte de kan lagra. Kraften i produkterna är mycket olika - de största OLAP-produkterna kan fungera på åtminstone, tusen gånger mer data än den minsta. Det finns många faktorer att ta hänsyn till i detta avseende, inklusive dataduplicering, RAM krävs, diskutrymmesutnyttjande, prestanda, datalagringsintegration, etc.

FASMI-testet är en rimlig och begriplig definition av de mål som OLAP fokuserar på att uppnå.

4. KlassificeringOLAP-Produkter.

Så, kärnan i OLAP består i det faktum att den initiala informationen för analysen presenteras i form av en flerdimensionell kub, och möjligheten att godtyckligt manipulera den och få de nödvändiga informationssektionerna - rapporter - tillhandahålls. Samtidigt ser slutanvändaren kuben som en flerdimensionell dynamisk tabell som automatiskt sammanfattar data (fakta) i olika sektioner (dimensioner), och möjliggör interaktiv kontroll av beräkningar och rapportformuläret. Genomförandet av dessa operationer säkerställs OLAP -maskin (eller maskin OLAP-beräkningar).

Hittills har många produkter utvecklats i världen som implementerar OLAP -teknologier. För att göra det lättare att navigera bland dem används klassificeringar OLAP -produkter: genom metoden att lagra data för analys och efter plats OLAP -bilar. Låt oss ta en närmare titt på varje kategori OLAP företagsprofil.

Klassificering efter lagringsmetod

Flerdimensionella kuber byggs på basis av källdata och aggregerade data. Både rådata och aggregerad data för kuber kan lagras i både relationella och flerdimensionella databaser. Därför används för närvarande tre sätt att lagra data: MOLAP (Multidimensional OLAP), ROLAP (Relational OLAP) och HOLAP (Hybrid OLAP ). Respektive, OLAP -Produkter är indelade i tre liknande kategorier genom datalagring:

1. När det gäller MOLAP , lagras källdata och aggregerade data i en flerdimensionell databas eller i en flerdimensionell lokal kub.

2. I ROLAP -produkter lagras källdata i relationsdatabaser eller i platta lokala tabeller på en filserver. Aggregat data kan placeras i tjänstetabeller i samma databas. Konvertering av data från en relationsdatabas till flerdimensionella kuber sker på begäran OLAP-verktyg.

3. Vid användning HOLAP arkitektur, originaldata finns kvar i relationsdatabasen och aggregaten finns i den flerdimensionella. Byggnad OLAP -kub utförs på begäran OLAP -Medel baserat på relations- och multidimensionell data.

Platsklassificering OLAP-bilar.

Utifrån detta OLAP -produkter är indelade i OLAP-servrar och OLAP-klienter:

Server OLAP -medel för beräkning och lagring av aggregerade data utförs av en separat process - servern. Klientapplikationen tar bara emot resultaten av frågor mot flerdimensionella kuber som är lagrade på servern. Vissa OLAP -servrar stöder datalagring endast i relationsdatabaser, vissa - endast i flerdimensionella. Många moderna OLAP -servrar stöder alla tre sätten att lagra data:MOLAP, ROLAP och HOLAP.

MOLAP.

MOLAP är Flerdimensionell on-line analytisk bearbetning, det vill säga Multidimensional OLAP.Detta innebär att servern använder en multidimensionell databas (MDB) för att lagra data. Meningen med att använda MDB är uppenbar. Den kan effektivt lagra data som är flerdimensionell till sin natur, vilket ger ett sätt att snabbt betjäna databasfrågor. Data överförs från en datakälla till en flerdimensionell databas och sedan aggregeras databasen. Förberäkningen är det som gör OLAP-frågor snabbare eftersom sammanfattningsdata redan har beräknats. Förfrågningstiden blir en funktion enbart av den tid som krävs för att komma åt en viss databit och utföra en beräkning. Denna metod stödjer konceptet att arbetet utförs en gång och resultatet sedan används om och om igen. Flerdimensionella databaser är en relativt ny teknik. Användningen av MDB har samma nackdelar som de flesta nya teknologier. De är nämligen inte lika stabila som relationsdatabaser (RDB), och de är inte optimerade i samma utsträckning. Övrig svaghet MDB ligger i omöjligheten att använda de flesta flerdimensionella databaser i processen för dataaggregering, så det tar tid för ny information att bli tillgänglig för analys.

ROLAP.

ROLAP är Relationell on-line analytisk bearbetning, det vill säga Relationell OLAP.Termen ROLAP betyder att OLAP-servern är baserad på en relationsdatabas. Källdata läggs in i en relationsdatabas, vanligtvis i ett stjärn- eller snöflingaschema, vilket hjälper till att minska hämtningstiderna. Servern tillhandahåller en flerdimensionell datamodell med optimerade SQL-frågor.

Det finns ett antal anledningar till att välja en relationsdatabas framför en flerdimensionell databas. RDB är en väletablerad teknik med många möjligheter till optimering. Verklig användning resulterade i en mer utarbetad produkt. Dessutom stöder RDB:er större mängder data än MDB:er. De är bara designade för sådana volymer. Huvudargumentet mot RDB:er är komplexiteten i de frågor som krävs för att hämta information från en stor databas med SQL. En oerfaren SQL-programmerare kan lätt belasta värdefulla systemresurser genom att försöka köra någon liknande fråga, som är mycket lättare att köra i MDB.

Aggregerad / Föraggregerad data.

Snabb implementering av frågor är absolut nödvändig för OLAP. Detta är en av grundläggande principer OLAP - Förmågan att intuitivt manipulera data kräver snabb hämtning av information. Generellt gäller att ju fler beräkningar som krävs för att få en bit information, desto långsammare blir responsen. Därför, för att spara lite tid för implementeringen av frågor, utsätts de informationsbitar som vanligtvis nås oftast, men som samtidigt kräver beräkning, för preliminär aggregering. Det vill säga de räknas och lagras sedan i databasen som ny data. Ett exempel på en datatyp som kan beräknas i förväg är sammanfattande data – till exempel försäljningssiffror per månad, kvartal eller år – för vilka de faktiska uppgifterna som anges är dagliga siffror.

Olika leverantörer har olika urvalsmetoder för parametrar som kräver föraggregation och ett antal förberäknade värden. Aggregeringsmetoden påverkar både databasen och exekveringstiden för frågor. Om fler värden beräknas, ökar sannolikheten för att användaren kommer att begära ett redan beräknat värde, och därför blir svarstiden kortare, eftersom det inte finns något behov av att be om det initiala värdet för beräkningen. Men om vi beräknar alla möjliga värden är det inte det den bästa lösningen- i det här fallet ökar databasens storlek avsevärt, vilket gör den ohanterlig, och aggregeringstiden blir för lång. Dessutom, när numeriska värden läggs till i databasen, eller om de ändras, bör denna information återspeglas i förberäknade värden som beror på de nya uppgifterna. Uppdateringen av databasen kan således också ta lång tid vid ett stort antal förberäknade värden. Eftersom databasen vanligtvis är offline under aggregering är det önskvärt att aggregeringstiden inte är för lång.

OLAP -klienten är annorlunda arrangerad. Att bygga en flerdimensionell kub och OLAP -beräkningar utförs i klientdatorns minne.OLAP -klienter är också indelade i ROLAP och MOLAP.Och vissa kan stödja båda typerna av dataåtkomst.

Var och en av dessa tillvägagångssätt har sina egna för- och nackdelar. Tvärtemot vad många tror om fördelarna med serververktyg framför klientverktyg, i ett antal fall användningen av OLAP - klienten för användarna kan vara mer effektiv och lönsam än att använda OLAP-servrar.

Utveckling av analytiska applikationer med hjälp av OLAP-klientverktyg är en snabb process och kräver ingen särskild utbildning för entreprenören. En användare som kan den fysiska implementeringen av databasen kan utveckla en analytisk applikation på egen hand, utan inblandning av en IT-specialist.

När du använder en OLAP-server måste du studera 2 olika system, ibland från olika leverantörer - för att skapa kuber på servern och för att utveckla en klientapplikation.

OLAP-klienten tillhandahåller ett enhetligt visuellt gränssnitt för att beskriva kuber och anpassa deras användargränssnitt.

Så, i vilka fall kan användningen av en OLAP-klient för användare vara mer effektiv och lönsam än att använda en OLAP-server?

· Ekonomisk genomförbarhet av ansökan OLAP -server uppstår när mängden data är mycket stor och outhärdlig för OLAP - klienten, annars är användningen av den senare mer motiverad. I detta fall OLAP -Kunden kombinerar höga prestandaegenskaper med låg kostnad.

· Kraftfulla analytikerdatorer är ett annat bra skäl OLAP -klienter. Vid ansökan OLAP -server, dessa kapaciteter används inte.

Bland fördelarna med OLAP-klienter är följande:

· Implementerings- och underhållskostnader OLAP - kunden är betydligt lägre än kostnaden för OLAP-server.

· Använder sig av OLAP - för en klient med inbyggd maskin görs dataöverföring över nätverket en gång. Medan du gör OLAP -operationer av nya dataströmmar skapas inte.

5. Arbetsprinciper OLAP-klienter.

Låt oss titta på processen att skapa en OLAP-applikation med hjälp av klientverktyget (Figur 1).

Bild 1.Bygg en OLAP-applikation med ROLAP Client Tool

Funktionsprincipen för ROLAP-klienter är en preliminär beskrivning av det semantiska skiktet bakom vilket den fysiska strukturen för den initiala datan döljs. I det här fallet kan datakällor vara: lokala tabeller, RDBMS. Listan över datakällor som stöds är produktspecifik. Därefter kan användaren självständigt manipulera objekt som han förstår vad gäller ämnesområdet för att skapa kuber och analytiska gränssnitt.

OLAP-serverklienten fungerar annorlunda. I OLAP-servern, när användaren skapar kuber, manipulerar användaren de fysiska beskrivningarna av databasen. Detta skapar anpassade beskrivningar i själva kuben. OLAP-serverklienten är endast konfigurerad för kub.

När du skapar ett semantiskt lager beskrivs datakällorna - Försäljnings- och Deal-tabellerna - i termer som är begripliga för slutanvändaren och blir till "Produkter" och "Deals". Fältet "ID" från tabellen "Produkter" byter namn till "Kod" och "Namn" till "Produkt" och så vidare.

Därefter skapas affärsobjektet Försäljning. Ett affärsobjekt är ett platt bord från vilket en flerdimensionell kub bildas. När du skapar ett affärsobjekt kombineras tabellerna "Produkter" och "Deals" av fältet "Kod" för produkten. Eftersom alla tabellfält inte behöver visas i rapporten använder affärsobjektet endast fälten "Artikel", "Datum" och "Belopp".

I vårt exempel, baserat på affärsobjektet Försäljning, har vi skapat en rapport om försäljning av varor per månad.

När man arbetar med en interaktiv rapport kan användaren ställa in filtrerings- och grupperingsvillkor med samma enkla musrörelser. Vid denna tidpunkt kommer ROLAP-klienten åt data i cachen. Å andra sidan genererar OLAP-serverklienten en ny fråga mot den flerdimensionella databasen. Genom att till exempel använda ett filter efter varor i försäljningsrapporten kan du få en rapport om försäljningen av de varor som är intressanta för oss.

Alla OLAP-programinställningar kan lagras i ett dedikerat metadataförråd, i ett program eller i ett flerdimensionellt databassystemförråd.Implementeringen beror på den specifika mjukvaruprodukten.

Allt som ingår i dessa applikationer är en standard titt på gränssnittet, fördefinierade funktioner och struktur, samt snabba lösningar för mer eller mindre standardsituationer. Till exempel är finansieringspaket populära. Förbyggda finansiella applikationer kommer att tillåta proffs att använda välbekanta finansiella instrument utan att behöva designa en databasstruktur eller vanliga formulär och rapporter.

Internet är en ny form av klient. Dessutom bär den stämpeln av ny teknik; mycket av internetlösningar skiljer sig markant i deras kapacitet i allmänhet och i kvaliteten på en OLAP-lösning i synnerhet. Det finns många fördelar med att generera OLAP-rapporter över Internet. Det mest betydande är frånvaron av behovet av specialiserad programvara för att komma åt information. Detta sparar företaget mycket tid och pengar.

6. Val av OLAP-applikationsarkitektur.

När du implementerar ett informations- och analyssystem är det viktigt att inte göra ett misstag när du väljer en OLAP-applikationsarkitektur. Den bokstavliga översättningen av termen On-Line Analytical Process - "on-line analytisk bearbetning" - tas ofta bokstavligt i den meningen att data som kommer in i systemet analyseras snabbt. Detta är en vanföreställning - effektiviteten i analysen har ingenting att göra med realtiden för datauppdatering i systemet. Denna egenskap hänvisar till OLAP-systemets svarstid på användarförfrågningar. Samtidigt är den analyserade datan ofta en ögonblicksbild av information "för gårdagen", om till exempel data i lagren uppdateras en gång om dagen.

I detta sammanhang är översättningen av OLAP som "interactive analytical processing" mer korrekt. Det är förmågan att analysera data i interaktivt läge som skiljer OLAP-system från system för att förbereda reglerade rapporter.

En annan funktion av interaktiv bearbetning i formuleringen av grundaren av OLAP E. Codd är förmågan att "kombinera, visa och analysera data från synvinkeln av flera dimensioner, det vill säga på det mest förståeliga sättet för företagsanalytiker." För Codd själv betecknar termen OLAP ett exklusivt specifikt sätt att representera data på konceptuell nivå - flerdimensionell. På den fysiska nivån kan data lagras i relationsdatabaser, men i verkligheten tenderar OLAP-verktyg att fungera med flerdimensionella databaser, där datan är organiserad i en hyperkub (Figur 1).

Bild 1. OLAP- kub (hyperkub, metakub)

Dessutom bestäms relevansen av dessa data av det ögonblick hyperkuben fylls med ny data.

Uppenbarligen beror bildningstiden för en flerdimensionell databas avsevärt på mängden data som laddas in i den, så det är rimligt att begränsa denna volym. Men hur kan man inte begränsa analysmöjligheterna och inte beröva användaren tillgång till all information av intresse? Det finns två alternativa vägar: Analysera sedan fråga och Fråga sedan analysera.

Följare av den första vägen föreslår att man laddar generaliserad information i en flerdimensionell databas, till exempel månads-, kvartals-, årssummor för avdelningar. Och om det är nödvändigt att förfina data, erbjuds användaren att generera en rapport om relationsdatabasen som innehåller det nödvändiga urvalet, till exempel per dag för en viss avdelning eller efter månader och anställda på en vald avdelning.

Förespråkare för det andra sättet, tvärtom, erbjuder användaren först och främst att bestämma data som han ska analysera och ladda in den i en mikrokub - en liten flerdimensionell databas. Båda tillvägagångssätten skiljer sig konceptuellt och har sina egna fördelar och nackdelar.

Fördelarna med det andra tillvägagångssättet inkluderar "färskheten" av informationen som användaren får i form av en flerdimensionell rapport - en "mikrokub". Mikrokuben genereras baserat på den information som just begärts från den aktuella relationsdatabasen. Arbetet med mikrokuben utförs i ett interaktivt läge - att erhålla bitar av information och dess detaljering i mikrokuben utförs omedelbart. Andra positiv punktär att designen av strukturen och fyllningen av mikrokuben utförs av användaren "on the fly", utan medverkan av databasadministratören. Tillvägagångssättet lider emellertid också av allvarliga nackdelar. Användaren ser inte den allmänna bilden och måste bestämmas i förväg med riktningen för sin forskning. Annars kan den begärda mikrokuben vara för liten och inte innehålla all information av intresse, och användaren kommer att behöva begära en ny mikrokub, sedan en ny, sedan igen och igen. Query-analysmetoden implementerar sedan BusinessObjects-verktyget för företaget med samma namn och verktygen för Company Contour-plattformen.Intersoft Labb.

Med Analyze then query-metoden kan mängden data som laddas in i en flerdimensionell databas vara ganska stor, fyllning bör utföras enligt reglerna och kan ta mycket tid. Men alla dessa nackdelar betalar sig senare när användaren har tillgång till nästan all nödvändig data i vilken kombination som helst. Hänvisning till originaldata i en relationsdatabas görs endast som en sista utväg, när detaljerad information behövs, till exempel på en specifik faktura.

Arbetet med en enda flerdimensionell databas påverkas praktiskt taget inte av antalet användare som kommer åt den. De läser bara den data som finns tillgänglig där, i motsats till Query then analys-metoden, där antalet mikrokuber i extremfallet kan växa i samma takt som antalet användare.

Med detta tillvägagångssätt ökar belastningen på IT-tjänster, som förutom relationella även tvingas tjäna flerdimensionella databaser.Det är dessa tjänster som ansvarar för det aktuella automatisk uppdatering data i flerdimensionella databaser.

Mest framstående företrädare av metoden "Analysera sedan fråga" är PowerPlay- och Impromptu-verktygen från Cognos.

Valet av både tillvägagångssätt och verktyg för dess implementering beror i första hand på det eftersträvade målet: du måste alltid balansera mellan att spara budget och att förbättra kvaliteten på tjänsten för slutanvändarna. Man bör komma ihåg att, strategiskt, strävar skapandet av informations- och analyssystem efter målet att uppnå en konkurrensfördel och inte undvika kostnaden för automatisering. Till exempel kan ett företagsinformations- och analyssystem tillhandahålla den nödvändiga, aktuella och tillförlitliga informationen om ett företag, vars publicering för potentiella investerare kommer att säkerställa transparensen och förutsägbarheten för detta företag, vilket oundvikligen kommer att bli ett villkor för dess investeringsattraktionskraft.

7. Tillämpningsområden för OLAP-teknologier.

OLAP är tillämpligt överallt där det finns en multifaktordataanalysuppgift. I allmänhet, om du har någon tabell med data, där det finns minst en beskrivande kolumn (dimension) och en kolumn med siffror (mått eller fakta), kommer ett OLAP-verktyg vanligtvis att vara ett effektivt verktyg för att analysera och generera rapporter.

Låt oss överväga några användningsområden för OLAP-teknologier hämtade från det verkliga livet.

1. Försäljning.

Baserat på analysen av försäljningsstrukturen löses de frågor som är nödvändiga för att fatta ledningsbeslut: om att ändra sortimentet av varor, priser, stänga och öppna butiker, filialer, avsluta och teckna avtal med återförsäljare, genomföra eller avsluta reklamkampanjer, etc.

2. Inköp.

Uppgiften är motsatsen till försäljningsanalys. Många företag köper komponenter och material från leverantörer. Handlare köper varor för återförsäljning. Det finns många möjliga uppgifter i analysen av upphandling, från planering Pengar baserat på tidigare erfarenheter kontroll över chefer att välja leverantörer.

3. Priser.

Analys av inköp är nära relaterad till analys av marknadspriser. Syftet med denna analys är att optimera kostnaderna, att välja de mest fördelaktiga erbjudandena.

4. Marknadsföring.

Med marknadsföringsanalys menar vi endast analysområdet för köpare eller kunder-konsumenter av tjänster. Uppgiften med denna analys är korrekt positionering av produkten, identifiering av grupper av köpare för riktad reklam och optimering av sortimentet. OLAPs uppgift i detta fall är att förse användaren med ett verktyg för att snabbt, med tankehastighet, få svar på frågor som intuitivt uppstår under dataanalys.

5. Lager.

Analys av strukturen på lagersaldon i samband med varuslag, lager, analys av varornas hållbarhet, analys av leverans per mottagare och många andra typer av analyser som är viktiga för företaget är möjliga om organisationen har lagerbokföring.

6. Kassaflöde.

Detta är ett helt område av analys, med många skolor och metoder. OLAP-teknik kan fungera som ett verktyg för implementering eller förbättring av dessa tekniker, men inte som en ersättning för dem. Den monetära omsättningen av apport- och kontantfonder analyseras i termer av affärstransaktioner, motparter, valutor och tid för att optimera flöden, säkerställa likviditet etc. Sammansättningen av mätningar beror starkt på särdragen i verksamheten, branschen och metodiken.

7. Budget.

Ett av de mest bördiga användningsområdena för OLAP-teknik. Det är inte för inte som inget modernt budgeteringssystem anses vara komplett utan närvaron av OLAP-verktyg för budgetanalys i dess sammansättning. De flesta budgetrapporter byggs enkelt utifrån OLAP-system. Samtidigt svarar rapporterna på ett mycket brett spektrum av frågor: analys av strukturen för utgifter och inkomster, jämförelse av utgifter för vissa poster i olika avdelningar, analys av dynamik och trender i utgifter för vissa poster, analys av kostnad och vinst .

8. Räkenskaper.

Den klassiska balansräkningen, som består av ett kontonummer och innehåller inkommande saldon, omsättningar och utgående saldon, kan perfekt analyseras i OLAP-systemet. Dessutom kan OLAP-systemet automatiskt och mycket snabbt beräkna konsoliderade saldon för en multibranschorganisation, saldon för månad, kvartal och år, aggregerade saldon efter kontohierarkin, analytiska saldon baserade på analytiska egenskaper.

9. Finansiell rapportering.

Ett tekniskt avancerat rapporteringssystem är inget annat än en uppsättning namngivna indikatorer med värden per datum, som måste grupperas och sammanfattas i olika aspekter för att få specifika rapporter. När så är fallet är visning och utskrift av rapporter enklast och billigast implementerat i OLAP-system. Företagets interna rapporteringssystem är i alla fall inte så konservativt och kan byggas om för att spara pengar på ingenjörsarbeten för att skapa rapporter och få multivariat operativ analysfunktion.

10. Webbplatstrafik.

Loggfilen för internetservern är flerdimensionell till sin natur, vilket innebär att den är lämplig för OLAP-analys. Fakta är: antal besök, antal träffar, tid på sidan och annan information som finns tillgänglig i loggen.

11. Produktionsvolymer.

Detta är ytterligare ett exempel på statistisk analys. Således är det möjligt att analysera volymerna av potatis som odlas, stålsmälts, producerade varor.

12. Förbrukning av förbrukningsvaror.

Föreställ dig en anläggning som består av dussintals verkstäder, som förbrukar kylning, spolvätskor, oljor, trasor, sandpapper - hundratals förbrukningsvaror. För noggrann planering krävs kostnadsoptimering noggrann analys faktisk förbrukning av förbrukningsvaror.

13. Användning av lokaler.

En annan typ av statistisk analys. Exempel: analys av arbetsbelastningen i klassrum, förhyrda byggnader och lokaler, användning av konferensrum m.m.

14. Personalomsättning på företaget.

Analys av personalomsättningen på företaget i samband med grenar, avdelningar, yrken, utbildningsnivå, kön, ålder, tid.

15. Persontrafik.

Analys av antalet sålda biljetter och belopp i samband med säsonger, vägbeskrivningar, typer av bilar (klasser), typer av tåg (flygplan).

Tillämpningen är inte begränsad till denna lista. OLAP - teknik. Tänk till exempel på tekniken OLAP -analys inom försäljningsområdet.

8. Exempel på användning OLAP -teknologier för analys inom försäljningsområdet.

Designa en multidimensionell datarepresentation för OLAP -analys börjar med bildandet av en mätkarta. Till exempel, när man analyserar försäljningen kan det vara tillrådligt att peka ut enskilda delar av marknaden (utvecklande, stabila, stora och små konsumenter, sannolikheten för nya konsumenter etc.) och bedöma försäljningsvolymerna per produkter, territorier, kunder, marknadssegment, distributionskanaler etc. storleken på order. Dessa riktningar bildar rutnätet för den flerdimensionella synen på försäljning - strukturen för dess dimensioner.

Eftersom verksamheten i ett företag äger rum i tid, är den första frågan som uppstår i analysen frågan om dynamiken i affärsutveckling. Rätt organisation tidsaxel kommer att ge ett kvalitativt svar på denna fråga. Vanligtvis är tidsaxeln uppdelad i år, kvartal och månader. Ännu mer fragmentering i veckor och dagar är möjlig. Strukturen för tidsdimensionen bildas med hänsyn till frekvensen av datamottagning; kan också betingas av frekvensen av informationsefterfrågan.

Dimensionen "produktgrupp" är utformad för att så nära som möjligt återspegla strukturen på de produkter som säljs. Samtidigt är det viktigt att iaktta en viss balans för att å ena sidan undvika överdriven detaljering (antalet grupper bör kunna förutses) och å andra sidan för att inte missa ett betydande marknadssegment.

Dimensionen "Kunder" speglar försäljningsstrukturen efter geografisk plats. Varje dimension kan ha sina egna hierarkier, i denna dimension kan det till exempel vara en struktur: Länder - Regioner - Städer - Kunder.

För att analysera avdelningarnas prestanda bör du skapa din egen dimension. Du kan till exempel särskilja två nivåer i hierarkin: avdelningar och deras underavdelningar, vilket bör återspeglas i dimensionen "Avdelningar".

Faktum är att dimensionerna "Tid", "Produkter", "Kunder" helt definierar utrymmet för ämnesområdet.

Dessutom är det användbart att dela upp detta utrymme i villkorade områden baserat på de beräknade egenskaperna, till exempel intervallen för transaktionsvolymen i värdetermer. Sedan kan hela verksamheten delas upp i ett antal värdeområden där den bedrivs. I det här exemplet kan du begränsa dig till följande indikatorer: mängden försäljning av varor, antalet sålda varor, mängden inkomst, antalet transaktioner, antalet kunder, volymen av inköp från tillverkare.

OLAP - kuben för analys kommer att se ut (fig. 2):


Figur 2.OLAP- en kub för att analysera försäljningsvolymen

Det är just en sådan tredimensionell array i OLAP-termer som kallas en kub. Faktum är att från strikt matematiksynpunkt kommer en sådan array inte alltid att vara en kub: en riktig kub bör ha samma antal element i alla dimensioner, och OLAP-kuber har inte en sådan begränsning. En OLAP-kub behöver inte alls vara 3D. Det kan vara både två- och flerdimensionellt – beroende på vilket problem som ska lösas. Seriösa OLAP-produkter är designade för cirka 20 dimensioner. Enklare stationära applikationer stöder cirka 6 dimensioner.

Långt ifrån alla element i kuben ska fyllas: om det inte finns någon information om försäljningen av produkt 2 till kund 3 under tredje kvartalet, kommer värdet i motsvarande cell helt enkelt inte att fastställas.

Själva kuben är dock inte lämplig för analys. Om det fortfarande är möjligt att adekvat representera eller avbilda en tredimensionell kub, då med sex- eller nittondimensionell situationen är mycket värre. Därför, före användning, extraheras vanliga tvådimensionella tabeller från den flerdimensionella kuben. Denna operation kallas att "skiva" kuben. Analytikern, som det var, tar och "klipper" dimensionerna på kuben enligt etiketterna av intresse. På så sätt tar analytikern en tvådimensionell del av kuben (rapporten) och arbetar med den. Rapportens struktur visas i figur 3.

Figur 3.Analytisk rapportstruktur

Låt oss skära vår OLAP - kub och få försäljningsrapporten för tredje kvartalet, den kommer att se ut så här (Fig. 4).

Figur 4.Försäljningsrapport för tredje kvartalet

Du kan skära kuben längs en annan axel och få en rapport om försäljningen av produktgrupp 2 under året (Fig. 5).

Bild 5.Kvartalsrapport för produktförsäljning 2

På samma sätt kan du analysera relationen med klienten 4, skära kuben vid etiketten Klienter(fig. 6)

Bild 6.Rapport om leverans av varor till kunden 4

Du kan borra ner i rapporten per månad eller prata om leveranser av varor till en specifik kundfilial.

OLAP (Online Analytical Processing) är en informationsprocess som gör det möjligt för användaren att fråga efter systemet, genomföra analyser etc. v driftläge(uppkopplad). Resultaten genereras inom några sekunder.

OLAP-system är gjorda för slutanvändare, medan OLTP-systemär gjorda för professionella IP-användare. OLAP inkluderar aktiviteter som att generera frågor, fråga efter ad-hoc-rapporter, utföra statistisk analys och bygga multimediaapplikationer.

För att tillhandahålla OLAP måste du arbeta med ett datalager (eller flerdimensionell lagring) samt en uppsättning verktyg, vanligtvis med flerdimensionella möjligheter. Dessa verktyg kan vara en frågeverktygslåda, kalkylblad, verktyg för datautvinning, verktyg för datavisualisering, etc.

OLAP-konceptet bygger på principen om flerdimensionell datapresentation. E. Codd övervägde bristerna i den relationella modellen, och pekade först och främst på omöjligheten att kombinera, titta på och analysera data utifrån flera dimensioners synvinkel, det vill säga på det mest förståeliga sättet för företagsanalytiker, och definierade allmänna krav för OLAP-system som utökar funktionaliteten hos relations-DBMS och inkluderar multidimensionell analys som en av dess egenskaper.

12 regler du måste uppfylla programvara OLAP klass. Dessa regler:

1. Flerdimensionell konceptuell representation av data.

2. Transparens.

3. Tillgänglighet.

4. Hållbar prestanda.

5. Klient - serverarkitektur.

6. Lika mätningar.

7. Dynamisk bearbetning av glesa matriser.

8. Stöd för flerspelarläge.

9. Obegränsat stöd för tvärdimensionella operationer.

10. Intuitiv datamanipulation.

11. Flexibel mekanism för att generera rapporter.

12. Obegränsat antal dimensioner och aggregeringsnivåer.

Uppsättningen av dessa krav, som fungerade som den faktiska definitionen av OLAP, bör betraktas som en rekommendation, och specifika produkter bör bedömas i enlighet med graden av närhet till idealiskt full överensstämmelse med alla krav.


Data Mining och Knowledge Mining. Stordatahantering och analys. Business intelligence-system (BI).

Data mining (IAD) är en allmän term för data mining med aktiv användning matematiska metoder och algoritmer (optimeringsmetoder, genetiska algoritmer, mönsterigenkänning, statistiska metoder, Data Mining, etc.), med hjälp av resultaten av tillämpningen av metoder för visuell datapresentation.



Generellt sett består IAD-processen av tre steg:

1) identifiera mönster (fri sökning);

2) använda de avslöjade mönstren för att förutsäga okända värden (prognoser);

3) analys av undantag för att identifiera och tolka anomalier i de hittade mönstren.

Ibland finns det ett mellanstadium för att kontrollera tillförlitligheten hos de hittade mönstren (stadiet för validering) mellan att hitta och använda dem.

Alla IAD-metoder, enligt principen att arbeta med initiala data, är indelade i två grupper:

Använd resonemangstekniker för fallanalys - rådata kan lagras i en explicit granulär form och direkt användas för att förutsäga och/eller analysera undantag. Nackdelen med denna grupp av metoder är komplexiteten i deras användning på stora volymer data.

Metoder för att identifiera och använda formaliserade mönster som kräver att information extraheras från primärdata och omvandlas till vissa formella konstruktioner, vilken typ beror på den specifika metoden.

Data Mining (DM) är en teknik för att upptäcka tidigare okända icke-trivial, praktiskt användbar och tillgänglig tolkning av kunskap som är nödvändig för beslutsfattande inom olika sfärer av mänsklig aktivitet i "rå" data. Algoritmerna som används i Data Mining kräver ett stort antal beräkningar, vilket tidigare var en begränsande faktor för vida praktisk applikation dessa metoder, men produktiviteten ökar moderna processorer tog bort det brådskande med detta problem.

Business Intelligence-marknaden består av 5 sektorer:

1. OLAP-produkter;

2. Datautvinningsverktyg;

3. Medel för att bygga datalager och mars (Data Warehousing);

4. Ledningsinformationssystem och applikationer;

5. Slutanvändarverktyg för att söka och generera rapporter.

För närvarande kan bland ledarna för företags BI-plattformar urskiljas MicroStrategy, Business Objects, Cognos, Hyperion Solutions, Microsoft, Oracle, SAP, SAS Institute och andra (Appendix B ger en jämförande analys av vissa funktionalitet BI-system).

Informationsteknologin har under många år fokuserat på att bygga system för att stödja behandlingen av företagstransaktioner. Sådana system måste vara visuellt motståndskraftiga och lyhörda. Effektiv lösning tillhandahölls av OLTP som fokuserade på en distribuerad relationsdatabasmiljö.

En nyare utveckling inom detta område var tillägget av en klient-server-arkitektur. Många verktyg har publicerats för utveckling av OLTP-applikationer.

Dataåtkomst krävs ofta av både OLTP-applikationer och beslutsstödsinformationssystem. Tyvärr kan det vara problematiskt att försöka leverera båda typerna av förfrågningar. Därför har vissa företag valt vägen att dela upp databasen i OLTP-typ och OLAP-typ.

OLAP (Online Analytical Processing)Är en informationsprocess som gör det möjligt för användaren att fråga efter systemet, genomföra analyser etc. online (online). Resultaten genereras inom några sekunder.

Å andra sidan, i ett OLTP-system, behandlas enorma mängder data så snart de kommer in i ingången.

OLAP-system är gjorda för slutanvändare, medan OLTP-system är gjorda för professionella IP-användare. OLAP inkluderar aktiviteter som att generera frågor, fråga efter ad-hoc-rapporter, utföra statistisk analys och bygga multimediaapplikationer.

För att tillhandahålla OLAP måste du arbeta med ett datalager (eller flerdimensionell lagring) samt en uppsättning verktyg, vanligtvis med flerdimensionella möjligheter. Dessa verktyg kan vara frågeverktyg, kalkylblad, verktyg för datautvinning, verktyg för datavisualisering, etc.

OLAP-konceptet bygger på principen om flerdimensionell datapresentation. E. Codd övervägde bristerna i den relationella modellen, och pekade först och främst på omöjligheten att kombinera, titta på och analysera data utifrån flera dimensioners synvinkel, det vill säga på det mest förståeliga sättet för företagsanalytiker, och definierade allmänna krav för OLAP-system som utökar funktionaliteten hos relationella DBMS och inkluderar multidimensionell analys som en av dess egenskaper.

V ett stort antal publikationer, betecknar förkortningen OLAP inte bara en flerdimensionell vy av data, utan också lagringen av själva datan i en flerdimensionell databas. Generellt sett är detta inte sant, eftersom Codd själv konstaterar att relationsdatabaser har varit, är och kommer att vara den mest lämpliga tekniken för att lagra företagsdata. Behovet finns inte i ny teknologi DB, utan snarare i analysverktyg som kompletterar funktionerna i befintliga DBMS och är tillräckligt flexibla för att förutse och automatisera olika typer datautvinning som är inneboende i OLAP.

Enligt Codd är en multidimensionell konceptuell representation ett multipelperspektiv, bestående av flera oberoende dimensioner längs vilka specifika uppsättningar av data kan analyseras. Samtidig analys över flera dimensioner definieras som multivariat analys. Varje dimension inkluderar riktningar för datakonsolidering, bestående av en serie på varandra följande nivåer av aggregering, där varje högre nivå motsvarar en högre grad av dataaggregering för motsvarande dimension. Så dimensionen av entreprenören kan bestämmas av konsolideringsriktningen, som består av generaliseringsnivåerna "företag - avdelning - avdelning - anställd". Dimensionen Tid kan till och med inkludera de två konsolideringsriktningarna - år-kvartal-månad-dag och veckodag, eftersom tidsräkning efter månad och vecka är inkompatibel. I detta fall blir det möjligt att godtyckligt välja den önskade informationsnivån för var och en av mätningarna. Nedstigningsoperationen motsvarar förflyttningen från de högre stadierna av konsolidering till de lägre; tvärtom innebär en lyftoperation förflyttning från lägre nivåer till högre.

Codd definierade 12 regler som en mjukvaruprodukt av OLAP-klass måste uppfylla. Dessa regler:

1. Flerdimensionell konceptuell representation av data.

2. Transparens.

3. Tillgänglighet.

4. Hållbar prestanda.

5. Klient - serverarkitektur.

6. Lika mätningar.

7. Dynamisk bearbetning av glesa matriser.

8. Stöd för flerspelarläge.

9. Obegränsat stöd för tvärdimensionella operationer.

10. Intuitiv datamanipulation.

11. Flexibel mekanism för att generera rapporter.

12. Obegränsat antal dimensioner och aggregeringsnivåer.

Uppsättningen av dessa krav, som fungerade som den faktiska definitionen av OLAP, bör betraktas som en rekommendation, och specifika produkter bör bedömas i enlighet med graden av närhet till idealiskt full överensstämmelse med alla krav.

Data mining.

Data Mining (IAD), eller Data Mining, är en term som används för att beskriva upptäckten av kunskap i databaser, kunskapsutvinning, datautvinning, datautforskning, bearbetning av dataprover, rengöring och insamling av data; här menas den medföljande programvaran. Alla dessa åtgärder utförs automatiskt och låter dig ta emot snabba resultatäven icke-programmerare.

Begäran görs av slutanvändaren, eventuellt på naturligt språk. Frågan konverteras till SQL-format. SQL-fråga via nätverket går in i DBMS, som hanterar databasen eller datalagringen. DBMS hittar svaret på begäran och levererar tillbaka det. Användaren kan sedan utforma presentationen eller rapporten efter sina krav.

Många viktiga beslut inom nästan alla affärsområden och sociala områden är baserade på analys av stora och komplexa databaser. IAD kan vara till stor hjälp i dessa fall.

Datautvinningstekniker är nära besläktade med OLAP-tekniker och datalagertekniker. Därför är det bästa alternativet ett integrerat tillvägagångssätt för deras genomförande.

För att de befintliga datalagren ska underlätta antagandet av ledningsbeslut måste informationen presenteras för analytikern i den form som krävs, det vill säga han måste ha utvecklat verktyg för att komma åt och bearbeta data i lagret.

Mycket ofta är informations- och analyssystem, skapade med förväntan om direkt användning av beslutsfattare, extremt enkla att använda, men kraftigt begränsade i funktionalitet. Sådana statiska system kallas Executive Information Systems. De innehåller fördefinierade uppsättningar av frågor och, eftersom de är tillräckliga för daglig granskning, kan de inte svara på alla frågor om tillgänglig data som kan uppstå när beslut fattas. Resultaten av arbetet med ett sådant system är som regel flersidiga rapporter, efter en grundlig studie av vilken analytikern har en ny serie frågor. Emellertid måste varje ny begäran som inte förutses i utformningen av ett sådant system först beskrivas formellt, kodas av programmeraren och först därefter exekveras. Väntetiden kan i detta fall vara timmar och dagar, vilket inte alltid är acceptabelt. Därmed förvandlas den externa enkelheten hos statistiskt beslutsstöd IS, som de flesta kunder av informations- och analyssystem aktivt kämpar för, till en förlust av flexibilitet.

Däremot är dynamiska beslutsstöds IS:er fokuserade på att behandla ad hoc-analytikers förfrågningar om data. Analytiker arbetar med dessa system i en interaktiv sekvens av att forma frågor och studera deras resultat.

Men dynamiskt beslutsstöd IS:er kan verka i mer än bara online analytisk bearbetning (OLAP). Stöd för att fatta ledningsbeslut baserat på ackumulerad data kan utföras inom tre grundläggande områden.

1. Sfär av detaljerade data. Detta är domänen för de flesta system för informationshämtning. I de flesta fall gör relations-DBMS ett utmärkt jobb med de uppgifter som uppstår här. Den allmänt accepterade standarden för språket för relationsdatamanipulation är SQL. Informationshämtningssystem som tillhandahåller ett slutanvändargränssnitt i uppgifterna att söka efter detaljerad information kan användas som tillägg både över separata databaser av transaktionssystem och över ett gemensamt datalager.

2. Omfattning av aggregat. En omfattande titt på informationen som samlas in i datalagret, dess generalisering och aggregering och multidimensionell analys är OLAP-systemens uppgifter. Här kan du antingen fokusera på speciella flerdimensionella DBMS, eller hålla dig inom ramen för relationsteknologier. I det andra fallet kan föraggregerade data samlas in i en stjärnformad databas, eller så kan aggregeringen av information utföras i processen att skanna detaljerade tabeller i en relationsdatabas.

3. Lagarnas sfär. Intellektuell bearbetning utförs med hjälp av datautvinningsmetoder, vars huvuduppgifter är sökandet efter funktionella och logiska mönster i den ackumulerade informationen, konstruktionen av modeller och regler som förklarar de hittade anomalierna och / eller förutsäger utvecklingen av vissa processer.

Den fullständiga strukturen av informations- och analyssystemet byggt på datalagret visas i fig. 3.2. I specifika implementeringar saknas ofta individuella komponenter i denna krets.

Figur 3.2. Strukturen för företagets informations- och analyssystem.







2021 gtavrl.ru.