Kysymys:
Mitkä ovat liian tarkan mallin haittapuolet tekniikan näkökulmasta?
TheGuest
2017-11-29 22:31:23 UTC
view on stackexchange narkive permalink

Mietin tekniseltä kannalta, mistä syistä mallinnuksen liian suuri tarkkuus voi olla haitallista?

Tieteellisestä näkökulmasta näyttää siltä, ​​että siitä on melkein aina hyötyä lukuun ottamatta kun sinun on käytettävä vähemmän laskenta-aikaa.

Miksi sinun pitäisi siis välttää insinöörin kannalta ajan (tai laskentatehon) lisäksi?

Määritä tässä "tarkkuus" ja "liikaa". Sinulla voisi olla malli, joka ennustaa epävarmuusalueen erittäin suureksi tarkkuudeksi, tai malli, joka pienentää itse mainitun epävarmuuden hyvin pieneksi arvoksi. Ja niin edelleen.
"Kaikki tulisi tehdä mahdollisimman yksinkertaiseksi, mutta ei yksinkertaisemmaksi." Einstein.
"ajan (tai laskentatehon lisäksi)" näyttää siltä, ​​että kaikki vastaukset menettivät tämän kohdan ..
@agentp Päinvastoin, kysymys vastaa itse yrittämällä sulkea sen pois. On typerä olla ensin kysymyksessä.
Tarkkuus! = Tarkkuus. Se on ensimmäinen asia, jota minulle opetettiin fysiikkatunnilla. 3 on Pi: n tarkempi esitys kuin 3.5794. Tämän erottelun perusteella en usko, että olet oikeassa olettaessasi, että liian tarkka malli on aina haitallinen. Tarkka tarkoittaa lähellä totuutta.
@user247243 * En usko, että olet oikeassa olettaessasi, että liian tarkka malli on koskaan haitallinen. * Jos yksi tilastollinen malli kertoo meille, että tarvitsemme 11,5 kupin kahvinkeittimen ja toisella kestää kymmenen kertaa kauemmin kertoa meille, että tarvitsemme 11,46124 kupin kahvia valmistaja, koska kupit ovat hieman pienempiä kuin normi, olemme tuhlanneet joukon aikaa samaan johtopäätökseen (että ostamme 12 kupin koneen).
@Myles Ongelmana on, että lueteltu vahingollinen tapaus on puhtaasti aika / laskentateho. Tällaisen mallin käytöstä ei ole muuta haittaa. OP on myös nimenomaisesti sanonut, että aikaa ja laskentaa ei oteta huomioon tässä.
@JMac Siksi se on pikemminkin kommentti kuin vastaus.
tämä on vakavasti pahin "erittäin äänestetty" kysymys, jonka olen koskaan nähnyt. Se on tasainen hämmentävä.
Yksitoista vastused:
Scott
2017-11-30 10:19:30 UTC
view on stackexchange narkive permalink

Varo ylikuntoa. Tarkempi malli kerätyistä tiedoista järjestelmästä ei välttämättä ennusta paremmin järjestelmän tulevaa käyttäytymistä.

Overfitting Example

Yllä oleva kuva näyttää kaksi mallia joistakin tiedoista.

Lineaarinen viiva on jonkin verran tarkka harjoitustiedoissa (kaavion pisteet), ja (voidaan odottaa) se on jonkin verran tarkka testaustiedoissa (missä pisteet ovat todennäköisesti x < 5: lle ja x> -5).

Sen sijaan polynomi on 100% tarkka harjoittelutiedoille, mutta (ellei sinulla ole mitään syytä uskoa 9. asteen polynomia on kohtuullinen jostain fyysisestä syystä), oletat, että tämä on erittäin huono ennustaja x> 5: lle ja x < -5: lle.

Lineaarinen malli on 'epätarkempi', mikä perustuu virheiden vertailuun keräämiemme tietojen kanssa. Mutta se on yleisempi.

Lisäksi insinöörien on vähemmän huolissaan mallistaan ​​ja enemmän siitä, mitä ihmiset tekevät mallin kanssa.

Jos kerron teille, että olemme kävelee kuumana päivänä ja sen odotetaan kestävän 426 minuuttia. Tuodat todennäköisesti vähemmän vettä kuin jos sanon, että kävely kestää 7 tuntia, ja vielä vähemmän kuin jos sanon, että kävely kestää 4-8 tuntia. Tämä johtuu siitä, että vastaat ennusteeni epäsuoraan luottamustasoon ennalta ilmoittamieni aikojen keskipisteen sijaan.

Jos annat ihmisille tarkan mallin, ihmiset pienentävät virhemarginaaliaan. Tämä johtaa suurempiin riskeihin.

Käveleminen esimerkiksi kuumana päivänä, jos tiedän, että kävely kestää 4–8 tuntia 95 prosentissa tapauksista, navigoinnin ja kävelynopeuden suhteen on epävarmuutta. Kävelynopeuden täydellinen tuntemus vähentää 4-8-luvun epävarmuutta, mutta se ei vaikuta merkittävästi "mahdollisuuteen kestää niin kauan, että vedestä tulee kysymys", koska sitä ohjaa melkein kokonaan epävarma navigointi, ei epävarma kävelynopeus.

Oikein, vaikka huomautan, että polynomi, jonka asteen $ N $ on esimerkki, jolla on epätavallisen huono käyttäytyminen; tällaista mallia ei saa koskaan käyttää. Järkevien mallien, myös ylivarustettujen, ei pitäisi räjähtää tuolla tavalla, ellet itse jätä mittausten kattamaa _aluetta_. Itse asiassa jopa asteen 8 polynomi tekisi jo paljon tasaisemman sovituksen näiden tietojen perusteella.
Avainlainaus linkitetystä Wikipedia-artikkelista: "ylivarustusta tapahtuu, kun malli alkaa" muistaa "harjoittelutietoja sen sijaan, että" oppisi "yleistämään trendistä."
Pitäisikö todellakin ylikuntoa olevan "liikaa tarkkuutta mallissa"? Se ei ole "liian tarkan mallin" haittapuoli. Se on haittapuoli siitä, että sinulla on liian monta tarkkaa pistettä ja _ huonosti mallinnetaan_. Huonon mallin tekeminen tarkoista tiedoista ** ei ** ole tarkka malli.
@JMac: Ylivarustusta voi esiintyä luonnollisesti koneoppimisympäristöissä ilman, että tarkoituksellisesti ryhdytään rakentamaan huonoa mallia, vain heittämällä liikaa tietoa koulutusjoukkoon. En ole varma, että "liian tarkka" on oikea tapa kuvata tällaista lopputulosta, mutta ei myöskään "yksinkertainen mallintamisvirhe".
Chris Johns
2017-11-29 23:13:13 UTC
view on stackexchange narkive permalink

Ilmeisin haittapuoli on kustannus, kaikilla suunnitteluprojekteilla on rajallinen budjetti ja enemmän rahaa kuin tarvitset, on selvästi huono asia puhumattakaan ajanhukasta.

Voi olla myös hienovaraisempia asioita. FE-analyysin kaltaiset asiat ovat aina likiarvoja, ja joskus tarpeettomien yksityiskohtien lisääminen voi tuoda esineitä esiin ja vaikeuttaa mallin vianmääritystä. Voit esimerkiksi saada epäjatkuvuuksia, jotka johtavat stressin nostajiin.

On myös huomio, että vaikka sinulla olisi laskentatehoa käsitellä mukavasti suurta tietojenkäsittelijöiden osaa ja asiakkaat eivät välttämättä ja usein siirrä suuria tiedostot ovat edelleen hieman pullonkaula.

Vastaavasti jos sinulla on enemmän parametreja kuin tarvitset, voit mahdollisesti luoda ylimääräistä työtä tiedostojen hallinnassa ja virheenkorjauksessa.

Vaikka sinulla onkin nyt runsaasti aikaa ja resursseja, voi hyvinkin olla, että jonkun seuraavalla rivillä olevan henkilön on käytettävä mallia ilman samaa ylellisyyttä, varsinkin jos se päätyy olemaan osa tuotetta, jonka olet myynti asiakkaille.

Kysely: 2. kappaleen pitäisi lukea "... lisäämällä tarvittavat tiedot ..." tai "lisäämällä * tarvittavat tiedot"
joo pitäisi olla tarpeetonta
En ole varma, toimiiko FE-esimerkki hyvin täällä. Tällöin FE _ on_ malli. Tarkempien _data_-tietojen käyttö saattaa aiheuttaa ongelmia; mutta jos FE _mallisi_ on tarkka, sinun ei tietenkään tarvitse huolehtia esineistä; koska mallissasi ei ole niitä. Olemme jo _määrittäneet sen tarkaksi. Ehkä jos käytetään toista mallia kytkeäksesi FE-analyysiin; mutta silloin se on enimmäkseen vain "joku kauemmas linjaa" mallin avulla.
Wasabi
2017-11-29 23:42:42 UTC
view on stackexchange narkive permalink

Siellä on muutama syy.

Pelkästään käytännön näkökulmasta se johtuu aikarajoituksista. Mallin ratkaisemiseen tarvittava aika kasvaa paljon, paljon nopeammin kuin tarkkuustaso, ja mikä tahansa taso on subjektiivinen, joka tapauksessa.

Tähän vaikuttaa myös se, että liiallinen tarkkuus on enimmäkseen hyödytöntä. Loppujen lopuksi mallisi voi olla 99,999% tarkka annetuille tuloarvoille, mutta todellinen maailma on epätarkka. Teräksen kimmomoduulin toleranssi on esimerkiksi $ \ pm5 $ - $ 15 \% $. Joten miksi vaivautua erittäin tarkkaan malliin, jos yksi tärkeimmistä panoksistasi voi olla pois päältä 10%? (on sanomattakin selvää, että virhemarginaalit muille materiaaleille, kuten betonille tai maaperälle, ja muut muuttujat, kuten kuormitus, ovat huomattavasti korkeammat.

Tästä syystä ei ole mitään syytä olla liian tarkka. Mutta todellakin voi olla hyödyllistä olla edes yrittämättä olla liian tarkkoja. Syyt tähän ovat kuitenkin enimmäkseen psykologisia. Pääasiassa et halua mallisi olevan liian tarkka, etkä halua tuottaa tuloksia seitsemän desimaalin tarkkuudella, koska et halua herättää väärää luottamusta.

Ihmisen aivot ovat lujasti ajatelleet, että 1.2393532697 on tarkempi arvo kuin 1.2. Mutta näin ei todellakaan ole. Kaikkien tosielämän epävarmuustekijöiden vuoksi, joita mallisi ei voi mahdollisesti ottaa huomioon (varsinkin kun otetaan huomioon nykyiset laitteistorajoitukset), 1.2 on melkein yhtä pätevä tulos kuin 1.2393532697. Joten älä kuvaa itseäsi tai ketään, joka näkee mallisi. Tulosta vain 1.2, mikä osoittaa läpinäkyvästi, ettet todellakaan tiedä mitä tapahtuu toisen numeron jälkeen

Nuclear Wang
2017-11-29 23:07:43 UTC
view on stackexchange narkive permalink

Erittäin tarkka malli saattaa vaatia kohtuuttoman paljon syötetietoja. Voi olla mahdollista tuottaa erinomainen malli sääjärjestelmistä, esimerkiksi ottamalla syötteeksi jokaisen ilmakehässä olevan kaasumolekyylin sijainti ja nopeus. Käytännössä tällaisesta mallista ei ole hyötyä, koska oikean panoksen luomiseen ei ole realistista tapaa. Tässä tapauksessa olisi parempi käyttää vähemmän tarkkaa mallia, joka vaatii vain rajoitettuja syötetietoja.

Olet vastannut toiseen kysymykseen: "kuinka paljon syötettyä dataa on liikaa"
Haluaisin todennäköisesti lisätä tähän huomautuksen siitä, miten kysymyksessä mainitaan "sen lisäksi, kun tarvitset vähemmän laskenta-aikaa", koska se on myös hyvä syy olla vähemmän tarkka malli; jos mallisi on liian tarkka, todellisten tapausten laskeminen voi kestää kauemmin kuin maailmankaikkeuden lämpökuolema.
Cort Ammon
2017-11-30 06:59:49 UTC
view on stackexchange narkive permalink

"Liian tarkka" ei ole yksitoikkoinen. Se voi tosiasiallisesti luoda uskollisuuden illuusion, joka saa sinut ajattelemaan, että simulaatioon kannattaa pumpata enemmän rahaa. Tästä tulee erittäin tärkeää, kun esität tietoja sekatarkkuuksisista malleista, joissa jotkut osat ovat hyvin yksityiskohtaisia ​​ja toiset erittäin karkeita.

Oikea esimerkki elämästäni otin mukaan näytteitä korkeuksista maastossa. Joukkue oli päättänyt ottaa näytteen maastosta 1024 palasena tarkkuuden maksimoimiseksi. Asiakkaamme halusi ReallyGood (tm) -vastauksen.

Nyt minua häiritsivät tämän algoritmin aiheuttamat ajonaikaiset osumat, ja halusin ymmärtää, kuinka paljon uskollisuutta todella maksin. En ollut nähnyt mitään maastotietoja, joten kysyin heiltä, ​​kuinka he lataavat sen. Vastaus oli "Voi, meillä ei ole maastoa. Se on vain tasainen."

Joten kuulosti siltä, ​​että minulla oli mahtava korkealaatuinen malli, joka otti 1024 pistettä. Minulla todellakin oli matalan tarkkuuden malli, joka ei toiminut paremmin kuin näytteenotto 1 pisteestä 1024 kertaa, mutta juoksi koko tonni hitaammin ja naamioitui korkeamman tarkkuuden mallina! johtajilla ei ole aina mahdollisuutta oppia mallin koko arkkitehtuuria. Itse sanoisin, että heillä ei koskaan ole aikaa. Johtomme oli tekemässä päätöksiä olettaen, että meillä olisi mahtava 1024 pisteen malli. Kukaan ei ollut syyllinen, vain tapahtuu, kun virität uskollisuuden mallin toiselle puolelle liian korkealle ja toisella uskollisuudelle. Sen pedon luonne sekoitetulla uskollisuudella.

Vertaus siitä, kuinka pienentäminen merkittäviin lukuihin ei aina ole vain jäljellä olevien nollien leikkaamista.
mathreadler
2017-11-30 01:04:54 UTC
view on stackexchange narkive permalink

Todellisuudessa meillä on tietoja, joita ei ole. Lähes aina, meillä ei ole paljon enemmän tietoja kuin mitä voimme koskaan toivoa keräävän käytännön tai taloudellisista syistä.

Yritämme sovittaa tiedot häiritsevästi hyvin harvoihin näytteisiimme, joten saatamme saada mallimme tekemään todella huonoja arvioita alueille, joilla meillä ei rehellisesti ole aavistustakaan (tietojen puutteen vuoksi). Sitten mallimme antaa meille väärän turvallisuuden tunteen.

Myles
2017-11-30 22:53:21 UTC
view on stackexchange narkive permalink

Miksi sinun pitäisi siis välttää suunnittelun kannalta ajan (tai laskentatehon) lisäksi

Koneenrakennuksen näkökulmasta katsottuna suurin syy on vain sitoutuminen lisätyöhön, jos se tuottaa merkittävästi erilaisia ​​tuloksia.

Jos mallissasi kuvattu tarkkuustaso on korkeampi kuin vaaditaan, sillä on vaikutusta asiakkaaseen. Tuhlaat rahaa. Esimerkiksi, jos määrität tarkemman kuin suunnittelu todella vaatii (esim. +/- .00001mm tuuletusputken pituudessa), tuhlataan asiakkaidesi rahaa, koska 350 mm: n ilmanpoisto ilmakehään tekee suunnilleen saman työn kuin 350.0005 mm: n tuuletusaukko ilmakehään, mutta jälkimmäisen tuottaminen on huomattavasti kalliimpaa.

Yliopistossa opimme kaikki mallintamaan fyysistä maailmaa Newtonin fysiikan avulla, vaikka onkin vakiintunut, että Newtonin jälkeinen fysiikka esittää tarkemman fyysisen mallin. käyttäytymistä. Tästä huolimatta en tiedä yhtään konetekniikan ohjelmaa, joka oletusarvoisesti välttäisi Newtonin mallit liian epätarkkoina. Jos käytämme tarkempaa mallia ja keksimme vastauksen, joka on 0,1% lähempänä teoreettista totuutta, joka ei vaikuta lopulliseen suunnitteluun useimmissa tapauksissa. Jos myötöraja on 0,1% erilainen, se antaa meille merkityksettömän eron vaaditussa poikkileikkauksessa, mikä saa meidät valitsemaan täsmälleen saman kokoisen I-palkin kumpaankin menetelmään perustuen. Tässä tilanteessa ylimääräisen työn kustannukset eivät tuota mitään lisäetua.

Nyt on tilanteita, joissa toimivan suunnittelun tuottaminen vaatii tarkkuutta, esimerkiksi joidenkin satelliittien mallintaminen vaati relativistista fysiikkaa. Näissä olosuhteissa meidän on löydettävä malli, joka tarjoaa vaaditun tarkkuustason, ja meidän on suunniteltava malli. Jos meidän on laskettava mitat +/- 0,0001%: iin, se on täysin hukkaan menevää vaivaa, jos osamitamme ovat +/- 0,1%. Todellisissa sovelluksissa osan jälkimmäisen tarkkuuden mitat ovat paljon yleisempiä kuin edelliset.

Solar Mike
2017-11-29 23:01:46 UTC
view on stackexchange narkive permalink

Kustannukset: ajan- tai laskentatehokustannukset ja tarkkuuskustannukset - jos muilla muuttujilla on toleranssi 5%, miksi esimerkiksi lasketaan tulokset 1 prosenttiin ...

Katarina
2017-11-29 23:33:59 UTC
view on stackexchange narkive permalink

Edellisissä vastauksissa mainittiin panos ja kustannukset. Jos haluat tarkkuutta esim. tuotantoparametrien optimoinnissa tarvitset todennäköisesti enemmän mittauksia ja ensin sinun on analysoitava, kuinka paljon voit vähentää kustannuksia verrattuna siihen, kuinka monta työtuntia. Näin lisääntynyt käyttöaste lisää mittaustiheyttä tai automaattisen järjestelmän kustannuksia, jotka korvaavat manuaalisen tiedonkeruun. Esimerkiksi jos saat erittäin tarkkoja jälleenmyyntejä, joihin olet sijoittanut aikaa ja muita resursseja, onko sinulla riittäviä laitteita laadunvalvontaan, teollisiin mittauksiin jne. tai jopa tekniikkaan. Jos tulokset ovat turhia kuin niiden käyttämiseen käytetty aika kuluu väärin.

guuusst
2017-11-30 14:46:16 UTC
view on stackexchange narkive permalink

Tarvitsetko satelliittikuvan senttimetrin tarkkuudella, jotta voit tunnistaa metsät värin mukaan? Ei varma. Olisin haitallista, koska sinun on päätettävä kaikista vihreistä 10 neliösenttimetrin laastareista. Sama mallinnuksessa: yksityiskohtien tarkkuuden tulisi sopia kohdeominaisuuksien tarkkuuteen. Jos ei, menetät aikaa supistamiseen.

Spehro Pefhany
2017-12-03 13:11:11 UTC
view on stackexchange narkive permalink

Suurin osa todellisista vastauksista suljetaan pois keinotekoisen rajoituksen perusteella, jonka mukaan laskentatehoa ja laskenta-aikoja ei oteta huomioon. Malli, jonka arviointi vie tunteja tai päiviä, ei salli suunnittelun nopeaa toistamista ja hidastaa asioita inhimillisessä mittakaavassa, lisää kustannuksia ja johtaa mahdollisesti huonompiin tuloksiin. Mallien älykäs yksinkertaistaminen menettämättä liikaa tarkkuutta voi olla erittäin hyödyllinen lähestymistapa, jolloin raakavoimamallia voidaan käyttää lopullisen iteraation vahvistamiseen.

On mahdollista, että liian monimutkaiset mallit voivat peittää mallissa olevat virheet tai että tiedon keräämiseen vaadittava työ mallin käytännölliseen maksimaaliseen käyttöön on suurempi kuin mahdollinen hyöty. Esimerkiksi jos sinun on tiedettävä materiaalin ominaisuudet suuremmalla tarkkuudella kuin toimittaja pystyy hallitsemaan niitä, voit joko hyväksyä virhealueet tai mennä testaamaan kutakin materiaalierää mallin säätämiseksi.



Tämä Q & A käännettiin automaattisesti englanniksi.Alkuperäinen sisältö on saatavilla stackexchange-palvelussa, jota kiitämme cc by-sa 3.0-lisenssistä, jolla sitä jaetaan.
Loading...