Fjern Duplicate Data Records i Excel
Regnearkprogrammer som Excel brukes ofte som databaser for ting som lageropplysninger, salgsposter og adresselister.
Databaser i Excel består av datatabeller som normalt er organisert i rader med data som heter poster.
I en post er dataene i hver celle eller felt i raden relatert - for eksempel firmaets navn, adresse og telefonnummer.
Et vanlig problem som oppstår som en database vokser i størrelse er det for dupliserte poster eller rader med data.
Denne dupliseringen kan oppstå hvis:
- Hele poster blir lagt inn i databasen mer enn en gang, noe som resulterer i to eller flere identiske poster
- Flere poster har ett eller flere felt - for eksempel et navn og en adresse - som inneholder de samme dataene.
Uansett kan dupliserte poster føre til mange problemer - for eksempel å sende flere kopier av dokumenter til samme person når databasen informasjon brukes i en mailfusjon - så det er en god ide å skanne etter og fjerne dupliserte poster på en vanlig måte basis.
Og mens det er enkelt å plukke ut dupliserte poster i en liten prøve som den i bildet ovenfor, kan datatabeller enkelt inneholde hundrevis hvis ikke tusenvis av poster gjør det svært vanskelig å plukke ut dupliserte poster - spesielt delvis matchende poster.
For å gjøre det lettere å utføre denne oppgaven, har Excel et innebygd dataredskap kalt, ikke overraskende, Fjern duplikater, som kan brukes til å finne og fjerne identiske og delvis matchende poster.
Men måten den Fjern duplikater verktøyet er utformet, identiske og delvis matchende poster må behandles separat.
Dette skyldes at Fjern duplikater dialogboksen viser feltnavnene for den valgte datatabellen, og du velger hvilke felt som skal inkluderes i søket etter samsvarende poster:
- For identiske poster, søk etter alle felt - la merkene stå ved siden av alle kolonne- eller feltnavn;
- For delvis matchende poster - la merke merkene ved siden av bare de feltene som skal matches.
Feltnavn vs kolonnebokstaver
Som nevnt, Fjern duplikater Verktøyet består av en dialogboks hvor du velger hvilke matchende felt å søke etter ved å sjekke ønsket felt eller kolonne navn.
Informasjonen som dialogboksen viser - feltnavn eller kolonnebokstaver - avhenger av om dataene inneholder en rekke overskrifter - eller overskrifter - øverst i datatabellen som vist i bildet ovenfor.
Hvis det gjør - pass på at alternativet på høyre side av dialogboksen - Mine data har overskrifter - er merket av og Excel vil vise navnene i denne raden som feltnavn i dialogboksen.
Hvis dataene dine ikke har en headerrad, vil dialogboksen vise de riktige kolonnebokene i dialogboksen for det valgte datafeltet.
Kontinuerlig rekkevidde av data
For Fjern duplikater verktøyet for å fungere skikkelig, må datatabellen være et sammenhengende utvalg av data - det vil si at det ikke må ha noen tomme rader, kolonner og, hvis det ikke er mulig, ingen tomme celler plassert i tabellen.
Ikke å ha blanks i en datatabell er en god praksis når det gjelder datastyring generelt og ikke bare når du søker etter duplikatdata. Excels andre dataredskaper - for eksempel sortering og filtrering - fungerer best når datatabellen er et sammenhengende utvalg av data.
Fjern Duplicate Data Records Eksempel
I bildet over inneholder datatabellen to identiske poster for A. Thompson og to delvis matchende poster for R. Holt - der alle feltene stemmer overens med studentenummeret.
Trinnene som er oppført nedenfor, beskriver hvordan du bruker Fjern duplikater dataverktøy til:
- Fjern den andre av to identiske poster for A. Thompson .
- Fjern den andre delvis matchende posten for R. Holt .
Åpner dialogboksen Fjern duplikater
- Klikk på en hvilken som helst celle som inneholder data i prøvedatabasen.
- Klikk på Data fane på båndet.
- Klikk på Fjern duplikater ikonet for å markere alle dataene i datatabellen og for å åpne Fjern duplikater dialogboks.
- De Fjern duplikater dialogboksen viser alle kolonneoverskriftene eller feltnavnene fra vår datasample
- Merkene ved siden av feltnavnene angir hvilke kolonner Excel som skal forsøke å matche når du søker etter dupliserte poster
- Som standard, når dialogboksen åpnes, blir alle feltnavnene merket av
Finne identiske poster
- Siden vi søker etter helt identiske poster i dette eksemplet, vil vi la alle kolonneoverskriftene bli sjekket
- Klikk OK
På dette tidspunktet bør følgende resultater bli sett:
- Dialogboksen bør lukkes og bli erstattet av en melding som sier: 1 dupliserte verdier funnet og fjernet; 7 unike verdier forblir.
- Raden inneholder duplikatet A. Thompson posten har blitt fjernet fra databasen
- Selv om det er to delvis matchende poster for R. Hol t, fordi ikke alle feltene stemmer overens - studentenummeret for de to postene er forskjellig - Excel anser det for å være en unik datapost
Finn og fjern delvis matchende poster med fjern duplikater
Kontrollerer ett felt om gangen
Siden Excel bare fjerner dataposter som akkurat samsvarer med de valgte datafeltene, er den beste måten å finne alle delvis matchende dataposter, å fjerne merket for bare ett felt om gangen, slik det gjøres i trinnene nedenfor.
Etterfølgende søk etter poster som samsvarer med alle felt unntatt navn, alder eller program fjerner alle mulige kombinasjoner for delvis matchende poster.
Finne delvis matchende poster
- Klikk på en hvilken som helst celle som inneholder data i datatabellen om nødvendig
- Klikk på Data fane på båndet.
- Klikk på Fjern duplikater ikonet for å markere alle dataene i datatabellen og for å åpne Fjern duplikater dialogboks.
- Alle feltnavn eller kolonneoverskrifter for datatabellen er valgt.
- For å finne og fjerne poster som ikke har en kamp i alle felt, fjern merket fra foruten de feltnavnene som Excel skal ignorere.
- For dette eksemplet, klikk på avmerkingsboksen ved siden av Student ID kolonneoverskrift for å fjerne merket.
- Excel vil nå bare søke og fjerne poster som har matchende data i Etternavn , Første , og Program Enger.
- Klikk OK
- Dialogboksen bør lukkes og bli erstattet av en melding som sier: 1 dupliserte verdier funnet og fjernet; 6 unike verdier forblir.
- Raden inneholder den andre posten for R. Holt med Student ID av ST348-252 vil ha blitt fjernet fra databasen.
- Klikk OK for å lukke meldingsboksen
På dette tidspunktet bør eksempeldatatabellen være fri for alle dupliserte data.