Bienvenue sur Scribd !

Ignorer le carrousel

Aadhar Analysis

Transféré par

premmba2010

0% ont trouvé ce document utile (0 vote)

39 vues2 pages

Aadhar analysis using Scala

Copyright

Formats disponibles

ODT, PDF, TXT ou lisez en ligne sur Scribd

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Signaler ce document

Aadhar analysis using Scala

Droits d'auteur :

Formats disponibles

Téléchargez comme ODT, PDF, TXT ou lisez en ligne sur Scribd

Signaler comme contenu inapproprié

0% ont trouvé ce document utile (0 vote)

39 vues2 pages

Aadhar Analysis

Transféré par

premmba2010

Aadhar analysis using Scala

Droits d'auteur :

Formats disponibles

Téléchargez comme ODT, PDF, TXT ou lisez en ligne sur Scribd

Signaler comme contenu inapproprié

Passer à la page

Vous êtes sur la page 1sur 2

Rechercher à l'intérieur du document

Language Used: Scala

Checkpoint 1

>>> val df =
spark.read.option("inferSchema","true").csv("aadhaar_data.csv").toDF("date",
"registrar", "private_agency", "state", "district", "sub_district", "pincode",
"gender", "age", "aadhaar_generated", "rejected", "mobile_number", "email_id")

>>> df.registerTempTable("data")

1. View/result of the top 25 rows from each individual store.

>>> spark.sqlContext.sql("select * from (select *,row_number() over (partition

by private_agency order by private_agency desc) as Row_Num from data) as b where
b.Row_Num<=25").show(100)

Checkpoint 2

1. Describe the schema

>>>df.printSchema()

2. Find the count and names of registrars in the table.

>>> df.select("registrar").distinct().show()
>>> df.select("registrar").distinct().count()

3. Find the number of states, districts in each state and sub-districts in each
district.

>>> df.select("state").distinct().count()
>>> spark.sqlContext.sql("SELECT state, COUNT(district) AS district_count
FROM data GROUP BY state ORDER BY COUNT(district) DESC").show()
>>> spark.sqlContext.sql("SELECT district, COUNT(sub_district) AS
sub_district_count FROM data GROUP BY district ORDER BY
COUNT(sub_district) DESC").show()

4. Find out the names of private agencies for each state.

>>>spark.sqlContext.sql("SELECT state, private_agency FROM data GROUP BY state,

private_agency ORDER BY state").show(2000,false)

Checkpoint3

1. Find top 3 states generating most number of Aadhaar cards?

>>> spark.sqlContext.sql("SELECT state, SUM(aadhaar_generated) AS

aadhaar_count FROM data GROUP BY state ORDER BY aadhaar_count DESC LIMIT
3").show()

2. Find top 3 districts where enrolment numbers are maximum?

>>>val generated=df.groupBy("district").sum("aadhaar_generated")
>>>val rejected=df.groupBy("district").sum("rejected")
>>>val concat= generated.withColumn("id",
monotonically_increasing_id()).join(rejected.withColumn("id",monotonically_incre
asing_id()), Seq("id")).drop("id")
>>>val final_op = concat.withColumn("no_of_enrolments, $"sum(aadhaar_generated)"
+ $"sum(rejected)")
>>>println("top 3 districts where enrolment numbers are maximum along with the
number of enrolments")
>>>final_op.show(3,false)

3. Find the no. of Aadhaar cards generated in each state?

>>>spark.sqlContext.sql("SELECT state, SUM(aadhaar_generated) AS

aadhaar_count FROM data GROUP BY state").show()

Checkpoint 4:

1. Find the number of unique pincodes in the data?

>>>df.select("pincode").distinct.show()

2. Find the number of Aadhaar registrations rejected in Uttar Pradesh and

Maharashtra?

>>>spark.sqlContext.sql("SELECT state, SUM(rejected) AS rejected_count FROM data

GROUP BY state having (state='Uttar Pradesh' OR state='Maharashtra')").show()

Checkpoint 5

1. Find the top 3 states where the percentage of Aadhaar cards being
generated for males is the highest.

>>> spark.sqlContext.sql("select p1.state, (male*100/total) as male_percentage

from (select state, sum(aadhaar_generated) as male from data where gender='M'
group by state) p1 join (select state, sum(aadhaar_generated) total from data
group by state) p2 on p1.state=p2.state order by male_percentage desc").show(3)

Vous aimerez peut-être aussi

Digital Assignment-6: Read The Data
Document30 pages
Digital Assignment-6: Read The Data
Pavan Karthikeya
Pas encore d'évaluation
Dropdownlist PDF
Document68 pages
Dropdownlist PDF
Percy Blanco
Pas encore d'évaluation
Programming Lab11
Document15 pages
Programming Lab11
Ritesh Gupta
Pas encore d'évaluation
Option Explicit
Document25 pages
Option Explicit
Subhendu Sinha Chaudhuri
Pas encore d'évaluation
FF FFFFFFFF FFFFFFFF
Document2 pages
FF FFFFFFFF FFFFFFFF
Earl john Delos santos
Pas encore d'évaluation
MONGO DB QUERIES
Document5 pages
MONGO DB QUERIES
prasaddurga2031
Pas encore d'évaluation
C# Code for GridView Selection and Display
Document8 pages
C# Code for GridView Selection and Display
charisma7
Pas encore d'évaluation
10-Visualization of Streaming Data and Class R Code-10!03!2023
Document19 pages
10-Visualization of Streaming Data and Class R Code-10!03!2023
G Krishna Vamsi
Pas encore d'évaluation
BlazeMeter Test Data Fundamentals Synthetic Examples
Document8 pages
BlazeMeter Test Data Fundamentals Synthetic Examples
CJ Ho
Pas encore d'évaluation
Harsh Project
Document5 pages
Harsh Project
Harsh Prakash
Pas encore d'évaluation
Association R: Appendix
Document5 pages
Association R: Appendix
El
Pas encore d'évaluation
Create Database Create Varchar Varchar Create Varchar Varchar
Document70 pages
Create Database Create Varchar Varchar Create Varchar Varchar
Vishwank Singh
Pas encore d'évaluation
Alumni Management
Document10 pages
Alumni Management
snehagupta5805156
Pas encore d'évaluation
SOQL Queries
Document18 pages
SOQL Queries
aniket som
100% (1)
VBA
Document8 pages
VBA
Gunma Akagi
100% (1)
Generate secure passwords
Document22 pages
Generate secure passwords
DKM
Pas encore d'évaluation
Database and Table Creation 2
Document18 pages
Database and Table Creation 2
Hitanshu Kapoor
Pas encore d'évaluation
Create Table Command
Document10 pages
Create Table Command
vikashisur
Pas encore d'évaluation
Excel Kod Sayfasi
Document1 617 pages
Excel Kod Sayfasi
FatihUyak
0% (1)
Analyze SQL performance and indexes
Document11 pages
Analyze SQL performance and indexes
Sangeeth Talluri
Pas encore d'évaluation
Alumni Project Management System
Document10 pages
Alumni Project Management System
Deepu Kumari
Pas encore d'évaluation
OBAKUNLE KEHINDE OLUSEYE 205532 Practical
Document16 pages
OBAKUNLE KEHINDE OLUSEYE 205532 Practical
Daliseiy
Pas encore d'évaluation
Project File
Document19 pages
Project File
Ayyub Moideen
100% (1)
The Psuedo Code For Inserting The Item Is:: Onlline Shopping
Document16 pages
The Psuedo Code For Inserting The Item Is:: Onlline Shopping
api-3734530
Pas encore d'évaluation
FULLY AUTOMATED DATA ENTRY CODES (Module1)
Document10 pages
FULLY AUTOMATED DATA ENTRY CODES (Module1)
Papa Vaughn
Pas encore d'évaluation
DBMS PIC TYpe
Document73 pages
DBMS PIC TYpe
Anand
Pas encore d'évaluation
Source Code PDF
Document14 pages
Source Code PDF
faisal Shamim
Pas encore d'évaluation
Stud MGMT System
Document16 pages
Stud MGMT System
Fenil Desai
Pas encore d'évaluation
Generate ETH deposit address and update user stats
Document6 pages
Generate ETH deposit address and update user stats
Sree Prosanto
Pas encore d'évaluation
DF PD - Read - Excel ('Sample - Superstore - XLS') : Anjaliassignmnet - Ipy NB
Document23 pages
DF PD - Read - Excel ('Sample - Superstore - XLS') : Anjaliassignmnet - Ipy NB
sumaira khan
Pas encore d'évaluation
PGDM 2019-21 Assignment
Document38 pages
PGDM 2019-21 Assignment
aman
Pas encore d'évaluation
Spark and Scala 2
Document11 pages
Spark and Scala 2
vinodnerella
Pas encore d'évaluation
Disclaimer
Document2 pages
Disclaimer
blacky0101
Pas encore d'évaluation
Finals Questions CS 4
Document5 pages
Finals Questions CS 4
Michael Walters
Pas encore d'évaluation
Java 8 Lambda Expressions & Streams Cheatsheet
Document4 pages
Java 8 Lambda Expressions & Streams Cheatsheet
bas_ordina
Pas encore d'évaluation
Callable Statement
Document206 pages
Callable Statement
nagarajuvcc123
Pas encore d'évaluation
12
Document3 pages
12
Sree Prosanto
Pas encore d'évaluation
HHG
Document13 pages
HHG
Aman Joshi
Pas encore d'évaluation
Analyzing SQL Statements Causing Shared Pool Memory Issues
Document3 pages
Analyzing SQL Statements Causing Shared Pool Memory Issues
Rajesh Vishwakarma
Pas encore d'évaluation
Codes
Document18 pages
Codes
Ahmed ElShanawany
Pas encore d'évaluation
A2 Pract2
Document4 pages
A2 Pract2
rajababu00903
Pas encore d'évaluation
The Codex
Document14 pages
The Codex
DOMALANTA, JOHN REI L.
Pas encore d'évaluation
Dev Express ShowSelect ShowEdit Project
Document6 pages
Dev Express ShowSelect ShowEdit Project
Ivan Avellaneda
Pas encore d'évaluation
EW VBscript Rev01
Document10 pages
EW VBscript Rev01
Muhammad Fahmmi Bin Mahmud
Pas encore d'évaluation
Ajax
Document27 pages
Ajax
Ashadur Rahaman
Pas encore d'évaluation
PHP Ajax Insert Data MySQL Database
Document27 pages
PHP Ajax Insert Data MySQL Database
Ashadur Rahaman
Pas encore d'évaluation
About Python
Document18 pages
About Python
vishalchouhan012ka4
Pas encore d'évaluation
Import Excel Data and Validate Schema
Document20 pages
Import Excel Data and Validate Schema
bhushtechidiot
Pas encore d'évaluation
ANZ Virtual Internship Module Model Answer For Task 1
Document7 pages
ANZ Virtual Internship Module Model Answer For Task 1
Lily Wang
Pas encore d'évaluation
Untitled
Document9 pages
Untitled
Muhammad hadi zakariya
Pas encore d'évaluation
SOSL Queries
Document4 pages
SOSL Queries
aniket som
Pas encore d'évaluation
R Lab Program
Document21 pages
R Lab Program
Sachin Shimogha
Pas encore d'évaluation
SQC 4
Document3 pages
SQC 4
ISHAAN GARG
Pas encore d'évaluation
Data Definition Language
Document25 pages
Data Definition Language
tran nguyen
Pas encore d'évaluation
Data Source 192.168.0.109 Initial Catalog Chitra Persist Security Info True User ID Sa Password T102t2a1l
Document11 pages
Data Source 192.168.0.109 Initial Catalog Chitra Persist Security Info True User ID Sa Password T102t2a1l
Ravi Kumar
Pas encore d'évaluation
Cleaning Function in SQL
Document4 pages
Cleaning Function in SQL
hồ tê
Pas encore d'évaluation
Real Estate
Document10 pages
Real Estate
Muskaan
Pas encore d'évaluation
Try Dim As String
Document2 pages
Try Dim As String
Jean Pierre Salgado
Pas encore d'évaluation
Technical Interview Questions Technical Interview Questions
Document13 pages
Technical Interview Questions Technical Interview Questions
schultz jr
Pas encore d'évaluation
The Essential R Reference
D'Everand
The Essential R Reference
Mark Gardener
Pas encore d'évaluation
INFS1602 Testbank Chapter 5 (Part 1)
Document14 pages
INFS1602 Testbank Chapter 5 (Part 1)
Mardhiah Ramlan
Pas encore d'évaluation
MongoDB Case Study 1
Document6 pages
MongoDB Case Study 1
asdfasdf
Pas encore d'évaluation
DR Edgar F Codd
Document2 pages
DR Edgar F Codd
hrthrthtr
Pas encore d'évaluation
Oracle Supple Logging
Document16 pages
Oracle Supple Logging
abilash0011253
Pas encore d'évaluation
Full Download Ebook Ebook PDF Oracle 12c SQL 3rd Edition by Joan Casteel PDF
Document41 pages
Full Download Ebook Ebook PDF Oracle 12c SQL 3rd Edition by Joan Casteel PDF
daniel.morones654
100% (35)
SQL Comprobem
Document4 pages
SQL Comprobem
augustosoaresw
Pas encore d'évaluation
Jpa JPQL
Document6 pages
Jpa JPQL
Jean Paul Kenfack
Pas encore d'évaluation
SOMYA-XII A-60-CS PRACTICALS (Final)
Document46 pages
SOMYA-XII A-60-CS PRACTICALS (Final)
Somya Pachauri
Pas encore d'évaluation
Complete Guide For SQL Database Audit
Document13 pages
Complete Guide For SQL Database Audit
Sqlperfomance
Pas encore d'évaluation
MySQL Python Tutorial
Document30 pages
MySQL Python Tutorial
frantzyt001
Pas encore d'évaluation
BackUp and Recovery
Document16 pages
BackUp and Recovery
Nathnael Mesfin
Pas encore d'évaluation
SQL Quiz
Document3 pages
SQL Quiz
Ram Krishna
Pas encore d'évaluation
Dbms Exp 1
Document3 pages
Dbms Exp 1
krishna
Pas encore d'évaluation
Internship Test - Endava Datamanagement Discipline
Document4 pages
Internship Test - Endava Datamanagement Discipline
Ecaterina Ivavova
Pas encore d'évaluation
Chapter 2 Answer
Document5 pages
Chapter 2 Answer
Zom Bontot
100% (1)
Name: Vaishnavi Kailas Raut Seat No.: S190088621 Group B Assignment No: 1
Document42 pages
Name: Vaishnavi Kailas Raut Seat No.: S190088621 Group B Assignment No: 1
Vaishnavi
Pas encore d'évaluation
SQL Cheat Sheet
Document3 pages
SQL Cheat Sheet
Manuel Bradicic
Pas encore d'évaluation
DBMS LAB Reference Manual
Document105 pages
DBMS LAB Reference Manual
Sindhu P
Pas encore d'évaluation
Laporan 6 18.01.4133
Document6 pages
Laporan 6 18.01.4133
Novian Andika
Pas encore d'évaluation
SQL Interview Questions 2021
Document21 pages
SQL Interview Questions 2021
Muzharkhan Pattan
Pas encore d'évaluation
Oracle ch10
Document67 pages
Oracle ch10
Jenner Patrick Lopes Brasil
Pas encore d'évaluation
Lecture3 - Relational Data Model and Relational Constraints
Document33 pages
Lecture3 - Relational Data Model and Relational Constraints
Muhammad Arif Azim
Pas encore d'évaluation
Oracle Advanced Techniques
Document269 pages
Oracle Advanced Techniques
sbukka
100% (10)
Oracle Table Lock Modes
Document10 pages
Oracle Table Lock Modes
Franck Pachot
Pas encore d'évaluation
School Managment System
Document20 pages
School Managment System
Mohammad Arslan
Pas encore d'évaluation
Cs 371 Lecture 02
Document15 pages
Cs 371 Lecture 02
Alia Bashir
Pas encore d'évaluation
SQL 1
Document843 pages
SQL 1
JhonCastañeda
Pas encore d'évaluation
Add A Calculated Field To A Table
Document60 pages
Add A Calculated Field To A Table
Alage Teka
Pas encore d'évaluation
Variables and IP's in SAP HANA
Document13 pages
Variables and IP's in SAP HANA
Punith M P
Pas encore d'évaluation