cv | Rishi Singhal

Basics

Name	Rishi Singhal
Label	Graduate Research Assistant
Email	rsingha4@ncsu.edu
Url	https://rishi2019194.github.io
Summary	Passionate researcher dedicated to advancing explainable and interpretable AI, with a primary research focus on the dynamics of memorization and generalization in deep neural networks across NLP and CV. Interested in methods to improve efficiency, robustness, safety, and privacy in neural networks.

Work

2024.05 - 2024.08
Machine Learning Intern

Fermilab

Worked on deploying and optimizing machine learning systems for neutrino experiments.
- Deployed Graph Neural Networks (NuGraph2/3) on Fermilab’s EAF using Nvidia Triton & Docker.
- Enabled real-time background filtering and semantic labeling for MicroBooNE.
- Integrated Python/C++ client with LarSoft for direct streaming, reducing memory overhead by 20%.
- Extended NuSonic Triton framework for scalability and maintainability.
- Contributed production-level code adopted in Fermilab’s official reconstruction pipeline.
2024.01 - Present
Graduate Research Assistant

Dr. Jung-Eun Kim Lab, North Carolina State University

Conducting research on memorization and generalization in deep neural networks, with a focus on transformer architectures.
- Discovered a novel role of LayerNorm in shaping memorization vs. generalization across Pre-LN and Post-LN models.
- Verified findings on both generative and classification tasks across NLP and CV.
- Showed that pruning only 0.1–0.2% of Post-LN parameters reduces memorization by ~70% without harming generalization.
- Demonstrated that early LayerNorms exert the strongest influence compared to later ones.
- Ongoing: Distinguishing memorization vs. generalization at the feature level and studying the impact of residual connections in large-scale LLMs (GPT, LLaMA).
2022.01 - 2023.04
Undergraduate Research Assistant

MIDAS Lab, IIIT Delhi

Conducted research on document coherence in NLP tasks.
- Investigated coherence as a core metric for evaluating text quality in summarization, translation, and QA.
- Applied Topological Data Analysis (TDA) on attention graphs of BERT, RoBERTa models.
- Developed lightweight MLP leveraging TDA features, outperforming transformer baselines by 5% on GCDC dataset.

Education

2025.01 - 2028.01

Raleigh, USA
PhD

North Carolina State University

Computer Science
2023.01 - 2025.01

Raleigh, USA
Masters

North Carolina State University

Computer Science
2019.01 - 2023.01

Delhi, India
BTech

Indraprastha Institute of Information Technology (IIIT) Delhi

Electronics and Communication Engineering

Publications

2025.01.01

Distinguishing between Memorization and Generalization at the Feature Level

Submitted to NeurIPS 2025
2025.01.01

Analysing impact of Layer Normalization on Memorization and Generalization

Submitted to NeurIPS 2025
2024.01.01

Beyond Words: A Topological Exploration of Coherence in Text Documents

ICLR 2024 (Tiny Papers Track)

Explores document coherence using topological methods.

Skills

	Programming & Tools
	Python
	C++
	SQL
	MATLAB
	PyTorch
	TensorFlow
	Keras
	Scikit-Learn
	Numpy
	Pandas
	SpaCy
	NLTK
	Nvidia-Triton
	MCP
	Docker
	Flask
	Postman
	Git

Projects

Exploring & Analyzing Internal Structure of Language Models to Mitigate Social Biases

Analyzed social biases in PLMs (BERT, RoBERTa), identifying their encoding in later layers and FFN, to inform pruning-based mitigation strategies.
- Bias analysis
- Model pruning
Few Informative Data Samples are Good Enough: Introducing Intelligent Data Pruning

Developed intelligent data pruning method for imbalanced datasets, outperforming SMOTE, Gaussian Copula, SDV, RRP.
- Data pruning
- Imbalanced learning

Basics

Work

Fermilab

Worked on deploying and optimizing machine learning systems for neutrino experiments.

Dr. Jung-Eun Kim Lab, North Carolina State University

Conducting research on memorization and generalization in deep neural networks, with a focus on transformer architectures.

MIDAS Lab, IIIT Delhi

Conducted research on document coherence in NLP tasks.

Education

North Carolina State University

Computer Science

North Carolina State University

Computer Science

Indraprastha Institute of Information Technology (IIIT) Delhi

Electronics and Communication Engineering

Publications

Submitted to NeurIPS 2025

Submitted to NeurIPS 2025

ICLR 2024 (Tiny Papers Track)

Explores document coherence using topological methods.

Skills

Projects

Analyzed social biases in PLMs (BERT, RoBERTa), identifying their encoding in later layers and FFN, to inform pruning-based mitigation strategies.

Developed intelligent data pruning method for imbalanced datasets, outperforming SMOTE, Gaussian Copula, SDV, RRP.