ETL vs ELT?

ในช่วงระยะสองสามปีมานี้ คำว่า ELT เริ่มเป็นที่พูดถึงในวงการ data แทนคำว่า ETL ที่ใช้กันมานาน ครั้งแรกที่ผมได้ยินก็สงสัยเหมือนกันว่ามันดียังไง รู้แค่ว่า database หลายๆเจ้าอย่าง Redshift, BigQuery หรือ Snowflake ดูจะพร้อมหน้าพร้อมตาเชียร์กันมาก
Read more →

อนาคตของ Star schema

สาเหตุที่ผมตัดสินใจเขียน post นี้ขึ้นมานั้น เนื่องจากผมได้มีโอกาสอ่าน Fivetran’s post ซึ่งว่าด้วยเรื่องการทำ Star schema vs full denormalization จึงรู้สึกว่าการทำ star schema กับ modern data warehouse นั้นไม่จำเป็นเท่าไรแล้ว
Read more →

ก้าวต่อไปกับ Amazon Aurora

ย้อนกลับไปเมื่อปี 2007 Amazon ต้องการแก้ปัญหาในบริษัทที่มีปัญหากับ relational database แบบเดิมๆ เนื่องจากการ scale write ของ SQL ทำได้ลำบาก จึงเริ่มวิจัย data model แบบใหม่ที่สามารถแก้ปัญหาเรื่องนี้ได้ สิ่งที่ Amazon ค้นพบคือ:
Read more →

ก้าวต่อไปกับ Google Spanner

หากจะกล่าวว่า Google คืออันดับหนึ่งด้าน distributed system ก็คงเป็นคำกล่าวที่ไม่ได้เกินจริง เพราะด้วยตัวธุรกิจของ Google ที่ต้อง scale ได้ตั้งแต่วันแรก ประกอบกับผลงานที่ผ่านมาของ Google ทั้งในแวดวง academia และ cloud
Read more →

Bastion jumping on aws

In the production environment, database security should always be the top priority. Deploying any database on a public subnet is totally insecured and could be attacked by the hackers.
Read more →

มีอะไรใหม่ใน Spark 2.X+

Read more →

Isolation level

Isolation level มีเพื่อจัดการ 3 ปัญหาของ race conditions ของ I ใน ACID โดยสามารถตั้งค่าเพื่อให้เหมาะสมกับการใช้งานของเรา
Read more →

PACELC theorem

PACELC theorem is the theory purposing the importance of latency and consistency in the distributed systems when they are in the absence of network partitions.
Read more →

เมื่อ Map reduce ไม่สนุกเท่า Hive และ Presto

จากความพยายามที่ต้องการทำให้ MapReduce ใช้งานง่ายขึ้น จึงมีการนำภาษาอื่นที่ไม่ใช่การเขียน Java เข้ามาแทน ไม่ว่าจะเป็นการคิดPig เป็นต้น แต่หนึ่งในวิธีที่ได้รับการต้อนรับที่ดีกว่าวิธีอื่นคือการใช้ SQL - ภาษาที่มีการวิจัยมายาวนานกว่า 40 ปีครับ
Read more →

I just found the greatest analogy of rdbms locks

I had looked for a great analogy of an exclusive lock and a shared lock for a long time and today I just found this impressive analogy on the Stackoverflow answered by ArjunShankar !
Read more →

Lambda และ Kappa architecture

Nathan Marz ได้เขียนบทความอธิบายเกี่ยวกับ Lambda architecture ไว้อย่างละเอียดยิบ ในบทนี้ผมขอสรุปเท่าที่ผมเข้าใจละกันครับ
Read more →

Restful API + ML model with fargate

Read more →

สรุป SSTable & B-tree index

SSTable vs B-Tree
Read more →

Cassandra in a nutshell

ย้อนกลับไปเมื่อปี 2007 Amazon ต้องการแก้ปัญหา relational database ของตัวเองที่ไม่สามารถ scale ได้ดั่งใจอยาก ทีมงานของ Amazon จึงตัดสินใจคิดค้น database ใหม่ที่ไม่ใช้ consistency ของ SQL แต่นำเสนอการใช้ eventual consistency เข้ามาแทน พร้อมยังเผยแพร่ Dynamo paper เพื่ออธิบายหลักคิดทั้งหมดของแนวคิดนี้อีกด้วย
Read more →

Good old days, Hadoop

Professors can’t start the big data class without introducing Hadoop, and that makes sense because all big data stories have the same origin; Google.
Read more →

HBase

HBase เป็น database ที่สร้างตาม BigTable paper ของ Google (ในความจริงแล้ว Google contribute และช่วย HBase engineers เยอะมาก) จึงไม่ต้องแปลกใจที่ในปัจจุบัน เราสามารถใช้ HBase API ในการทำงานร่วมกับ Google Cloud BigTable ได้สบายๆ
Read more →

sbt command cheat sheet

You can chain several commands together using space as the delimeter e.g.sbt clean reload compile run .
Read more →

Cronjob

A very useful website: https://crontab.guru
Read more →

Poke AWS in terminal

My terminal always automatically closes the session whenever I log in to the AWS EC2 instance and stay idle for a few minutes.
Read more →

How to calculate WCUs/RCUs in DynamoDB

DynamoDB is a managed NoSQL database. The main selling point is that developers won’t experience any operational overheads maintaining it.
Read more →