روش شناسی پیوند داده بر اساس الگوریتم احتمالاتی: یک مقاله مروری

نوع مقاله : مروری

نویسندگان

1 دانشجوی دکترای تخصصی اپیدمیولوژی، دانشکده پزشکی، دانشگاه علوم پزشکی زابل، زابل، ایران دانشجوی دکترای تخصصی اپیدمیولوژی، گروه اپیدمیولوژی، دانشکده بهداشت، دانشگاه علوم پزشکی تهران، تهران، ایران

2 دانشجوی دکترای تخصصی اپیدمیولوژی، دانشکده پزشکی، دانشگاه علوم پزشکی کردستان،سنندج، ایران دانشجوی دکترای تخصصی اپیدمیولوژی، گروه اپیدمیولوژی، دانشکده بهداشت، دانشگاه علوم پزشکی ایران، تهران، ایران

3 تحلیلگر سیستمهای کامپیوتری، مرکز تحقیقات سرطان دانشگاه علوم پزشکی تهران

4 دکتری تخصصی پژوهش، پژوهشکده علوم غدد درون ریز و متابولیسم، دانشگاه علوم پزشکی شهید بهشتی

5 دانشیار اپیدمیولوژی، گروه پزشکی اجتماعی، دانشکده پزشکی، دانشگاه علوم پزشکی شهید بهشتی

چکیده

امروزه با پیشرفت تکنولوژی و توسعه پژوهش در کشور، شاهد شکل گرفتن بانک های اطلاعاتی بزرگ و ارزشمند هستیم. لازمه ردیابی اطلاعاتافراد در این مجموعه های گرانبها، بکارگیری روشهای جدید واکاوی داده های مرتبط می­باشد. با این روش­ها اطلاعات بسیار مفیدی را می­توان درباره تشخیص، سبب شناختی و پیش آگهی پیامدهای مختلف بدون انجام مطالعات پرهزینه فراهم کرد. گوناگونی در جمع­آوری و تعاریف فیلد های حاوی داده های سلامت در بانک­های اطلاعاتی مختلف، نیاز به آشنایی با روش شناسی پیوند داده ها را بیشتر میکند. هدف از این مقاله مروری، آشنایی با روش­شناسی پیوند داده ها براساس روش­های احتمالاتی می­باشد. تعریف پیوند داده در دو روش قطعی و احتمالاتی ارائه خواهد شود و در ادامه مبانی روش شناختی پیوند داده احتمالاتی مانند ارزیابی کیفیت داده ها، ارزیابی همسان بودن رکوردها و محاسبه وزن همسان بودن رکوردها از دو بانک اطلاعاتی به همراه تعیین سطح تصمیم گیری برای همسان بودن آنها بحث خواهد شد. در قالب یک مثال عملی روش­شناسی پیوند داده احتمالاتی با استفاده از داده های بانک اطلاعات ثبت سرطان و مرگ و میر نشان خواهد داده شد.

کلیدواژه‌ها


عنوان مقاله [English]

Probabilistic record linkage methodology: a review article

نویسندگان [English]

  • Erfan Ayyobi 1
  • Kamyar Mansouri 2
  • Mohammad Golmahi 3
  • Ozra Ramezan khani 4
  • Alireza Mosavi Jarrahi 5
چکیده [English]

Research development and information technology progress lead to generate big dataset with valuable information. In health research, with tracing people from different dataset like registries can provide valuable information about prognosis, prediction, discrimination, detection or etiology for many outcomes without establishing costly studies. Extracting the knowledge from this potential information is applied using advanced methods such as data linkage or record linkage with deterministic or probabilistic algorithm. However, probabilistic linkage is computationally complex and not well understood by many researchers who may wish to apply it in their work. Therefore, the purposes of this review article is to introduce probabilistic record linkage methodology such as quality and standardization of dataset, determining the matching records from different dataset, calculating the matching weights and discrimination matched from unmatched record using a cut point. In follow, with a practical example the probabilistic record linkage methodology is introduced by cancer registry and mortality dataset.

کلیدواژه‌ها [English]

  • Data linkage
  • Probabilistic Algorithm
  • Cancer registry
  • Mortality

 

 

 


روش شناسی پیوند دادهبر اساس الگوریتم احتمالاتی: یک مقاله مروری

 

عرفان ایوبی1، کامیار منصوری2، محمد گل ماهی3، عذرا رمضانخانی4، علیرضا موسوی جراحی5 *

1 دانشجوی دکتری تخصصی اپیدمیولوژی، گروه اپیدمیولوژی و آمار زیستی، دانشکده بهداشت، دانشگاه علوم پزشکی تهران، تهران، ایران

2 دانشجوی دکتری تخصصی اپیدمیولوژی، گروه اپیدمیولوژی و آمار زیستی، دانشکده بهداشت، دانشگاه علوم پزشکی ایران، تهران، ایران

3 تحلیلگر سیستمهای کامپیوتری، مرکز تحقیقات سرطان دانشگاه علوم پزشکی تهران، تهران، ایران

4 دکتری تخصصی پژوهش، پژوهشکده علوم غدد درون ریز و متابولیسم، دانشگاه علوم پزشکی شهید بهشتی، تهران، ایران

5 دانشیار اپیدمیولوژی، گروه پزشکی اجتماعی، دانشکده پزشکی، دانشگاه علوم پزشکی شهید بهشتی، تهران، ایران

 

*نشانی نویسنده مسؤول: تهران، دانشگاه علوم پزشکی سهید بهشتی، دانشکده پزشکی، گروه پزشکی اجتماعی، دکتر علیرضا موسوی جراحی

E-mail: rmosavi@yahoo.com

 

وصول:6/6/94، اصلاح:12/8/94، پذیرش:27/9/94

چکیده

امروزه با پیشرفت تکنولوژی و توسعه پژوهش در کشور، شاهد شکل گرفتن بانک های اطلاعاتی بزرگ و ارزشمند هستیم. لازمه ردیابی اطلاعاتافراد در این مجموعه های گرانبها، بکارگیری روشهای جدید واکاوی داده های مرتبط می­باشد. با این روش­ها اطلاعات بسیار مفیدی را می­توان درباره تشخیص، سبب شناختی و پیش آگهی پیامدهای مختلف بدون انجام مطالعات پرهزینه فراهم کرد. گوناگونی در جمع­آوری و تعاریف فیلد های حاوی داده های سلامت در بانک­های اطلاعاتی مختلف، نیاز به آشنایی با روش شناسی پیوند داده ها را بیشتر میکند. هدف از این مقاله مروری، آشنایی با روش­شناسی پیوند داده ها براساس روش­های احتمالاتی می­باشد. تعریف پیوند داده در دو روش قطعی و احتمالاتی ارائه خواهد شود و در ادامه مبانی روش شناختی پیوند داده احتمالاتی مانند ارزیابی کیفیت داده ها، ارزیابی همسان بودن رکوردها و محاسبه وزن همسان بودن رکوردها از دو بانک اطلاعاتی به همراه تعیین سطح تصمیم گیری برای همسان بودن آنها بحث خواهد شد. در قالب یک مثال عملی روش­شناسی پیوند داده احتمالاتی با استفاده از داده های بانک اطلاعات ثبت سرطان و مرگ و میر نشان خواهد داده شد.

واژه­های کلیدی: پیوند داده، رویکرد احتمالاتی، ثبت سرطان، ثبت مرگ.

 


مقدمه

1-1. سابقه متون

پیوند رکوردها یا ارتباط داده‌ها اولین بار توسط نیوکامب و همکاران (1)  به‌عنوان یک مسئله‌ی آماری و برای ردیابی بیماری‌های ارثی مورد استفاده قرار گرفت. امروزه ارتباط الکترونیکی داده‌ها به‌طور وسیعی به‌وسیله محققین و دست‌اندرکاران بهداشتی مورد استفاده قرار می‌گیرد. از مهم‌ترین دلایل گسترش چشمگیر کاربردهای پیوند رکوردها در حوزه سلامت، یکی شکل‌گیری فایل‌های بزرگی است که لازم است در طول زمان به‌روز شوند و دیگری پیشرفتی است که در تجهیزات رایانه‌ای ثبت، نگهداری و انتقال داده‌ها حاصل گردیده است. در اپیدمیولوژی به فراوانی از علم پیوند داده‌ها استفاده شده که مهم‌ترین مورد آن ایجاد ارتباط بین یک پیامد خاص (مثلاً مرگ در اثر یک علت خاص) با یک عام مواجه می‌باشد. به‌طور مثال با وجود بانک داده ثبت بیماران سرطانی و بانک داده مرگ‌ومیر می‌توان با کمک پیوند داده میزان بقاء بیماران مبتلا به یک سرطان خاص را در شرایط ایده آل محاسبه کنیم.  در ادامه به چند نمونه از این کاربردها اشاره می‌شود :

            در مطالعه‌ای در هلند به‌منظور بررسی تأثیر غربالگری سرطان پستان، داده‌های مربوط به 90000 خانم 69-49 ساله که در برنامه غربالگری سال‌های 1995 -1990 شرکت کرده بودند، با داده‌های ثبت سرطان سال‌های 96 -1986 این کشور، با روش ارتباط داده‌ها مرتبط شدند (2).

            در مطالعه‌ای با استفاده از ارتباط داده با روش احتمالاتی، احتمال بروز سرطان پستان بعد از بیماری‌های خوش‌خیم مورد بررسی قرار گرفت. در این مطالعه داده‌های کوهورت بیماران مبتلا به ضایعات خوش‌خیم با داده‌های سیستم ثبت سرطان پیوند داده شد و بدین ترتیب پتانسیل بدخیمی ضایعات خوش‌خیم و مدت‌زمانی که برای بدخیم شدن این ضایعات لازم بود، تعیین گردید (3).

            در مطالعه دیگری رابطه بین مصرف هورمون‌های جایگزین در یائسگی و بروز سرطان پستان با استفاده از روش ارتباط داده‌ها موردبررسی قرار گرفت. در این مطالعه زنانی که طبق سیستم ثبت تجویز داروها، بین سال‌های 87-1976 هورمون‌های مذکور را مصرف کرده بودند با داده‌های سیستم ثبت سرطان سال‌های 90-1960 پیوند داده شدند (4).

2-1. مفاهیم اولیه

            اطلاعات توصیف‌کننده هر واحد جامعه مانند افراد، مکان‌ها، اتفاقات و ...، رکورد (record) نامیده می‌شود. هر رکورد شامل اطلاعات جزیی­تری بنام فیلد (field) می‌باشد. به‌عنوان مثال، مجموعه‌ی اطلاعات شناساگر فردی شامل فیلدهای نام، نام خانوادگی، آدرس و ... می‌تواند باشد. مجموعه رکوردهای افراد یک جامعه، یک فایل (file) را تشکیل می‌دهند. به مجموعه چندین فایل، بانک داده (dataset) گفته می‌شود. هنگامی‌که داده‌های موضوعی (داده‌هایی که یک صفت خاص را برای یک فرد شامل می‌شود) برای یک فرد در چند مجموعه متفاوت داده یا فایل قرار دارند، یکپارچه ساختن اطلاعات پراکنده می‌تواند موجب جامعیت مطلب و بسیار سودمند باشد و چه‌بسا محدود کردن اطلاعات صرفاً به یکی از این مجموعه داده‌ها ممکن است موجب از دست دادن اطلاعات موجود در سایر مجموعه داده‌ها و ارائه گزارش ناقصی از موضوع شود. در این راستا لازم است رکوردهای یکسان در مجموعه داده‌های متفاوت یا رکوردهای تکراری در یک مجموعه داده، به نحوی شناسایی و فایلی حاوی اطلاعات کامل و غیرتکراری تهیه شود. شناسایی رکوردهای یکسان درون یک مجموعه داده (فایل) یا بین مجموعه داده‌های متفاوت، پیوند رکوردها (record linkage) یا ارتباط داده‌ها (data linkage) نامیده می‌شود.

            دو نوع کلی الگوریتم پیوند وجود دارد: قطعی(deterministic) و احتمالی (probabilistic). هر دو این روش‌ها به‌طور مناسبی در تحقیقات قبلی انجام شده است (5-15). اینکه کدام روش استفاده شود بستگی به فاکتورهای متعددی دارد که برخی از آن‌ها علمی و برخی دیگر ماهیت ذهنی دارند. در سناریوهای که اطلاعات فراوان وجود دارد و متغیرهای شناسگر از کیفیت خوبی برخوردار هستند روش قطعی پیشنهاد شده است  اما در حالت‌هایی که داده‌ها کیفیت مناسبی ندارند و یا در دسترس نیستند روش احتمالی در اولویت می‌باشد (16). اما نکته مهم هنر محقق است که از کدام روش استفاده کند برای مثال در هنگام مطالعه یک بیماری نادر استفاده از روش احتمالی حتی در مواقع که اطلاعات فراوان وجود دارد در اولویت است چراکه تلاش می‌شود که همه همسان‌ها شناسایی شوند و حجم نمونه حداکثر شود.

پیوند قطعی: الگوریتم قطعی بر این مبناست که آیا زوج مقایسه بر مینای یک مجموعه از متغیرهای شناساگر توافق دارند یا نه؟ به عبارتی این ارزیابی تابع قانون همه یا هیچ می‌باشد. یک زوج مقایسه به‌عنوان همسان طبقه‌بندی می‌شود که دو رکورد جزءبه‌جزء برای همه‌ی شناساگرها توافق داشته باشند و به همین ترتیب یک زوج مقایسه به‌عنوان غیرهمسان طبقه‌بندی می‌شود اگر روی همه متغیرهای شناساگر توافقی ایجاد نشود. (17,8).

            در این روش لازم است دوسری داده‌های ثبت شده در دو بانک اطلاعاتی در فیلدهای شناساگر (مثل نام یا تاریخ تولد) به‌طور دقیق و کامل همخوانی داشته باشند تا آن دو سری مشخصات به یک فرد منسوب شوند. در این روش هیچ‌گونه مؤلفه تصادفی در نظر گرفته نمی‌شود و ازاین‌رو به‌کارگیری آن با فرض عدم وجود خطا و پایداری در فیلدهای شناساگر می‌باشد. معمولاً خطاها و تغییرات مختلفی در فرایند تهیه و ذخیره‌سازی بانک‌های اطلاعاتی به وجود میاید که استفاده از روش قطعی را در ارتباط داده مخصوصاً در غیاب یک شناسه واحد (مثل کد ملی در ایران) غیرممکن و نا کارآ می­نماید. در روش قطعی حتی تغییرات خیلی کوچک در ویراستاری فیلد های شناساگر، مانع از شناسایی افراد مشابه در دو فایل میگردد. به عنوان مثال در مورد نام خانوادگی ممکن است دو اسم تفاوت هایی جزئی مثلاً در یک حرف داشته باشند، مانند نام­های "رسایی" و"رضایی" یا از اسامی کوتاه شده باشد مثل لیلی و لیلا که در روش قطعی موجب عدم ارتباط این دو فیلد می­گردد.

            بدین ترتیب بسیاری از یافته های مربوط به یک شخص که با اختلافات جزئی ثبت شده اند با این روش به هم مرتبط نشده و موجب تورش قابل توجه در پیوند داده ها می شود. این اختلافات جزئی در فیلد های شناساگر از تفاوت لهجه­های محلی در بیان اسامی، اشتباهات تصادفی در مرحله ورود داده و یا به صورتهای مختلف دیگر می­تواند اتفاق بیفتد. به عنوان مثال در جدول 1 در پیوند داده های منابع اطلاعاتی 1 و 2 که فیلدهای نام، نام خانوادگی و تاریخ تولد به عنوان متغیر شناساگر در نظر گرفته شده اند، در روش قطعی، به علت تفاوت های نگارشی، فقط فرد سوم را مرتبط با هم می شناسد. در صورتی که اطلاعات در دو منبع (بانک اطلاعاتی) متعلق به سه فرد مشخص می­باشد.

پیوند احتمالاتی: الگوریتم های احتمالی بر اساس میزان شباهت بین دو رکورد و با در نظر گرفتن مؤلفه ی خطا در ثبت و مقایسه ی رکوردها، در مورد انطباق یا عدم انطباق زوج رکوردها در سطح خاصی از اطمینان عمل می کنند. در این روش طیف متنوعی از ماهیت و کیفیت در داده ها در نظر گرفته می­شود تا از همسان بودن دو رکورد، علیرغم تفاوت در چند شناسه اطمینان حاصل گردد. ارتباط داده ها بر اساس احتمال نیاز به عملیات کامپیوتری پیچیده­تری نسبت به روش قطعی دارد و از مبانی علمی پیچیده­تری برخوردار بوده و استفاده بیشتری در بخش سلامت دارد. در ادامه در قسمت روش شناسی مفاهیم پایه پیوند احتمالاتی به همراه مثالی کاملاً فرضی از دو سری داده مربوط به سیستم ثبت سرطان و بانک داده مرگ و میر که در جدول 2 نشان داده شده، جهت تشریح مفاهیم ارتباط داده­ها با روش احتمالی توضیح داده می­شود.

2. پیوند احتمالاتی

1-2. مبانی نظری و راهکار های ارتباط داده ها براساس احتمال

            مبانی نظری ارتباط داده ها بر اساس احتمالات شامل شناخت سه پارامتر 1) کیفیت داده ها 2) شانس موافقت تصادفی و 3) تعداد موافقت صحیح مورد انتظار در دو سری داده است. بر اساس مقدار این پارامترها و با توجه به استراتژی انتخاب شده احتمال تطبیق و یا ارتباط دو رکورد مشخص می­گردد.

1-1-2. کیفیت داده­ها

            داده­ها با شکل، اندازه و کیفیت­های مختلف، سناریوهای مختلفی برای شکل­دهی الگوریتم­های پیوند ایجاد می­کنند. برای مثال اطلاعات دموگرافیک اغلب شامل خطاهای مربوط به واردکردن داده و خطاهای تایپوگرافیکال می­باشد. اطلاعات افراد در طول زمان تغییر می­کند برای مثال با ازدواج و یا تغییر محل سکونت، در برخی مواقع نیز افراد به غلط و تعمدی اطلاعات مربوط به خود را گزارش می کنند. در نهایت این ایدئوسنکرازی، پیوند داده را با مشکل همراه می سازد و نیاز است که قبل از پیوند داده، آنها تمیز و استاندارد شوند.

            دشوارترین و وقت گیرترین قسمت یک پروژه پیوند داده، پیش از آنکه به الگوریتم پیوند و امکانات رایانه­ای وابسته باشد، به کیفیت داده­ها وابسته است. این پارامتر نشان می­دهد که تا چه حد اطلاعات یک فیلد، دقیق و با ثبات بوده و اندازه­گیری­های صحیح را در یک فرد نشان می­دهند. خطاهای ورود اطلاعات، تعداد کم فیلدهای مشترک مورد مقایسه، اطلاعات از دست رفته و بی­دقتی­های عمدی و غیر عمدی در گردآوری اطلاعات، همگی بر دقت یافته­ها و کیفیت آنان اثر می­گذارند. پیوند رکوردهایی که اطلاعات آنها به زبان فارسی ثبت شده است به دلیل ویژگی های خاص نوشتارهای فارسی، عدم وجود استانداردی جهت ثبت اطلاعات و وجود داده های گم شده زیاد و عدم وجود تجربیات علمی، ارتباط داده ها را در زبان فارسی با مشکلات بیشتری مواجه ساخته است.

            علاوه بر کیفیت آیتم­های اطلاعاتی موجود در فیلدهای یک بانک اطلاعاتی، پایداری و ثبات داده­ها نیز مهم است. این موضوع اشاره به این دارد که تا چه حد یک آیتم اطلاعاتی در طول زمان یا در حین جمع­آوری از منابع مختلف ممکن است متفاوت باشد. برای مثال شماره تلفن یا آدرس محل زندگی که میتواند به سادگی برای افراد تغییر کند در مقابل آیتم­های اطلاعاتی مثل کد ملی یا جنسیت می­باشد که از جمله متغیرهایی با ثبات محسوب می­شوند.

            تکنیک­های مختلفی برای تمیز سازی داده ها معرفی شده است: برخی از آنها منجر به افزایش تعداد متغیر یا جدا کردن فیلد مورد نظر می­شود، برخی منجر به تبدیل متغیر به یک شکل خاص دیگر است که در اطلاعات واقعی تغییری ایجاد نمی­شود. تکنیک­های دیگری وجود دارند که هدف از آنها تغییر اطلاعات در فیلد مورد نظر مثلا با حذف ارزش­های نامعتبر، پر کردن ارزش­های گمشده است (18).

برخی از تکنیک­های تمیزسازی داده شامل موارد زیر است:

  • تغییر فرمت داده­ها
  • حذف نشانه گذاری­های غیرضروری
  • حذف ارزش­های گمشده و خالی از اطلاعات و پر کردن ارزش­های گمشده
  • تغییر شکل آوایی (phonetic encoding)
  • استانداردسازی نام خانوادگی و آدرس
  • تصحیح ناهمگنی­ها

            در علم ارتباط داده، کیفیت داده ها را با متغیر m و به­صورت کمی نشان می­دهند. m پارامتری است که نشان می­دهد اگر دو رکورد در دو بانک داده واقعاً متعلق به یک نفر باشد چقدر احتمال وجود دارد که آیتم­های اطلاعاتی هر فیلد مشابه باشند. مقدار m برای تمام داده های هر فیلد، ثابت است. مثلأ در مورد فیلد نام خانوادگی، 95/0 m= به این معنی است که احتمال اینکه نام خانوادگی ثبت شده در دو رکورد متعلق به یک نفر از دو منبع داده دقیقأ املای مشابه داشته باشند، 95/0 است و این احتمال برای همه نام های خانوادگی موجود مقدار ثابتی است. علاوه بر استفاده از روش­های آماری پیچیده برای برآورد مقدار m در فیلد های مختلف، معمولاً مقدار m بر اساس نظر افراد مجرب و آگاه تعیین می­شود که برحسب تجربه و به مرور زمان و کار روی پروژه های قبلی قابل برآورد میباشد. جدول 3 نمونه ای از احتمال m برای فیلد های نام ونام خانوادگی، تاریخ تولد، و نام مادر را که توسط آقای G A Mason در بانک داده انگلیسی گزارش شده نمایش می­دهد و در این مقاله جهت تشریح مفاهیم مورد استفاده قرار خواهد گرفت (19) لازم به ذکر است که احتمال m برای فیلد های مذکور در بانک های داده ایران با توجه به تفاوت و تنوع نگارشی زبان فارسی ممکن است کمتر و یا بیشتر باشد.

2-1-2. شانس موافقت تصادفی (randomly linked)  

            پارامتر دوم در ارتباط داده­ها با روش احتمالی، شانس موافقت تصادفی است که احتمال همسان بودن دو رکورد به صورت تصادفی در یک فیلد را نشان می­دهد. هرچه این احتمال بیشتر باشد شانس یک پیوند واقعی کمتر است. برای مثال اگر تمام افراد دو سری بانک داده، مؤنث باشند و متغیر شناساگر در ارتباط دو بانک داده متغیر جنسیت باشد، احتمال اینکه یک فرد از یک بانک داده با فرد دیگری از بانک داده دیگر به­صورت تصادفی  پیوند داده شود، 100 درصد می­باشد. در نتیجه این فیلد نمی­تواند کمکی در پیوند دو رکود همسان نماید و برای پیوند داده ها مناسب نیست. به دلیل اینکه در هر زوج تصادفی قطعأ یک تطبیق در آن فیلد وجود دارد، اساسأ متغیرهایی مثل جنسیت ارزش محدودی در پیوند داده ها دارند چون انتظار می­رود حتی در شرایطی که افراد در بانک داده از هر دو جنس باشند و ارتباط دو بانک داده بر اساس متغیر جنسیت باشد، در 50 درصد موارد توافق تصادفی حاصل گردد. در حالی­که متغیری مثل کد ملی، برای اینکار بسیار مناسب است زیرا انتظار یافتن یک همسان تصادفی برای آن وجود ندارد.

            احتمال همسان­های تصادفی با u نمایش داده می­شود. بر خلاف m که برای یک فیلد عددی ثابت محاسبه می­شود، یک فیلد می­تواند u های متعددی داشته باشد یا به عبارتی هر آیتم داده­ای در یک فیلد میتواند یک احتمال u داشته باشد. به عبارتی u نسبت داده­های با مقدار خاص بر اساس فراوانی مشاهده شده در منبع دقیق اولیه به کل مشاهدات می­باشد. مثلأ اگر در یک منبع اطلاعاتی با 000/300 نفر جمعیت ثبت شده، 30 نفر یک فامیل خاص (مثلا ایوبی)را داشته باشند، مقدار u برای آن فامیل خاص (ایوبی) برابر است با نسبت 30 به 300000  و یا 0001/0 می­باشد. انتظار است که برای فیلد تاریخ تولد، هر روز تولد (یک آیتم داده) برای یک سال دارای احتمال u برابر 1 روی 360 داشته باشد (با این فرض که توزیع تولد در روزهای مختلف سال یک نواخت باشد). به همین ترتیب آیتم­های داده­ای فیلدهای مختلف می­توانند u های جداگانه­ای داشته باشند. نمونه­ای از مقدار u محاسبه شده برای سه آیتم اطلاعاتی از فیلدهای نام، نام خانوادگی، تاریخ تولد، و نام مادر، محاسبه شده بر مبنای داده­های بانک مرگ و میر در تهران در جدول 4 نمایش داده شده است. (در ارتباط دو بانک اطلاعاتی مقدار u بر اساس بانک اطلاعاتی که دقیق­تر است و یا تعداد رکوردهای بیشتری دارد محاسبه می­گردد).

3-1-2. تعداد همسان های صحیح مورد انتظار

            عامل سوم که در پیوند احتمالی مؤثر است، تعداد همسان هایی است که انتظار می رود در دو بانک اطلاعاتی وجود داشته باشد. برای مثال در پیوند داده­های مربوط به گواهی ولادت از سال 2004 با اطلاعات نقایص مادرزادی ثبت شده از سال 1996، انتظار نداریم هیچ همسان صحیحی از دو سری اطلاعات به­دست آوریم. در پیوند احتمالی، تعداد همسان­های صحیح مورد انتظار با مقدار E نشان داده می­شود. به­عنوان مثال در یک شرایط فرضی که میزان بقا یک ساله برای بیماران مبتلا به سرطان معده به­طور متوسط 70 درصد باشد، انتظار می­رود که اگر در طول سال از 100 نفر بیمار 30 نفر فوت نمایند یا به عبارتی اطلاعات 30 درصد بیماران در بانک داده مرگ و میر موجود باشد (با فرض اینکه تمامی مرگ­ها ثبت می­شود) در این شرایط تعداد همسان­های مورد انتظار 30  مورد می­باشد (اگر کل بیماران در سال 100 نفر باشد).

2-2.استراتژی های پیوند داده احتمالاتی

            هنگامی که رکوردهای بانک اطلاعاتی یک منبع با رکوردهای منبع دیگری پیوند داده میشود، تعدادی از رکوردها به­عنوان همسان صحیح، تعدادی به­عنوان همسان غلط و تعدادی از رکوردها در وضعیتی قرار می­گیرند که همسانی و یا عدم همسانی آنها را نمی­توان با درجه اطمینان بالائی مشخص نمود. با توجه به پیچیدگی­های آماری و احتمالاتی که در پیوند داده­ها وجود دارد به منظور کاهش درصد همسان­های غلط و بالا بردن بهره­وری بایستی استراتژی و راهکار مناسبی انتخاب نمود. استراتژی و راهکار های ارتباط داده شامل سه مرحله متفاوت 1) بلوک بندی، 2) تعیین شاخص همسانی و موافقت بین رکوردها (وزن دهی) و 3) نحوه­ی تصمیم­گیری در مورد همسانی و موافقت رکوردها می­باشد.

1-2-2. تکنیک­های بلوک­بندی

            در هنگام ارتباط داده­ها از دو بانک اطلاعاتی روش معمول این است که هر رکوردی از یک بانک با کلیه رکوردهای بانک دیگر مقایسه گردد تا رکورد همسان انتخاب شود. این مسئله در عمل بسیار مشکل و در مجموعه اطلاعات بزرگ، غیر ممکن است. (تصور کنید که دو بانک اطلاعاتی هرکدام شامل 100000 رکورد باشد، در این صورت هر رکورد از بانک اول بایستی با همه رکوردهای بانک دوم مقایسه گردد، یعنی تعداد مقایسه­ها 10 بیلیون خواهد شد). به­منظور حل این مشکل در استراتژی ارتباط داده ها پیشنهاد می­شود که ابتدا رکوردها بر مبنای شاخص­هایی بلوک­بندی شده و سپس ارتباط یک جفت رکورد فقط در بلوک­های مرتبط که شامل تعداد کمتری از رکوردها می­باشد، بر قرار گردد. در حقیقت با این روش به جای بررسی کلیه رکوردها در هر دو منبع، مقایسه تنها به یک زیر مجموعه کوچک از رکوردها محدود می­شود و لذا حجم محاسباتی به میزان زیاد کاهش می­یابد.

            متغیرهایی که بلوک­بندی بر مبنای آنها انجام می­گردد، متغیرهای شناساگر (identifier variable) می­باشند. به­طور مثال اگر در ارتباط داده­های دو بانک اطلاعات ثبت سرطان و اطلاعات مرگ و میر، بلوک­بندی بر مبنای نام خانوادگی و به­صورت نزولی (از الف تا ی) انجام گردد، برای نام خانوادگی ایوبی مقایسه محدود به رکوردهایی می­شود که نام خانوادگی ایوبی دارند و به این ترتیب تعداد مقایسه­ها به میزان زیادی کاهش پیدا میکند. بایستی دقت نمود که بلوک کردن در عین اینکه تعداد مقایسات را کاهش می­دهد، در مواقعی که کیفیت داده­ها مناسب نیست، ممکن است شانس موافقت واقعی بین رکوردهای موافق را کاهش دهد، مخصوصاً زمانی که یک فیلد نامناسب برای بلوک­بندی انتخاب می­گردد (به­طور مثال اگر در جدول شماره 2 ، بلوک­بندی برمبنای " نام و یا نام خانوادگی صورت پذیرد شانس ارتباط و تطبیق بین رکورد شماره 765 از بانک داده ثبت سرطان و رکورد شماره 78659 از بانک اطلاعات مرگ و میر وجود خواهد داشت ولی اگر تاریخ تولد مبنای بلوک­بندی قرار گیرد شانس همسانی این دو رکورد از بین می­رود زیرا روز تولد در دو بانک اطلاعاتی عدم همخوانی دارند، لذا شانس همسانی دو رکورد از بین می­رود.

            استراتژی بلوک­بندی اگر با دقت و به­طور مناسب انجام نگیرد ممکن است تعداد همسان­های احتمالی را بسیار کاهش دهد. بلوک کردن می­تواند بر مبنای یک فیلد و یا مجموعه­ای از فیلدها صورت پذیرد. بایستی دقت شود که با افزایش فیلدهای بلوک شده می­توان تعداد همسان­های احتمالی را کاهش داد. در مجموع فیلدهای کاندید بلوک شدن فیلدهای شناساگری هستند که می­بایست از کیفیت بالایی برخوردار باشند. بلوک کردن باید بر اساس ظرفیت سخت­افزار و نرم­افزار، نوع و کیفیت داده­ها انجام گردد. در نهایت در مورد روش­های بلوک­بندی باید اشاره کرد که توسعه و گسترش قدرت برنامه­های کامپیوتری، machine learning، داده کاوی  مطالعات آماری بدون شک عملکرد صحت داده کاوی را بهبود بخشیده و در یافتن روش­های بلوک­بندی موثر و کارا کمک­کننده خواهد بود. از جمله روش­های جدید بلوک­بندی که معرفی شده­اند می­توان به clustering algorithm-high dimensional indexing-stored neighborhood اشاره کرد (20).

2-2-2. تعیین شاخص همسانی و موافقت بین رکوردها (محاسبه وزن)

            شانس همسانی و یا موافقت رکوردها بستگی مستقیم به تعداد فیلدهای همسان و غیر همسان در دو رکورد دارد. این شانس وقتی بالاست که تعداد فیلدهای همسان در دو رکورد بالا باشد. با توجه به اینکه در تطبیق بین رکوردها لزوماً تمامی فیلد ها همسان نیستند درجه تطبیق هم به فیلدهای همسان و هم غیر همسان بستگی دارد. برای اندازه­گیری درجه تطبیق به شاخصی نیاز می­باشد که بر مبنای آن قادر باشیم قدرت تطبیق بین دو رکورد را ارزیابی کنیم. بر این مبنا درجه تطبیق بین فیلدهای مشابه را با استفاده از احتمال m و u  محاسبه میکنیم. در واژه­شناسی ارتباط داده، شاخص تطبیق، وزن نامیده می­شود که با حرف w نمایش داده می­شود. فرمول شماره 1 برای محاسبه وزن یک فیلد در دو رکورد همسان و فرمول شماره 2 برای محاسبه فیلدهای غیرهمسان استفاده می­شود. (دقت شود که همسان بودن و نبودن فیلدها در اینجا مبنای عینی دارد).

فرمول شماره 1 (وزن برای فیلد های همسان) پایه i  نشانگر یک فیلد میباشد

 

فرمول شماره 2 (وزن برای فیلد های غیر همسان )

)

            به­طور مثال در جدول شماره 2 اگر رکورد شماره 678 از بانک ثبت سرطان و رکورد 98764 از بانک مرگ و میر را به عنوان دو رکورد همسان در نظر بگیریم با توجه به احتمال m برای فیلد فامیل (95/0) و احتمال u برای فامیل "شکوفه" برابر 00012/0 می­باشد، وزن محاسبه شده برای فیلد همسان فامیل برابر 9/8 محاسبه میشود. برای این دو رکورد فیلد تاریخ تولد در دو رکورد همسان نیستند و برای محاسبه وزن این فیلد از فرمول شماره 2 استفاده می­کنیم. با توجه به اینکه احتمال m برای فیلد تاریخ تولد برابر است با 98/0 و احتمال u برای تاریخ تولد "1/27/2000" برابر است با 00002/0 لذا وزن محاسبه شده برای فیلد غیر همسان تاریخ تولد برابر با 64/5- محاسبه میشود. بایستی دقت شود که در فیلدهای غیر همسان وزن برمبنای آیتم اطلاعات بانک اطلاعاتی بزرگتر که در اینجا بانک اطلاعات مرگ و میر با تعداد رکوردهای چندین برابر بانک اطلاعات ثبت سرطان محاسبه می­گردد.

            الگوریتم Expectation Maximization (EM) یک رویکرد تکرارشونده برای برآورد احتمالات m و u می­باشد. البته در مواقعی به خوبی عمل می­کند که احتمال خطاهای تایپوگرافیکال در متغیرهای شناساگر کم باشد (21). رویکرد دیگر stored-neighborhood نام دارد که منابع داده بر اساس ترکیب­های مختلفی از شناساگرهای در دسترس مرتب می­شوند. در هر ترکیب همه رکوردهای درون یک window of n-record با همدیگر مقایسه می­شوند (22).

            در نهایت برای همه فیلدهایی که مبنای مقایسه قرار گرفته­اند wi محاسبه شده و بسته به تعداد فیلدهای مورد استفاده (k) از یک تا wk تغییر می­کند و برای هر همسانی ممکن، وزن همه فیلدها جمع و یک وزن کل با استفاده از فرمول شماره 3 محاسبه می­گردد. نمونه­ای از این محاسبات در مورد 8 جفت همسان در جدول 5 نشان داده شده است.

فرمول شماره 3 (وزن کل برای رکورد های همسان)، k بیانگر تعداد فیلد های استفاده شده در استراتژی ارتباط میباشد

 

3-2-2. مبانی تصمیم گیری برای تعیین همسان های صحیح، ناصحیح و نا مشخص:

            مقادیر بالاتر وزن کل   wtنشانگر صحیح­تر بودن همسانی و مقادیر پایین­تر نشانه ناصحیح بودن آن است. اما با توجه به وابستگی wt به تعداد و ماهیت فیلدهای شناساگر در ارتباط داده ها، دامنه تغییرات آن بسیار متفاوت بوده و نمی­توان مرز مشخصی را برای تعیین همسانی یا ناهمسانی ارتباطات تعیین نمود و نیاز به اقدامات دیگری برای این امر می­باشد. در صورتی که نمودار توزیع wi ها رسم گردد همانند شکل 1، مشاهده می گردد که نوع توزیع، دو نمائی بوده به­طوری­که قسمت اول نمودار (خطوط پیوسته در شکل) مربوط به مقادیر پایین wtو همسان­های ناصحیح و قسمت دوم مربوط به مقادیر بالای wtو همسان­های صحیح (خطوط نقطه چین در شکل) می­باشد. بر اساس این توزیع لازم است مقداری از wt مشخص شود که در مقادیر بالاتر از آن نسبت همسان های ناصحیح به صحیح، بسیار ناچیز باشد که این دامنه به­عنوان «همسان­های صحیح» نامگذاری می­شوند. به همین ترتیب دامنه پایین wtتعیین گردد به طوری­که نسبت همسان­های صحیح به ناصحیح بسیار ناچیز باشد که همان دامنه «همسان های ناصحیح» می­باشد. بدیهی است مقادیری که در محدوده بین دو مقدار فوق قرار می­گیرند نیاز به استفاده از متدهای دیگر مثل تطبیق دستی و مراجعه به تک تک رکوردها و کنکاش بیشتر می­باشد.

            یکی از محدودیت­های wt این است که دامنه و توزیع تغییرات آن با توجه به تعداد فیلدها، داده­های مختلف و استراتژی تطبیق متفاوت و متغیر می­باشد. برای این منظور سعی می­شود که وزن را تبدیل به احتمال نمود تا تفسیر آن آسان گردد. برای این منظور احتمال همسانی بر اساس فرمول شماره 4 که شانس مضرب مقادیر Xi  میباشد محاسبه می­گردد. در فرمول شماره 4 مقدار Xi برای هر فیلد در صورت همسانی با فرمول شماره 5 و در صورت عدم همسانی با فرمول شماره 6 محاسبه می­شود.

فرمول شماره 4 پایه i نشانگر فیلد میباشد شامل فیلد نول (Null) هم می­شود

P=

فرمول شماره 5

 

فرمول شماره 6

 

            در این فرمول علاوه بر تعداد فیلدهای شناساگر (i=1 to k)، یک فیلد نول که با Xi=0 نشان داده می­شود اضافه شده که برابر است با شانس اینکه دو رکورد بطور اتفاقی در برنامه ارتباط داده همسانی کامل داشته باشند و این مقدار بر اساس فرمول شماره 7 محاسبه می­گردد.

فرمول شماره 7

 

            در فرمول شماره 7، N1 و N2 تعداد رکورد های موجود درهر فایل و E تعداد رکوردهای همسان مورد انتظاردر دو فایل می­باشد. (به­طور مثال در ارتباط بانک داده ثبت سرطان و بانک مرگ و میر، N1 تعداد 45000رکورد مربوط به بانک مرگ­و میر و N2 برابر با 3000 رکورد از بانک ثبت سرطان است که در این صورت مقدار E برابر با 2400 می­باشد زیرا بر اساس دانش قبلی 80 درصد (مثلاً سرطان ریه) موارد بروز سرطان منجر به فوت می­شود. بایستی دقت شود که معمولاً در برنامه ارتباط داده مخصوصاً در اپیدمیولوژی بیماری­ها به­عنوان پیامد نادر بوده و بنابر این مقدار Xi=0 خیلی کوچک می­باشد). جدول 6 نحوه محاسبه احتمال همسانی را برای دو بانک اطلاعاتی نشان می­دهد.

3-2. ارزیابی کیفیت انجام پیوند داده

            هدف از پیوند داده­ها پیدا کردن همسان­ها می­باشد. شکل 1 به­صورت شماتیک یک توزیع دو قله­ای نمرات وزن کلی همسان و غیر همسان در یک پروژه پیوند داده نشان می­دهد. در واقعیت این امکان وجود ندارد که تعیین کنیم کدام زوج مقایسه همسان و یا غیر همسان است. ما فقط تعداد ترکیب شده زوج مقایسه ها برای هر وزن کلی خاص مشاهده می­کنیم. در یک پیوند داده به­دنبال تعیین نقطه برش­هایی هستیم که نقاط بالاتر از آن را به­عنوان پیوند و پایین­تر از آن را به­عنوان غیر لینک طبقه­بندی کنیم. امیدواریم که اکثریت پیوندها همسان باشند (مثبت واقعی) و تعداد ناچیزی از همسان­ها گم شده باشند (منفی کاذب).

بر اساس جدول 2 در 2 زیر می­توان عملکرد یک پیوند داده را در طبقه­بندی پیامد محاسبه کرد.

غیر همسان

همسان

 

b

مثبت کاذب

a

مثبت واقعی

پیوند شده

d

منفی واقعی

c

منفی کاذب

پیوند نشده

حساسیت (sensitivity):

ویژگی (specificity):

ارزش اخباری مثبت (positive predictive value (PPV):

ارزش اخباری منفی (negative predictive value (NPV)) :

            به­دلیل اینکه تعداد زیادی از همسان­های بالقوه در طول فاز بلوک­بندی شناسایی می­شوند، یک حجم زیادی از فضا به غیرهمسان­های واقعی اختصاص پیدا می­کند برای این دلیل نشان داده شده شاخص­هایی شامل غیرهمسان­های واقعی مانند ویژگی و ارزش اخباری منفی حالت چوله پیدا می­کنند و به­جای آن توصیه شده است که از شاخصی بنام f-measure استفاده شود. این شاخص بیانگر میانگین هارمونیک حساسیت و ارزش اخباری مثبت است که از تعداد زیاد غیر همسان­های واقعی تأثیر نمی­پذیرد و به­صورت زیر محاسبه می­شود

 

            ارزش بتا بیانگر اهمیت حساسیت نسبت به ارزش اخباری مثبت است. اگر وزن برابری دارند پس ارزش بتا برابر یک می­باشد. و یا اگر احساس می­شود که حساسیت دو برابر وزن ارزش اخباری مثبت می­باشد اندازه بتا برابر دو تعیین می­شود.

            در پیوند داده دو خطا وجود دارد: خطای نوع اول که یک غیرهمسان واقعی به­عنوان همسان طبقه بندی می­شود و خطای نوع دوم که یک همسان واقعی به­عنوان غیر همسان طبقه­بندی می­شود. این پارامترها بستگی زیادی به وزن نقطه برش دارد. حرکت به سمت چپ در شکل 1، حساسیت را افزایش می­دهد اما مثبت کاذب را افزایش می­دهد. حرکت به سمت راست حساسیت را کاهش می­دهد اما همچنین تعداد مثبت کاذب کاهش می­یابد. هنگامی که پیوند داده برای تعیین پیامد در یک مطالعه کوهورت استفاده شود، خطاهایی که در طی پیوند داده اتفاق می­افتد روی تحلیل­های همبستگی مواجهه و پیامد تأثیرگذار است. مثبت کاذب اتفاق افتاده در طی پیوند داده باعث تورش در اندازه­های اثر مانند نسبت خطر و تفاوت خطر شده و آنها را به سمت ارزش نول می­برد تا زمانی که ویژگی بر حسب مواجهه غیر افتراقی می­باشد (23). اثر منفی کاذب در طی پیوند داده باعث کمتر از حد نشان داده تفاوت خطر می­شود و نسبت خطر تا زمانی حساسیت بر حسب مواجهه غیر افتراقی است بدون تغییر می­ماند (24). بنابراین هنگامی که نیاز است یک حالت تعادل بین تعداد منفی کاذب و مثبت کاذب انجام گیرد یک استراتژی معمول قربانی کردن حساسیت برای داشتن ویژگی بالا می­باشد. با این استراتژی نسبت خطر در مطالعه کوهورت بدون تورش باقی می­ماند اما قدرت آماری آن کاهش می­یابد (25).

            استراتژی دیگر نسبت خطر و تفاوت خطر مشاهده شده برای تورش سوء طبقه­بندی پیامد که در طی پیوند داده انجام می­گیرد تطبیق داده شود به­طوری که می­توان از طریق حساسیت، ویژگی و ارزش اخباری مثبت به­عنوان پارامترهای تورش طی تحلیل تورش سوء طبقه­بندی را تصحیح کرد (26). کاهش تعداد پیوندهای مثبت های کاذب نیازمند این است که در ابتدا تعداد آنها از طریق وزن کلی نقطه برش تعیین شده و تعیین این نقطه نیازمند یک تصمیم آگاهانه بر مبنای یک استاندارد طلایی است. برای مثال در مطالعه مربوط به داده­های مربوط به ایدز برای یک نمونه از افرادی که نام آنها معلوم است به­عنوان یک منبع معتبر برای بانک اطلاعاتی بزرگ استفاده شده است (27). در غیر این­صورت و در غیاب یک داده معتبر به عنوان استاندارد طلایی باید از روش­هایی مانند probabilistic bias analysis استفاده کرد (28). در نهایت باید اشاره کرد که مرورهای سیستماتیک نشان داده­اند که خیلی از متغیرها روی اینکه فرآیند پیوند داده می­تواند با خطا همراه باشد تأثیرگذار است. از جمله این متغیرها می­توان به سن، جنس، گروه­های نژادی و قومیتی، منطقه جغرافیایی، وضعیت اقتصادی اجتماعی و وضعیت سلامتی می­توان اشاره کرد (29).

نتیجه­گیری

            ارتباط داده ها بر اساس احتمال، ابزاری قوی برای دست اندرکاران بهداشت جامعه و محققین علاقه­مند به مصورسازی وضع سلامت جامعه بر اساس داده­های جمعیتی فراهم می­سازد. علی­رغم پیچیدگی بیشتر شیوه ارتباط داده­ها بر مبنای احتمال نسبت به روش قطعی، تطبیق احتمالی به­علت کاهش تعداد رکوردهای ناهمسان که ناشی از ناهماهنگی در ثبت رکوردها است، می­تواند روش مفید و مناسبی باشد. جهت ارزیابی دقیق تورش ناشی از خطاهای موجود در پیوند داده­ها لازم است شاخصی از کیفیت پیوند داده­ها مثل میزان مثبت کاذب یا منفی کاذب، اندازه­گیری و گزارش شود و در مراحل پیشرفته تر ارزش اخباری مثبت و منفی هر استراتژی مشخص شده و مد نظر قرار گیرد.

 

 

References

  1. Newcombe HB, Kennedy JM, Axford S, James AP. Automatic Linkage of Vital Records Computers can be used to extract" follow-up" statistics of families from files of routine records. Science. 1959;130(3381):954-9.
  2. Schouten LJ, Schlangen JT, de Rijke J, Verbeek AL. Evaluation of the effect of breast cancer screening by record linkage with the cancer registry, the Netherlands. J Med Screen. 1998;5(1):37-41.
  3. Goldacre M, Abisgold J, Yeates D, Vessey M. Benign breast disease and subsequentbreast cancer: English record linkage studies. J Public Health. 2010;32(4):565-71.
  4. Risch HA, Howe GR. Menopausal hormone usage and breast cancer in Saskatchewan: a record-linkage cohort study. Am J Epidemiol. 1994;139(7):670-83.
  5. Potosky AL, Riley GF, Lubitz JD, Mentnech RM, Kessler LG. Potential for cancer related health services research using a linked Medicare-tumor registry database. Med Care. 1993; 31(8):732-48.
  6. Clark DE, Hahn DR. Comparison of probabilisticand deterministic record linkage in the development of a statewide trauma registry. Proc Annu Symp Comput Appl Med Care. 1995: 397–401.
  7. Jamieson E, Roberts J, Browne G. The feasibility and accuracy of anonymized record linkage to estimate shared clientele among three health and social service agencies. Methods Inf Med. 1995;34(4):371-7.
  8. Blakely T, Salmond C. Probabilistic record linkage and a method to calculate the positive predictive value. Int J Epidemiol. 2002;31(6):1246-52.
  9. Weiner M, Stump TE, Callahan CM, Lewis JN, McDonald CJ. A practical method of linking data from Medicare claims and a comprehensive electronic medical recordssystem. Int J Med Inform. 2003;71(1):57-69.
  10. Krewski D, Dewanji A, Wang Y, Bartlett S, Zielinski J, Mallick R. The effect of record linkage errors on risk estimates in cohort mortality studies. Survey Methodology. 2005;31(1): 13-21.
  11. Li B, Quan H, Fong A, Lu M. Assessing record linkage between health care and Vital Statistics databases using deterministic methods. BMC Health Services Research. 2006;6(1):48.
  12. Hammill BG, Hernandez AF, Peterson ED, Fonarow GC, Schulman KA, Curtis LH. Linking inpatient clinical registry data to Medicare claims data using indirect identifiers. Am Heart J. 2009;157(6):995-1000.
  13. Jacobs JP, Edwards FH, Shahian DM, Haan CK, Puskas JD, Morales DL, et al. Successful linking of the Society of Thoracic Surgeons adult cardiac surgery database to Centers for Medicare and Medicaid Services Medicare data. Ann Thorac Surg. 2010;90(4):1150-7.
  14. Li Q, Glynn RJ, Dreyer NA, Liu J, Mogun H, Setoguchi S. Validity of claims‐based definitions of left ventricular systolic dysfunction in Medicare patients. Pharmacoepidem Dr S. 2011;20(7):700-8.
  15. Tromp M, Ravelli AC, Bonsel GJ, Hasman A, Reitsma JB. Results from simulated data sets: probabilistic record linkageoutperforms deterministic record linkage. J Clin Epidemiol. 2011;64(5):565-72.
  16. Howe HL, Lake AJ, Shen T. Method to assess identifiability in electronic data files. Am J Epidemiol. 2007;165(5):597-601.
  17. Dusetzina S, Tyree S, Meyer A, Meyer A, Green L, Carpenter W. Linking Data for Health Services Research: A Framework and Instructional Guide.Agency for Healthcare Research and Quality (US); 2014.
  18. Randall SM, Ferrante AM, Boyd JH, Semmens JB. The effect of data cleaning on record linkage quality. BMC Med Informatics and decision making. 2013;13(1):64.
  19. Mason CA, Tu S. Data linkage using probabilistic decision rules: A primer. Birth Defects Research Part A: Clinical and Molecular Teratology. 2008;82(11):812-21.
  20. Nicoletta C, Tiziana T. Statistical Perspective on Blocking Methods When Linking Large Data-sets. Studies in Theoretical and Applied Statistics. 2012.
  21. Winkler WE. String Comparator Metrics and Enhanced Decision Rules in the Fellegi-Sunter Model of Record Linkage. 1990.
  22. Belin TR, Rubin DB.  method for calibrating false-match rates in record linkage. Journal of the American Statistical Association. 1995;90(430):694-707.
  23. Copeland KT, Checkoway H, McMichael AJ, Holbrook RH. Bias due to misclassification in the estimation of relative risk. Am J Epidemiol. 1977;105(5):488-95.
  24. Rodgers A, Walker N, Schug S, McKee A, Kehlet H, Van Zundert A, et al. Reduction of postoperative mortality and morbidity with epidural or spinal anaesthesia: results from overview of randomisedtrials. Bmj. 2000;321(7275):1493.
  25. Howe GR. Use of computerized record linkage in cohort studies. Epidemiol Rev. 1998;20(1):112-21.
  26. Brenner H, Gefeller O. Use of the positive predictive value to correct for disease misclassification in epidemiologic studies. Am J Epidemiol. 1993;138(11):1007-15.
  27. Muse AG, Mikl J, Smith PF. Evaluating the quality of anonymous record linkage using deterministic procedures with the New York State AIDS registry and a hospital discharge file. Stat Med. 1995;14(5‐7):499-509.
  28. Lash TL, Fox MP, Fink AK. Applying quantitative bias analysis to epidemiologic data: Springer Science & Business Media; 2011.
  29. Megan A Bohensky DJ, Vijaya Sundararajan, Sue Evans, David V Pilcher, Ian Scott, Caroline A Brand. Data Linkage: A powerful research tool with potential problems. BMC Health Services Research. 2010;10:346.

 

 

 

Probabilistic record linkage methodology: a review article

 

Erfan Ayubi

Department of Epidemiology, School of Public Health, Shahid Beheshti University of Medical Sciences

 

Kamyar Mansori

Department of Epidemiology, School of Medicine, Kurdistan University of Medical Sciences

 

Mohammad Golmahi

Cancer Research Center, Tehran University of Medical Sciences

 

Ozra Ramezankhani

Research Institute for Endocrine Sciences, Shahid Beheshti University of Medical Sciences

 

Alireza Mosavi-Jarrahi

Department of Social Medicine, School of Medicine, Shahid Beheshti University of Medical Sciences

 

Received:28/08/2015, Revised:03/11/2015, Accepted:18/12/2015


Abstract

Research development and information technology progress lead to generate big dataset with valuable information. In health research, with tracing people from different dataset like registries can provide valuable information about prognosis, prediction, discrimination, detection or etiology for many outcomes without establishing costly studies. Extracting the knowledge from this potential information is applied using advanced methods such as data linkage or record linkage with deterministic or probabilistic algorithm. However, probabilistic linkage is computationally complex and not well understood by many researchers who may wish to apply it in their work. Therefore, the purposes of this review article is to introduce probabilistic record linkage methodology such as quality and standardization of dataset, determining the matching records from different dataset, calculating the matching weights and discrimination matched from unmatched record using a cut point. In follow, with a practical example the probabilistic record linkage methodology is introduced by cancer registry and mortality dataset.

Keywords: Data linkage, Probabilistic Algorithm, Cancer registry, Mortality

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Corresponding Author:

Alireza Mosavi-Jarrah

Department of Social Medicine, School of Medicine, Shahid Beheshti University of Medical Sciences

E-Mail: rmosavi@yahoo.com

  1.  

     

     


    روش شناسی پیوند دادهبر اساس الگوریتم احتمالاتی: یک مقاله مروری

     

    عرفان ایوبی2،1، کامیار منصوری4،3، محمد گل ماهی5، عذرا رمضانخانی6، علیرضا موسوی جراحی7

    1 دانشجوی دکترای تخصصی اپیدمیولوژی، دانشکده پزشکی، دانشگاه علوم پزشکی زابل، زابل، ایران

    2 دانشجوی دکترای تخصصی اپیدمیولوژی، گروه اپیدمیولوژی، دانشکده بهداشت، دانشگاه علوم پزشکی تهران، تهران، ایران

    3 دانشجوی دکترای تخصصی اپیدمیولوژی، دانشکده پزشکی، دانشگاه علوم پزشکی کردستان،سنندج، ایران

    4 دانشجوی دکترای تخصصی اپیدمیولوژی، گروه اپیدمیولوژی، دانشکده بهداشت، دانشگاه علوم پزشکی ایران، تهران، ایران

    5 تحلیلگر سیستمهای کامپیوتری، مرکز تحقیقات سرطان دانشگاه علوم پزشکی تهران

    6 دکتری تخصصی پژوهش، پژوهشکده علوم غدد درون ریز و متابولیسم، دانشگاه علوم پزشکی شهید بهشتی

    7 دانشیار اپیدمیولوژی، گروه پزشکی اجتماعی، دانشکده پزشکی، دانشگاه علوم پزشکی شهید بهشتی

     

    *نشانی نویسنده مسئول: علیرضا موسوی جراحی، دانشیار اپیدمیولوژی، گروه پزشکی اجتماعی، دانشکده پزشکی، دانشگاه علوم پزشکی شهید بهشتی

    E-mail: rmosavi@yahoo.com

     

    وصول:6/6/94، اصلاح:12/8/94، پذیرش:27/9/94

    چکیده

    امروزه با پیشرفت تکنولوژی و توسعه پژوهش در کشور، شاهد شکل گرفتن بانک های اطلاعاتی بزرگ و ارزشمند هستیم. لازمه ردیابی اطلاعاتافراد در این مجموعه های گرانبها، بکارگیری روشهای جدید واکاوی داده های مرتبط می­باشد. با این روش­ها اطلاعات بسیار مفیدی را می­توان درباره تشخیص، سبب شناختی و پیش آگهی پیامدهای مختلف بدون انجام مطالعات پرهزینه فراهم کرد. گوناگونی در جمع­آوری و تعاریف فیلد های حاوی داده های سلامت در بانک­های اطلاعاتی مختلف، نیاز به آشنایی با روش شناسی پیوند داده ها را بیشتر میکند. هدف از این مقاله مروری، آشنایی با روش­شناسی پیوند داده ها براساس روش­های احتمالاتی می­باشد. تعریف پیوند داده در دو روش قطعی و احتمالاتی ارائه خواهد شود و در ادامه مبانی روش شناختی پیوند داده احتمالاتی مانند ارزیابی کیفیت داده ها، ارزیابی همسان بودن رکوردها و محاسبه وزن همسان بودن رکوردها از دو بانک اطلاعاتی به همراه تعیین سطح تصمیم گیری برای همسان بودن آنها بحث خواهد شد. در قالب یک مثال عملی روش­شناسی پیوند داده احتمالاتی با استفاده از داده های بانک اطلاعات ثبت سرطان و مرگ و میر نشان خواهد داده شد.

    واژه­های کلیدی: پیوند داده، رویکرد احتمالاتی، ثبت سرطان، ثبت مرگ.

     


    مقدمه

    1-1. سابقه متون

    پیوند رکوردها یا ارتباط داده‌ها اولین بار توسط نیوکامب و همکاران (1)  به‌عنوان یک مسئله‌ی آماری و برای ردیابی بیماری‌های ارثی مورد استفاده قرار گرفت. امروزه ارتباط الکترونیکی داده‌ها به‌طور وسیعی به‌وسیله محققین و دست‌اندرکاران بهداشتی مورد استفاده قرار می‌گیرد. از مهم‌ترین دلایل گسترش چشمگیر کاربردهای پیوند رکوردها در حوزه سلامت، یکی شکل‌گیری فایل‌های بزرگی است که لازم است در طول زمان به‌روز شوند و دیگری پیشرفتی است که در تجهیزات رایانه‌ای ثبت، نگهداری و انتقال داده‌ها حاصل گردیده است. در اپیدمیولوژی به فراوانی از علم پیوند داده‌ها استفاده شده که مهم‌ترین مورد آن ایجاد ارتباط بین یک پیامد خاص (مثلاً مرگ در اثر یک علت خاص) با یک عام مواجه می‌باشد. به‌طور مثال با وجود بانک داده ثبت بیماران سرطانی و بانک داده مرگ‌ومیر می‌توان با کمک پیوند داده میزان بقاء بیماران مبتلا به یک سرطان خاص را در شرایط ایده آل محاسبه کنیم.  در ادامه به چند نمونه از این کاربردها اشاره می‌شود :

                در مطالعه‌ای در هلند به‌منظور بررسی تأثیر غربالگری سرطان پستان، داده‌های مربوط به 90000 خانم 69-49 ساله که در برنامه غربالگری سال‌های 1995 -1990 شرکت کرده بودند، با داده‌های ثبت سرطان سال‌های 96 -1986 این کشور، با روش ارتباط داده‌ها مرتبط شدند (2).

                در مطالعه‌ای با استفاده از ارتباط داده با روش احتمالاتی، احتمال بروز سرطان پستان بعد از بیماری‌های خوش‌خیم مورد بررسی قرار گرفت. در این مطالعه داده‌های کوهورت بیماران مبتلا به ضایعات خوش‌خیم با داده‌های سیستم ثبت سرطان پیوند داده شد و بدین ترتیب پتانسیل بدخیمی ضایعات خوش‌خیم و مدت‌زمانی که برای بدخیم شدن این ضایعات لازم بود، تعیین گردید (3).

                در مطالعه دیگری رابطه بین مصرف هورمون‌های جایگزین در یائسگی و بروز سرطان پستان با استفاده از روش ارتباط داده‌ها موردبررسی قرار گرفت. در این مطالعه زنانی که طبق سیستم ثبت تجویز داروها، بین سال‌های 87-1976 هورمون‌های مذکور را مصرف کرده بودند با داده‌های سیستم ثبت سرطان سال‌های 90-1960 پیوند داده شدند (4).

    2-1. مفاهیم اولیه

                اطلاعات توصیف‌کننده هر واحد جامعه مانند افراد، مکان‌ها، اتفاقات و ...، رکورد (record) نامیده می‌شود. هر رکورد شامل اطلاعات جزیی­تری بنام فیلد (field) می‌باشد. به‌عنوان مثال، مجموعه‌ی اطلاعات شناساگر فردی شامل فیلدهای نام، نام خانوادگی، آدرس و ... می‌تواند باشد. مجموعه رکوردهای افراد یک جامعه، یک فایل (file) را تشکیل می‌دهند. به مجموعه چندین فایل، بانک داده (dataset) گفته می‌شود. هنگامی‌که داده‌های موضوعی (داده‌هایی که یک صفت خاص را برای یک فرد شامل می‌شود) برای یک فرد در چند مجموعه متفاوت داده یا فایل قرار دارند، یکپارچه ساختن اطلاعات پراکنده می‌تواند موجب جامعیت مطلب و بسیار سودمند باشد و چه‌بسا محدود کردن اطلاعات صرفاً به یکی از این مجموعه داده‌ها ممکن است موجب از دست دادن اطلاعات موجود در سایر مجموعه داده‌ها و ارائه گزارش ناقصی از موضوع شود. در این راستا لازم است رکوردهای یکسان در مجموعه داده‌های متفاوت یا رکوردهای تکراری در یک مجموعه داده، به نحوی شناسایی و فایلی حاوی اطلاعات کامل و غیرتکراری تهیه شود. شناسایی رکوردهای یکسان درون یک مجموعه داده (فایل) یا بین مجموعه داده‌های متفاوت، پیوند رکوردها (record linkage) یا ارتباط داده‌ها (data linkage) نامیده می‌شود.

                دو نوع کلی الگوریتم پیوند وجود دارد: قطعی(deterministic) و احتمالی (probabilistic). هر دو این روش‌ها به‌طور مناسبی در تحقیقات قبلی انجام شده است (5-15). اینکه کدام روش استفاده شود بستگی به فاکتورهای متعددی دارد که برخی از آن‌ها علمی و برخی دیگر ماهیت ذهنی دارند. در سناریوهای که اطلاعات فراوان وجود دارد و متغیرهای شناسگر از کیفیت خوبی برخوردار هستند روش قطعی پیشنهاد شده است  اما در حالت‌هایی که داده‌ها کیفیت مناسبی ندارند و یا در دسترس نیستند روش احتمالی در اولویت می‌باشد (16). اما نکته مهم هنر محقق است که از کدام روش استفاده کند برای مثال در هنگام مطالعه یک بیماری نادر استفاده از روش احتمالی حتی در مواقع که اطلاعات فراوان وجود دارد در اولویت است چراکه تلاش می‌شود که همه همسان‌ها شناسایی شوند و حجم نمونه حداکثر شود.

    پیوند قطعی: الگوریتم قطعی بر این مبناست که آیا زوج مقایسه بر مینای یک مجموعه از متغیرهای شناساگر توافق دارند یا نه؟ به عبارتی این ارزیابی تابع قانون همه یا هیچ می‌باشد. یک زوج مقایسه به‌عنوان همسان طبقه‌بندی می‌شود که دو رکورد جزءبه‌جزء برای همه‌ی شناساگرها توافق داشته باشند و به همین ترتیب یک زوج مقایسه به‌عنوان غیرهمسان طبقه‌بندی می‌شود اگر روی همه متغیرهای شناساگر توافقی ایجاد نشود. (17,8).

                در این روش لازم است دوسری داده‌های ثبت شده در دو بانک اطلاعاتی در فیلدهای شناساگر (مثل نام یا تاریخ تولد) به‌طور دقیق و کامل همخوانی داشته باشند تا آن دو سری مشخصات به یک فرد منسوب شوند. در این روش هیچ‌گونه مؤلفه تصادفی در نظر گرفته نمی‌شود و ازاین‌رو به‌کارگیری آن با فرض عدم وجود خطا و پایداری در فیلدهای شناساگر می‌باشد. معمولاً خطاها و تغییرات مختلفی در فرایند تهیه و ذخیره‌سازی بانک‌های اطلاعاتی به وجود میاید که استفاده از روش قطعی را در ارتباط داده مخصوصاً در غیاب یک شناسه واحد (مثل کد ملی در ایران) غیرممکن و نا کارآ می­نماید. در روش قطعی حتی تغییرات خیلی کوچک در ویراستاری فیلد های شناساگر، مانع از شناسایی افراد مشابه در دو فایل میگردد. به عنوان مثال در مورد نام خانوادگی ممکن است دو اسم تفاوت هایی جزئی مثلاً در یک حرف داشته باشند، مانند نام­های "رسایی" و"رضایی" یا از اسامی کوتاه شده باشد مثل لیلی و لیلا که در روش قطعی موجب عدم ارتباط این دو فیلد می­گردد.

                بدین ترتیب بسیاری از یافته های مربوط به یک شخص که با اختلافات جزئی ثبت شده اند با این روش به هم مرتبط نشده و موجب تورش قابل توجه در پیوند داده ها می شود. این اختلافات جزئی در فیلد های شناساگر از تفاوت لهجه­های محلی در بیان اسامی، اشتباهات تصادفی در مرحله ورود داده و یا به صورتهای مختلف دیگر می­تواند اتفاق بیفتد. به عنوان مثال در جدول 1 در پیوند داده های منابع اطلاعاتی 1 و 2 که فیلدهای نام، نام خانوادگی و تاریخ تولد به عنوان متغیر شناساگر در نظر گرفته شده اند، در روش قطعی، به علت تفاوت های نگارشی، فقط فرد سوم را مرتبط با هم می شناسد. در صورتی که اطلاعات در دو منبع (بانک اطلاعاتی) متعلق به سه فرد مشخص می­باشد.

    پیوند احتمالاتی: الگوریتم های احتمالی بر اساس میزان شباهت بین دو رکورد و با در نظر گرفتن مؤلفه ی خطا در ثبت و مقایسه ی رکوردها، در مورد انطباق یا عدم انطباق زوج رکوردها در سطح خاصی از اطمینان عمل می کنند. در این روش طیف متنوعی از ماهیت و کیفیت در داده ها در نظر گرفته می­شود تا از همسان بودن دو رکورد، علیرغم تفاوت در چند شناسه اطمینان حاصل گردد. ارتباط داده ها بر اساس احتمال نیاز به عملیات کامپیوتری پیچیده­تری نسبت به روش قطعی دارد و از مبانی علمی پیچیده­تری برخوردار بوده و استفاده بیشتری در بخش سلامت دارد. در ادامه در قسمت روش شناسی مفاهیم پایه پیوند احتمالاتی به همراه مثالی کاملاً فرضی از دو سری داده مربوط به سیستم ثبت سرطان و بانک داده مرگ و میر که در جدول 2 نشان داده شده، جهت تشریح مفاهیم ارتباط داده­ها با روش احتمالی توضیح داده می­شود.

    2. پیوند احتمالاتی

    1-2. مبانی نظری و راهکار های ارتباط داده ها براساس احتمال

                مبانی نظری ارتباط داده ها بر اساس احتمالات شامل شناخت سه پارامتر 1) کیفیت داده ها 2) شانس موافقت تصادفی و 3) تعداد موافقت صحیح مورد انتظار در دو سری داده است. بر اساس مقدار این پارامترها و با توجه به استراتژی انتخاب شده احتمال تطبیق و یا ارتباط دو رکورد مشخص می­گردد.

    1-1-2. کیفیت داده­ها

                داده­ها با شکل، اندازه و کیفیت­های مختلف، سناریوهای مختلفی برای شکل­دهی الگوریتم­های پیوند ایجاد می­کنند. برای مثال اطلاعات دموگرافیک اغلب شامل خطاهای مربوط به واردکردن داده و خطاهای تایپوگرافیکال می­باشد. اطلاعات افراد در طول زمان تغییر می­کند برای مثال با ازدواج و یا تغییر محل سکونت، در برخی مواقع نیز افراد به غلط و تعمدی اطلاعات مربوط به خود را گزارش می کنند. در نهایت این ایدئوسنکرازی، پیوند داده را با مشکل همراه می سازد و نیاز است که قبل از پیوند داده، آنها تمیز و استاندارد شوند.

                دشوارترین و وقت گیرترین قسمت یک پروژه پیوند داده، پیش از آنکه به الگوریتم پیوند و امکانات رایانه­ای وابسته باشد، به کیفیت داده­ها وابسته است. این پارامتر نشان می­دهد که تا چه حد اطلاعات یک فیلد، دقیق و با ثبات بوده و اندازه­گیری­های صحیح را در یک فرد نشان می­دهند. خطاهای ورود اطلاعات، تعداد کم فیلدهای مشترک مورد مقایسه، اطلاعات از دست رفته و بی­دقتی­های عمدی و غیر عمدی در گردآوری اطلاعات، همگی بر دقت یافته­ها و کیفیت آنان اثر می­گذارند. پیوند رکوردهایی که اطلاعات آنها به زبان فارسی ثبت شده است به دلیل ویژگی های خاص نوشتارهای فارسی، عدم وجود استانداردی جهت ثبت اطلاعات و وجود داده های گم شده زیاد و عدم وجود تجربیات علمی، ارتباط داده ها را در زبان فارسی با مشکلات بیشتری مواجه ساخته است.

                علاوه بر کیفیت آیتم­های اطلاعاتی موجود در فیلدهای یک بانک اطلاعاتی، پایداری و ثبات داده­ها نیز مهم است. این موضوع اشاره به این دارد که تا چه حد یک آیتم اطلاعاتی در طول زمان یا در حین جمع­آوری از منابع مختلف ممکن است متفاوت باشد. برای مثال شماره تلفن یا آدرس محل زندگی که میتواند به سادگی برای افراد تغییر کند در مقابل آیتم­های اطلاعاتی مثل کد ملی یا جنسیت می­باشد که از جمله متغیرهایی با ثبات محسوب می­شوند.

                تکنیک­های مختلفی برای تمیز سازی داده ها معرفی شده است: برخی از آنها منجر به افزایش تعداد متغیر یا جدا کردن فیلد مورد نظر می­شود، برخی منجر به تبدیل متغیر به یک شکل خاص دیگر است که در اطلاعات واقعی تغییری ایجاد نمی­شود. تکنیک­های دیگری وجود دارند که هدف از آنها تغییر اطلاعات در فیلد مورد نظر مثلا با حذف ارزش­های نامعتبر، پر کردن ارزش­های گمشده است (18).

    برخی از تکنیک­های تمیزسازی داده شامل موارد زیر است:

    • تغییر فرمت داده­ها
    • حذف نشانه گذاری­های غیرضروری
    • حذف ارزش­های گمشده و خالی از اطلاعات و پر کردن ارزش­های گمشده
    • تغییر شکل آوایی (phonetic encoding)
    • استانداردسازی نام خانوادگی و آدرس
    • تصحیح ناهمگنی­ها

                در علم ارتباط داده، کیفیت داده ها را با متغیر m و به­صورت کمی نشان می­دهند. m پارامتری است که نشان می­دهد اگر دو رکورد در دو بانک داده واقعاً متعلق به یک نفر باشد چقدر احتمال وجود دارد که آیتم­های اطلاعاتی هر فیلد مشابه باشند. مقدار m برای تمام داده های هر فیلد، ثابت است. مثلأ در مورد فیلد نام خانوادگی، 95/0 m= به این معنی است که احتمال اینکه نام خانوادگی ثبت شده در دو رکورد متعلق به یک نفر از دو منبع داده دقیقأ املای مشابه داشته باشند، 95/0 است و این احتمال برای همه نام های خانوادگی موجود مقدار ثابتی است. علاوه بر استفاده از روش­های آماری پیچیده برای برآورد مقدار m در فیلد های مختلف، معمولاً مقدار m بر اساس نظر افراد مجرب و آگاه تعیین می­شود که برحسب تجربه و به مرور زمان و کار روی پروژه های قبلی قابل برآورد میباشد. جدول 3 نمونه ای از احتمال m برای فیلد های نام ونام خانوادگی، تاریخ تولد، و نام مادر را که توسط آقای G A Mason در بانک داده انگلیسی گزارش شده نمایش می­دهد و در این مقاله جهت تشریح مفاهیم مورد استفاده قرار خواهد گرفت (19) لازم به ذکر است که احتمال m برای فیلد های مذکور در بانک های داده ایران با توجه به تفاوت و تنوع نگارشی زبان فارسی ممکن است کمتر و یا بیشتر باشد.

    2-1-2. شانس موافقت تصادفی (randomly linked)  

                پارامتر دوم در ارتباط داده­ها با روش احتمالی، شانس موافقت تصادفی است که احتمال همسان بودن دو رکورد به صورت تصادفی در یک فیلد را نشان می­دهد. هرچه این احتمال بیشتر باشد شانس یک پیوند واقعی کمتر است. برای مثال اگر تمام افراد دو سری بانک داده، مؤنث باشند و متغیر شناساگر در ارتباط دو بانک داده متغیر جنسیت باشد، احتمال اینکه یک فرد از یک بانک داده با فرد دیگری از بانک داده دیگر به­صورت تصادفی  پیوند داده شود، 100 درصد می­باشد. در نتیجه این فیلد نمی­تواند کمکی در پیوند دو رکود همسان نماید و برای پیوند داده ها مناسب نیست. به دلیل اینکه در هر زوج تصادفی قطعأ یک تطبیق در آن فیلد وجود دارد، اساسأ متغیرهایی مثل جنسیت ارزش محدودی در پیوند داده ها دارند چون انتظار می­رود حتی در شرایطی که افراد در بانک داده از هر دو جنس باشند و ارتباط دو بانک داده بر اساس متغیر جنسیت باشد، در 50 درصد موارد توافق تصادفی حاصل گردد. در حالی­که متغیری مثل کد ملی، برای اینکار بسیار مناسب است زیرا انتظار یافتن یک همسان تصادفی برای آن وجود ندارد.

                احتمال همسان­های تصادفی با u نمایش داده می­شود. بر خلاف m که برای یک فیلد عددی ثابت محاسبه می­شود، یک فیلد می­تواند u های متعددی داشته باشد یا به عبارتی هر آیتم داده­ای در یک فیلد میتواند یک احتمال u داشته باشد. به عبارتی u نسبت داده­های با مقدار خاص بر اساس فراوانی مشاهده شده در منبع دقیق اولیه به کل مشاهدات می­باشد. مثلأ اگر در یک منبع اطلاعاتی با 000/300 نفر جمعیت ثبت شده، 30 نفر یک فامیل خاص (مثلا ایوبی)را داشته باشند، مقدار u برای آن فامیل خاص (ایوبی) برابر است با نسبت 30 به 300000  و یا 0001/0 می­باشد. انتظار است که برای فیلد تاریخ تولد، هر روز تولد (یک آیتم داده) برای یک سال دارای احتمال u برابر 1 روی 360 داشته باشد (با این فرض که توزیع تولد در روزهای مختلف سال یک نواخت باشد). به همین ترتیب آیتم­های داده­ای فیلدهای مختلف می­توانند u های جداگانه­ای داشته باشند. نمونه­ای از مقدار u محاسبه شده برای سه آیتم اطلاعاتی از فیلدهای نام، نام خانوادگی، تاریخ تولد، و نام مادر، محاسبه شده بر مبنای داده­های بانک مرگ و میر در تهران در جدول 4 نمایش داده شده است. (در ارتباط دو بانک اطلاعاتی مقدار u بر اساس بانک اطلاعاتی که دقیق­تر است و یا تعداد رکوردهای بیشتری دارد محاسبه می­گردد).

    3-1-2. تعداد همسان های صحیح مورد انتظار

                عامل سوم که در پیوند احتمالی مؤثر است، تعداد همسان هایی است که انتظار می رود در دو بانک اطلاعاتی وجود داشته باشد. برای مثال در پیوند داده­های مربوط به گواهی ولادت از سال 2004 با اطلاعات نقایص مادرزادی ثبت شده از سال 1996، انتظار نداریم هیچ همسان صحیحی از دو سری اطلاعات به­دست آوریم. در پیوند احتمالی، تعداد همسان­های صحیح مورد انتظار با مقدار E نشان داده می­شود. به­عنوان مثال در یک شرایط فرضی که میزان بقا یک ساله برای بیماران مبتلا به سرطان معده به­طور متوسط 70 درصد باشد، انتظار می­رود که اگر در طول سال از 100 نفر بیمار 30 نفر فوت نمایند یا به عبارتی اطلاعات 30 درصد بیماران در بانک داده مرگ و میر موجود باشد (با فرض اینکه تمامی مرگ­ها ثبت می­شود) در این شرایط تعداد همسان­های مورد انتظار 30  مورد می­باشد (اگر کل بیماران در سال 100 نفر باشد).

    2-2.استراتژی های پیوند داده احتمالاتی

                هنگامی که رکوردهای بانک اطلاعاتی یک منبع با رکوردهای منبع دیگری پیوند داده میشود، تعدادی از رکوردها به­عنوان همسان صحیح، تعدادی به­عنوان همسان غلط و تعدادی از رکوردها در وضعیتی قرار می­گیرند که همسانی و یا عدم همسانی آنها را نمی­توان با درجه اطمینان بالائی مشخص نمود. با توجه به پیچیدگی­های آماری و احتمالاتی که در پیوند داده­ها وجود دارد به منظور کاهش درصد همسان­های غلط و بالا بردن بهره­وری بایستی استراتژی و راهکار مناسبی انتخاب نمود. استراتژی و راهکار های ارتباط داده شامل سه مرحله متفاوت 1) بلوک بندی، 2) تعیین شاخص همسانی و موافقت بین رکوردها (وزن دهی) و 3) نحوه­ی تصمیم­گیری در مورد همسانی و موافقت رکوردها می­باشد.

    1-2-2. تکنیک­های بلوک­بندی

                در هنگام ارتباط داده­ها از دو بانک اطلاعاتی روش معمول این است که هر رکوردی از یک بانک با کلیه رکوردهای بانک دیگر مقایسه گردد تا رکورد همسان انتخاب شود. این مسئله در عمل بسیار مشکل و در مجموعه اطلاعات بزرگ، غیر ممکن است. (تصور کنید که دو بانک اطلاعاتی هرکدام شامل 100000 رکورد باشد، در این صورت هر رکورد از بانک اول بایستی با همه رکوردهای بانک دوم مقایسه گردد، یعنی تعداد مقایسه­ها 10 بیلیون خواهد شد). به­منظور حل این مشکل در استراتژی ارتباط داده ها پیشنهاد می­شود که ابتدا رکوردها بر مبنای شاخص­هایی بلوک­بندی شده و سپس ارتباط یک جفت رکورد فقط در بلوک­های مرتبط که شامل تعداد کمتری از رکوردها می­باشد، بر قرار گردد. در حقیقت با این روش به جای بررسی کلیه رکوردها در هر دو منبع، مقایسه تنها به یک زیر مجموعه کوچک از رکوردها محدود می­شود و لذا حجم محاسباتی به میزان زیاد کاهش می­یابد.

                متغیرهایی که بلوک­بندی بر مبنای آنها انجام می­گردد، متغیرهای شناساگر (identifier variable) می­باشند. به­طور مثال اگر در ارتباط داده­های دو بانک اطلاعات ثبت سرطان و اطلاعات مرگ و میر، بلوک­بندی بر مبنای نام خانوادگی و به­صورت نزولی (از الف تا ی) انجام گردد، برای نام خانوادگی ایوبی مقایسه محدود به رکوردهایی می­شود که نام خانوادگی ایوبی دارند و به این ترتیب تعداد مقایسه­ها به میزان زیادی کاهش پیدا میکند. بایستی دقت نمود که بلوک کردن در عین اینکه تعداد مقایسات را کاهش می­دهد، در مواقعی که کیفیت داده­ها مناسب نیست، ممکن است شانس موافقت واقعی بین رکوردهای موافق را کاهش دهد، مخصوصاً زمانی که یک فیلد نامناسب برای بلوک­بندی انتخاب می­گردد (به­طور مثال اگر در جدول شماره 2 ، بلوک­بندی برمبنای " نام و یا نام خانوادگی صورت پذیرد شانس ارتباط و تطبیق بین رکورد شماره 765 از بانک داده ثبت سرطان و رکورد شماره 78659 از بانک اطلاعات مرگ و میر وجود خواهد داشت ولی اگر تاریخ تولد مبنای بلوک­بندی قرار گیرد شانس همسانی این دو رکورد از بین می­رود زیرا روز تولد در دو بانک اطلاعاتی عدم همخوانی دارند، لذا شانس همسانی دو رکورد از بین می­رود.

                استراتژی بلوک­بندی اگر با دقت و به­طور مناسب انجام نگیرد ممکن است تعداد همسان­های احتمالی را بسیار کاهش دهد. بلوک کردن می­تواند بر مبنای یک فیلد و یا مجموعه­ای از فیلدها صورت پذیرد. بایستی دقت شود که با افزایش فیلدهای بلوک شده می­توان تعداد همسان­های احتمالی را کاهش داد. در مجموع فیلدهای کاندید بلوک شدن فیلدهای شناساگری هستند که می­بایست از کیفیت بالایی برخوردار باشند. بلوک کردن باید بر اساس ظرفیت سخت­افزار و نرم­افزار، نوع و کیفیت داده­ها انجام گردد. در نهایت در مورد روش­های بلوک­بندی باید اشاره کرد که توسعه و گسترش قدرت برنامه­های کامپیوتری، machine learning، داده کاوی  مطالعات آماری بدون شک عملکرد صحت داده کاوی را بهبود بخشیده و در یافتن روش­های بلوک­بندی موثر و کارا کمک­کننده خواهد بود. از جمله روش­های جدید بلوک­بندی که معرفی شده­اند می­توان به clustering algorithm-high dimensional indexing-stored neighborhood اشاره کرد (20).

    2-2-2. تعیین شاخص همسانی و موافقت بین رکوردها (محاسبه وزن)

                شانس همسانی و یا موافقت رکوردها بستگی مستقیم به تعداد فیلدهای همسان و غیر همسان در دو رکورد دارد. این شانس وقتی بالاست که تعداد فیلدهای همسان در دو رکورد بالا باشد. با توجه به اینکه در تطبیق بین رکوردها لزوماً تمامی فیلد ها همسان نیستند درجه تطبیق هم به فیلدهای همسان و هم غیر همسان بستگی دارد. برای اندازه­گیری درجه تطبیق به شاخصی نیاز می­باشد که بر مبنای آن قادر باشیم قدرت تطبیق بین دو رکورد را ارزیابی کنیم. بر این مبنا درجه تطبیق بین فیلدهای مشابه را با استفاده از احتمال m و u  محاسبه میکنیم. در واژه­شناسی ارتباط داده، شاخص تطبیق، وزن نامیده می­شود که با حرف w نمایش داده می­شود. فرمول شماره 1 برای محاسبه وزن یک فیلد در دو رکورد همسان و فرمول شماره 2 برای محاسبه فیلدهای غیرهمسان استفاده می­شود. (دقت شود که همسان بودن و نبودن فیلدها در اینجا مبنای عینی دارد).

    فرمول شماره 1 (وزن برای فیلد های همسان) پایه i  نشانگر یک فیلد میباشد

     

    فرمول شماره 2 (وزن برای فیلد های غیر همسان )

    )

                به­طور مثال در جدول شماره 2 اگر رکورد شماره 678 از بانک ثبت سرطان و رکورد 98764 از بانک مرگ و میر را به عنوان دو رکورد همسان در نظر بگیریم با توجه به احتمال m برای فیلد فامیل (95/0) و احتمال u برای فامیل "شکوفه" برابر 00012/0 می­باشد، وزن محاسبه شده برای فیلد همسان فامیل برابر 9/8 محاسبه میشود. برای این دو رکورد فیلد تاریخ تولد در دو رکورد همسان نیستند و برای محاسبه وزن این فیلد از فرمول شماره 2 استفاده می­کنیم. با توجه به اینکه احتمال m برای فیلد تاریخ تولد برابر است با 98/0 و احتمال u برای تاریخ تولد "1/27/2000" برابر است با 00002/0 لذا وزن محاسبه شده برای فیلد غیر همسان تاریخ تولد برابر با 64/5- محاسبه میشود. بایستی دقت شود که در فیلدهای غیر همسان وزن برمبنای آیتم اطلاعات بانک اطلاعاتی بزرگتر که در اینجا بانک اطلاعات مرگ و میر با تعداد رکوردهای چندین برابر بانک اطلاعات ثبت سرطان محاسبه می­گردد.

                الگوریتم Expectation Maximization (EM) یک رویکرد تکرارشونده برای برآورد احتمالات m و u می­باشد. البته در مواقعی به خوبی عمل می­کند که احتمال خطاهای تایپوگرافیکال در متغیرهای شناساگر کم باشد (21). رویکرد دیگر stored-neighborhood نام دارد که منابع داده بر اساس ترکیب­های مختلفی از شناساگرهای در دسترس مرتب می­شوند. در هر ترکیب همه رکوردهای درون یک window of n-record با همدیگر مقایسه می­شوند (22).

                در نهایت برای همه فیلدهایی که مبنای مقایسه قرار گرفته­اند wi محاسبه شده و بسته به تعداد فیلدهای مورد استفاده (k) از یک تا wk تغییر می­کند و برای هر همسانی ممکن، وزن همه فیلدها جمع و یک وزن کل با استفاده از فرمول شماره 3 محاسبه می­گردد. نمونه­ای از این محاسبات در مورد 8 جفت همسان در جدول 5 نشان داده شده است.

    فرمول شماره 3 (وزن کل برای رکورد های همسان)، k بیانگر تعداد فیلد های استفاده شده در استراتژی ارتباط میباشد

     

    3-2-2. مبانی تصمیم گیری برای تعیین همسان های صحیح، ناصحیح و نا مشخص:

                مقادیر بالاتر وزن کل   wtنشانگر صحیح­تر بودن همسانی و مقادیر پایین­تر نشانه ناصحیح بودن آن است. اما با توجه به وابستگی wt به تعداد و ماهیت فیلدهای شناساگر در ارتباط داده ها، دامنه تغییرات آن بسیار متفاوت بوده و نمی­توان مرز مشخصی را برای تعیین همسانی یا ناهمسانی ارتباطات تعیین نمود و نیاز به اقدامات دیگری برای این امر می­باشد. در صورتی که نمودار توزیع wi ها رسم گردد همانند شکل 1، مشاهده می گردد که نوع توزیع، دو نمائی بوده به­طوری­که قسمت اول نمودار (خطوط پیوسته در شکل) مربوط به مقادیر پایین wtو همسان­های ناصحیح و قسمت دوم مربوط به مقادیر بالای wtو همسان­های صحیح (خطوط نقطه چین در شکل) می­باشد. بر اساس این توزیع لازم است مقداری از wt مشخص شود که در مقادیر بالاتر از آن نسبت همسان های ناصحیح به صحیح، بسیار ناچیز باشد که این دامنه به­عنوان «همسان­های صحیح» نامگذاری می­شوند. به همین ترتیب دامنه پایین wtتعیین گردد به طوری­که نسبت همسان­های صحیح به ناصحیح بسیار ناچیز باشد که همان دامنه «همسان های ناصحیح» می­باشد. بدیهی است مقادیری که در محدوده بین دو مقدار فوق قرار می­گیرند نیاز به استفاده از متدهای دیگر مثل تطبیق دستی و مراجعه به تک تک رکوردها و کنکاش بیشتر می­باشد.

                یکی از محدودیت­های wt این است که دامنه و توزیع تغییرات آن با توجه به تعداد فیلدها، داده­های مختلف و استراتژی تطبیق متفاوت و متغیر می­باشد. برای این منظور سعی می­شود که وزن را تبدیل به احتمال نمود تا تفسیر آن آسان گردد. برای این منظور احتمال همسانی بر اساس فرمول شماره 4 که شانس مضرب مقادیر Xi  میباشد محاسبه می­گردد. در فرمول شماره 4 مقدار Xi برای هر فیلد در صورت همسانی با فرمول شماره 5 و در صورت عدم همسانی با فرمول شماره 6 محاسبه می­شود.

    فرمول شماره 4 پایه i نشانگر فیلد میباشد شامل فیلد نول (Null) هم می­شود

    P=

    فرمول شماره 5

     

    فرمول شماره 6

     

                در این فرمول علاوه بر تعداد فیلدهای شناساگر (i=1 to k)، یک فیلد نول که با Xi=0 نشان داده می­شود اضافه شده که برابر است با شانس اینکه دو رکورد بطور اتفاقی در برنامه ارتباط داده همسانی کامل داشته باشند و این مقدار بر اساس فرمول شماره 7 محاسبه می­گردد.

    فرمول شماره 7

     

                در فرمول شماره 7، N1 و N2 تعداد رکورد های موجود درهر فایل و E تعداد رکوردهای همسان مورد انتظاردر دو فایل می­باشد. (به­طور مثال در ارتباط بانک داده ثبت سرطان و بانک مرگ و میر، N1 تعداد 45000رکورد مربوط به بانک مرگ­و میر و N2 برابر با 3000 رکورد از بانک ثبت سرطان است که در این صورت مقدار E برابر با 2400 می­باشد زیرا بر اساس دانش قبلی 80 درصد (مثلاً سرطان ریه) موارد بروز سرطان منجر به فوت می­شود. بایستی دقت شود که معمولاً در برنامه ارتباط داده مخصوصاً در اپیدمیولوژی بیماری­ها به­عنوان پیامد نادر بوده و بنابر این مقدار Xi=0 خیلی کوچک می­باشد). جدول 6 نحوه محاسبه احتمال همسانی را برای دو بانک اطلاعاتی نشان می­دهد.

    3-2. ارزیابی کیفیت انجام پیوند داده

                هدف از پیوند داده­ها پیدا کردن همسان­ها می­باشد. شکل 1 به­صورت شماتیک یک توزیع دو قله­ای نمرات وزن کلی همسان و غیر همسان در یک پروژه پیوند داده نشان می­دهد. در واقعیت این امکان وجود ندارد که تعیین کنیم کدام زوج مقایسه همسان و یا غیر همسان است. ما فقط تعداد ترکیب شده زوج مقایسه ها برای هر وزن کلی خاص مشاهده می­کنیم. در یک پیوند داده به­دنبال تعیین نقطه برش­هایی هستیم که نقاط بالاتر از آن را به­عنوان پیوند و پایین­تر از آن را به­عنوان غیر لینک طبقه­بندی کنیم. امیدواریم که اکثریت پیوندها همسان باشند (مثبت واقعی) و تعداد ناچیزی از همسان­ها گم شده باشند (منفی کاذب).

    بر اساس جدول 2 در 2 زیر می­توان عملکرد یک پیوند داده را در طبقه­بندی پیامد محاسبه کرد.

    غیر همسان

    همسان

     

    b

    مثبت کاذب

    a

    مثبت واقعی

    پیوند شده

    d

    منفی واقعی

    c

    منفی کاذب

    پیوند نشده

    حساسیت (sensitivity):

    ویژگی (specificity):

    ارزش اخباری مثبت (positive predictive value (PPV):

    ارزش اخباری منفی (negative predictive value (NPV)) :

                به­دلیل اینکه تعداد زیادی از همسان­های بالقوه در طول فاز بلوک­بندی شناسایی می­شوند، یک حجم زیادی از فضا به غیرهمسان­های واقعی اختصاص پیدا می­کند برای این دلیل نشان داده شده شاخص­هایی شامل غیرهمسان­های واقعی مانند ویژگی و ارزش اخباری منفی حالت چوله پیدا می­کنند و به­جای آن توصیه شده است که از شاخصی بنام f-measure استفاده شود. این شاخص بیانگر میانگین هارمونیک حساسیت و ارزش اخباری مثبت است که از تعداد زیاد غیر همسان­های واقعی تأثیر نمی­پذیرد و به­صورت زیر محاسبه می­شود

     

                ارزش بتا بیانگر اهمیت حساسیت نسبت به ارزش اخباری مثبت است. اگر وزن برابری دارند پس ارزش بتا برابر یک می­باشد. و یا اگر احساس می­شود که حساسیت دو برابر وزن ارزش اخباری مثبت می­باشد اندازه بتا برابر دو تعیین می­شود.

                در پیوند داده دو خطا وجود دارد: خطای نوع اول که یک غیرهمسان واقعی به­عنوان همسان طبقه بندی می­شود و خطای نوع دوم که یک همسان واقعی به­عنوان غیر همسان طبقه­بندی می­شود. این پارامترها بستگی زیادی به وزن نقطه برش دارد. حرکت به سمت چپ در شکل 1، حساسیت را افزایش می­دهد اما مثبت کاذب را افزایش می­دهد. حرکت به سمت راست حساسیت را کاهش می­دهد اما همچنین تعداد مثبت کاذب کاهش می­یابد. هنگامی که پیوند داده برای تعیین پیامد در یک مطالعه کوهورت استفاده شود، خطاهایی که در طی پیوند داده اتفاق می­افتد روی تحلیل­های همبستگی مواجهه و پیامد تأثیرگذار است. مثبت کاذب اتفاق افتاده در طی پیوند داده باعث تورش در اندازه­های اثر مانند نسبت خطر و تفاوت خطر شده و آنها را به سمت ارزش نول می­برد تا زمانی که ویژگی بر حسب مواجهه غیر افتراقی می­باشد (23). اثر منفی کاذب در طی پیوند داده باعث کمتر از حد نشان داده تفاوت خطر می­شود و نسبت خطر تا زمانی حساسیت بر حسب مواجهه غیر افتراقی است بدون تغییر می­ماند (24). بنابراین هنگامی که نیاز است یک حالت تعادل بین تعداد منفی کاذب و مثبت کاذب انجام گیرد یک استراتژی معمول قربانی کردن حساسیت برای داشتن ویژگی بالا می­باشد. با این استراتژی نسبت خطر در مطالعه کوهورت بدون تورش باقی می­ماند اما قدرت آماری آن کاهش می­یابد (25).

                استراتژی دیگر نسبت خطر و تفاوت خطر مشاهده شده برای تورش سوء طبقه­بندی پیامد که در طی پیوند داده انجام می­گیرد تطبیق داده شود به­طوری که می­توان از طریق حساسیت، ویژگی و ارزش اخباری مثبت به­عنوان پارامترهای تورش طی تحلیل تورش سوء طبقه­بندی را تصحیح کرد (26). کاهش تعداد پیوندهای مثبت های کاذب نیازمند این است که در ابتدا تعداد آنها از طریق وزن کلی نقطه برش تعیین شده و تعیین این نقطه نیازمند یک تصمیم آگاهانه بر مبنای یک استاندارد طلایی است. برای مثال در مطالعه مربوط به داده­های مربوط به ایدز برای یک نمونه از افرادی که نام آنها معلوم است به­عنوان یک منبع معتبر برای بانک اطلاعاتی بزرگ استفاده شده است (27). در غیر این­صورت و در غیاب یک داده معتبر به عنوان استاندارد طلایی باید از روش­هایی مانند probabilistic bias analysis استفاده کرد (28). در نهایت باید اشاره کرد که مرورهای سیستماتیک نشان داده­اند که خیلی از متغیرها روی اینکه فرآیند پیوند داده می­تواند با خطا همراه باشد تأثیرگذار است. از جمله این متغیرها می­توان به سن، جنس، گروه­های نژادی و قومیتی، منطقه جغرافیایی، وضعیت اقتصادی اجتماعی و وضعیت سلامتی می­توان اشاره کرد (29).

    نتیجه­گیری

                ارتباط داده ها بر اساس احتمال، ابزاری قوی برای دست اندرکاران بهداشت جامعه و محققین علاقه­مند به مصورسازی وضع سلامت جامعه بر اساس داده­های جمعیتی فراهم می­سازد. علی­رغم پیچیدگی بیشتر شیوه ارتباط داده­ها بر مبنای احتمال نسبت به روش قطعی، تطبیق احتمالی به­علت کاهش تعداد رکوردهای ناهمسان که ناشی از ناهماهنگی در ثبت رکوردها است، می­تواند روش مفید و مناسبی باشد. جهت ارزیابی دقیق تورش ناشی از خطاهای موجود در پیوند داده­ها لازم است شاخصی از کیفیت پیوند داده­ها مثل میزان مثبت کاذب یا منفی کاذب، اندازه­گیری و گزارش شود و در مراحل پیشرفته تر ارزش اخباری مثبت و منفی هر استراتژی مشخص شده و مد نظر قرار گیرد.

     

     

    References

    1. Newcombe HB, Kennedy JM, Axford S, James AP. Automatic Linkage of Vital Records Computers can be used to extract" follow-up" statistics of families from files of routine records. Science. 1959;130(3381):954-9.
    2. Schouten LJ, Schlangen JT, de Rijke J, Verbeek AL. Evaluation of the effect of breast cancer screening by record linkage with the cancer registry, the Netherlands. J Med Screen. 1998;5(1):37-41.
    3. Goldacre M, Abisgold J, Yeates D, Vessey M. Benign breast disease and subsequentbreast cancer: English record linkage studies. J Public Health. 2010;32(4):565-71.
    4. Risch HA, Howe GR. Menopausal hormone usage and breast cancer in Saskatchewan: a record-linkage cohort study. Am J Epidemiol. 1994;139(7):670-83.
    5. Potosky AL, Riley GF, Lubitz JD, Mentnech RM, Kessler LG. Potential for cancer related health services research using a linked Medicare-tumor registry database. Med Care. 1993; 31(8):732-48.
    6. Clark DE, Hahn DR. Comparison of probabilisticand deterministic record linkage in the development of a statewide trauma registry. Proc Annu Symp Comput Appl Med Care. 1995: 397–401.
    7. Jamieson E, Roberts J, Browne G. The feasibility and accuracy of anonymized record linkage to estimate shared clientele among three health and social service agencies. Methods Inf Med. 1995;34(4):371-7.
    8. Blakely T, Salmond C. Probabilistic record linkage and a method to calculate the positive predictive value. Int J Epidemiol. 2002;31(6):1246-52.
    9. Weiner M, Stump TE, Callahan CM, Lewis JN, McDonald CJ. A practical method of linking data from Medicare claims and a comprehensive electronic medical recordssystem. Int J Med Inform. 2003;71(1):57-69.
    10. Krewski D, Dewanji A, Wang Y, Bartlett S, Zielinski J, Mallick R. The effect of record linkage errors on risk estimates in cohort mortality studies. Survey Methodology. 2005;31(1): 13-21.
    11. Li B, Quan H, Fong A, Lu M. Assessing record linkage between health care and Vital Statistics databases using deterministic methods. BMC Health Services Research. 2006;6(1):48.
    12. Hammill BG, Hernandez AF, Peterson ED, Fonarow GC, Schulman KA, Curtis LH. Linking inpatient clinical registry data to Medicare claims data using indirect identifiers. Am Heart J. 2009;157(6):995-1000.
    13. Jacobs JP, Edwards FH, Shahian DM, Haan CK, Puskas JD, Morales DL, et al. Successful linking of the Society of Thoracic Surgeons adult cardiac surgery database to Centers for Medicare and Medicaid Services Medicare data. Ann Thorac Surg. 2010;90(4):1150-7.
    14. Li Q, Glynn RJ, Dreyer NA, Liu J, Mogun H, Setoguchi S. Validity of claims‐based definitions of left ventricular systolic dysfunction in Medicare patients. Pharmacoepidem Dr S. 2011;20(7):700-8.
    15. Tromp M, Ravelli AC, Bonsel GJ, Hasman A, Reitsma JB. Results from simulated data sets: probabilistic record linkageoutperforms deterministic record linkage. J Clin Epidemiol. 2011;64(5):565-72.
    16. Howe HL, Lake AJ, Shen T. Method to assess identifiability in electronic data files. Am J Epidemiol. 2007;165(5):597-601.
    17. Dusetzina S, Tyree S, Meyer A, Meyer A, Green L, Carpenter W. Linking Data for Health Services Research: A Framework and Instructional Guide.Agency for Healthcare Research and Quality (US); 2014.
    18. Randall SM, Ferrante AM, Boyd JH, Semmens JB. The effect of data cleaning on record linkage quality. BMC Med Informatics and decision making. 2013;13(1):64.
    19. Mason CA, Tu S. Data linkage using probabilistic decision rules: A primer. Birth Defects Research Part A: Clinical and Molecular Teratology. 2008;82(11):812-21.
    20. Nicoletta C, Tiziana T. Statistical Perspective on Blocking Methods When Linking Large Data-sets. Studies in Theoretical and Applied Statistics. 2012.
    21. Winkler WE. String Comparator Metrics and Enhanced Decision Rules in the Fellegi-Sunter Model of Record Linkage. 1990.
    22. Belin TR, Rubin DB.  method for calibrating false-match rates in record linkage. Journal of the American Statistical Association. 1995;90(430):694-707.
    23. Copeland KT, Checkoway H, McMichael AJ, Holbrook RH. Bias due to misclassification in the estimation of relative risk. Am J Epidemiol. 1977;105(5):488-95.
    24. Rodgers A, Walker N, Schug S, McKee A, Kehlet H, Van Zundert A, et al. Reduction of postoperative mortality and morbidity with epidural or spinal anaesthesia: results from overview of randomisedtrials. Bmj. 2000;321(7275):1493.
    25. Howe GR. Use of computerized record linkage in cohort studies. Epidemiol Rev. 1998;20(1):112-21.
    26. Brenner H, Gefeller O. Use of the positive predictive value to correct for disease misclassification in epidemiologic studies. Am J Epidemiol. 1993;138(11):1007-15.
    27. Muse AG, Mikl J, Smith PF. Evaluating the quality of anonymous record linkage using deterministic procedures with the New York State AIDS registry and a hospital discharge file. Stat Med. 1995;14(5‐7):499-509.
    28. Lash TL, Fox MP, Fink AK. Applying quantitative bias analysis to epidemiologic data: Springer Science & Business Media; 2011.
    29. Megan A Bohensky DJ, Vijaya Sundararajan, Sue Evans, David V Pilcher, Ian Scott, Caroline A Brand. Data Linkage: A powerful research tool with potential problems. BMC Health Services Research. 2010;10:346.

     

     

     

    Probabilistic record linkage methodology: a review article

     

    Erfan Ayubi

    Ph.D Candidate of Epidemiology, School of Medicine, Zabol University of Medical Sciences, Zabol, Iran

    Ph.D Candidate of Epidemiology, Department of Epidemiology, School of Public Health, Tehran University of Medical Science,Tehran, Iran

     

    Kamyar Mansori

    Ph.D Candidate of Epidemiology, School of Medicine, Kurdistan University of Medical Sciences, Sanandaj, Iran

    Ph.D Candidate of Epidemiology, Department of Epidemiology, School of Public Health, Iran University of Medical Science, Tehran, Iran

     

    Mohammad Golmahi

    Cancer Research Center, Tehran University of Medical Sciences

     

    Ozra Ramezankhani

    Research Institute for Endocrine Sciences, Shahid Beheshti University of Medical Sciences

     

    Alireza Mosavi-Jarrahi

    Department of Social Medicine, School of Medicine, Shahid Beheshti University of Medical Sciences

     

    Received:28/08/2015, Revised:03/11/2015, Accepted:18/12/2015


    Abstract

    Research development and information technology progress lead to generate big dataset with valuable information. In health research, with tracing people from different dataset like registries can provide valuable information about prognosis, prediction, discrimination, detection or etiology for many outcomes without establishing costly studies. Extracting the knowledge from this potential information is applied using advanced methods such as data linkage or record linkage with deterministic or probabilistic algorithm. However, probabilistic linkage is computationally complex and not well understood by many researchers who may wish to apply it in their work. Therefore, the purposes of this review article is to introduce probabilistic record linkage methodology such as quality and standardization of dataset, determining the matching records from different dataset, calculating the matching weights and discrimination matched from unmatched record using a cut point. In follow, with a practical example the probabilistic record linkage methodology is introduced by cancer registry and mortality dataset.

    Keywords: Data linkage, Probabilistic Algorithm, Cancer registry, Mortality

     

     

     

     

     

     

     

     

     

     

     

     

     

     

    Corresponding Author:

    Alireza Mosavi-Jarrahi

    Department of Social Medicine, School of Medicine, Shahid Beheshti University of Medical Sciences

    E-mail: rmosavi@yahoo.com